L'apprentissage automatique dans les sciences de l'information médicale

De plus en plus les nouvelles capacités informatiques (puissance de calcul) ainsi que nouveaux algorithmes d’apprentissages automatiques ouvrent de nouvelles possibilités dans la prise en charge du patient. Ces méthodes apprennent par l’exemple en analysant automatiquement de larges volumes de données.

Le groupe utilise principalement des méthodes de classification automatique, et d’extraction de l’information, ainsi que des modèles de langages spécialisés pour le traitement de corpus en français clinique et médicale.

Classification & regroupement automatique des documents

Pour extraire des informations pertinentes à partir d’un large corpus de données, une étape primordiale consiste à évaluer automatiquement dans quelle catégorie se trouve le document.

Les algorithmes de classification automatique sont principalement utilisés lorsque des catégories doivent être définies a posteriori (non présentes lors de la génération des descriptions/métadonnées du document) et qu’une classification manuelle n’est pas raisonnable.

Les applications possibles vont de la classification automatique des documents (i.e. ne conserver que les rapports de radiologie décrivant la présence d'une nouvelle fracture du scaphoïde), à la classification d’éléments textuels plus courts (i.e. classification automatique des concepts médicaux dans les classifications médicales internationales ou locales telles que la CIM-10, CHOP, etc).

Etat de l’art: Naïve Bayes, SVM, classifieurs linéaires
Méthodes hybrids plus avancées

Modèles de langage spécifiques pour les données clinique & médicales

L'idée de base est de représenter une partie de données textuelles (par exemple un mot) comme un vecteur au lieu d'un index dans un vocabulaire, pour permettre un «apprentissage» automatique et non supervisé à partir de co-occurrences dans de grands corpus textuels.

Cette technique montre de très bonnes performances pour traiter des homographes («Elle est allée vers l'est.») ou comprendre les similitudes entre les concepts (une «jambe cassée» sera représenté de la même manière que «fracture du membre inférieur»). Les récits médicaux français sont très spécifiques et nécessitent des intégration de mots spécialisés.

Word2Vec
Modèles pré-entrainés, affinés sur les notes cliniques
Modèles pré-entrainés, affinés sur la littérature médicale en français

Visualisation des données médicales

La visualisation des données médicales dans le domaine des données massives représente différents défis, tels que la synthèse des données et leur interprétabilité.

Les visualisations habituellement utilisées par la communauté de la science des données doivent être adaptées et pensées différemment afin de communiquer avec précision et efficacité à un public médical et citoyen.

Extraction automatique de l’information

La génération de données augmente de façon exponentielle et les outils automatiques pour extraire les informations deviennent critiques dans de nombreux domaines. Dans les soins, jusqu'à 80% des informations pertinentes sont cachées dans du texte libre. À titre d'exemple, la détection automatique des effets indésirables des médicaments améliore la sécurité des patients et permet de trouver des corrélations à partir de grandes collections de patients.

Les outils de recherche d'informations visent à trouver des informations spécifiques à partir de grandes collections de données, qui peuvent être analysés ultérieurement manuellement dans un délai raisonnable ou utilisé dans divers systèmes d'aide à la décision clinique : détection des effets secondaires, reconnaissance d'entités nommées, etc.

Apprentissage automatique

Classification & regroupement automatique des documents

Modèles de langage spécifiques pour les données clinique & médicales

Visualisation des données médicales

Extraction automatique de l’information