Tremplin Carnot Interfaces | OnBaSAM, un outil de Traitement Automatique des Langues, LIMICS
854
post-template-default,single,single-post,postid-854,single-format-standard,qode-quick-links-1.0,ajax_fade,page_not_loaded,,qode_grid_1300,footer_responsive_adv,qode-content-sidebar-responsive,qode-child-theme-ver-1.0.0,qode-theme-ver-11.2,qode-theme-bridge,wpb-js-composer js-comp-ver-5.2.1,vc_responsive
 

OnBaSAM, un outil de Traitement Automatique des Langues, LIMICS

chercheurs LIMICS, projet OnBaSam

OnBaSAM, un outil de Traitement Automatique des Langues, LIMICS

Au LIMICS, Laboratoire d’Informatique Médicale et d’Ingénierie des Connaissances en e-santé, rencontre avec Pascal Vaillant, enseignant-chercheur et maître de conférences en linguistique à Paris 13 et Jean Charlet, chargé de mission spécialiste en ontologie médicale. Ils nous expliquent leur projet OnBaSAM, un outil de Traitement Automatique des Langues (TAL) qui vise à retrouver les concepts décrits dans des documents textuels.

Concrètement, à quoi sert une ontologie médicale ?

L’ontologie est un modèle qui organise et clarifie les connaissances d’un domaine spécifique. C’est une description des connaissances du monde réel, tel que le décrivent les experts d’un domaine dans le cadre de leur pratique. Dans notre cas, ce domaine est la médecine. Nous avons obtenu un financement de Sorbonne Université (via l’IUIS ) afin de travailler sur un programme permettant de reconnaître les concepts dans les textes via une méthode d’annotation sémantique.

C’est le travail mené actuellement dans le cadre du projet PARON : il s’agit de repérer les ruptures dans les parcours de soins dans le cadre des maladies neuro-dégénératives. Ce projet se fait en association avec l’Institut du Cerveau et de la Moelle épinière (ICM) et le réseau SLA IdF (Sclérose Latérale Amyotrophique) en collaboration avec le Dr David Grabli, le professeur Vincent Meininger et Sonia Cardoso, doctorante ICM/LIMICS. Concrètement, nous analysons ce qui est écrit par les coordinateurs du réseau de soin, tels que les comptes rendus d’événements de ce réseau. Grâce à l’analyse de ces 60 000 documents, on essaie de comprendre pourquoi certains patients disparaissent du parcours de soin lors de leur prise en charge. Cela permettra de faire le lien entre un ou plusieurs antécédents ou événements de suivi communs à des patients qui ont abandonné le parcours de soin.

Vous avez été parmi les lauréats de l’appel à projets de Carnot Interfaces. Que va-t-il se passer ensuite ?

Le projet OnBaSAM vise à poursuivre ce travail d’annotation sémantique. Nous faisons face à des problématiques comme repérer la négation lors du traitement automatique des textes. Sans cela, l’analyse peut être faussée. Il y a, en effet, une grande différence entre « effets secondaires » et « absence d’effets secondaires ». De la même façon, il nous faut trouver des solutions pour l’analyse des conditionnels (donc l’expression des hypothèses) dans les textes afin de ne pas fausser les résultats.

Comment fonctionne cet outil et comment sera-t-il utilisé ?

OnBaSAM est un programme qui repère, dans les textes, des mots ou des passages qui font référence à des concepts identifiés dans l’ontologie: c’est ce qu’on appelle l’annotation sémantique. Nous travaillons avec une plateforme d’analyse de texte, GATE (General Architecture for Text Engineering) développée par l’université de Sheffield. C’est un logiciel libre qui offre une cadre unifié pour réutiliser des outils existants et développer d’autres outils plus spécifiques. En Angleterre, le King’s College Hospital utilise la plateforme GATE pour l’observation des corrélations de facteurs dans les dossiers de patients en psychiatrie. En France, nous en sommes encore à la phase de recherche dans ce domaine.

C’est un outil qui s’adressera aux chercheurs-cliniciens. Cela va leur permettre de repérer les grandes tendances chez les patients afin de pouvoir corriger certains problèmes ou mettre en place des recherches cliniques sur certains patients.

Pouvez-vous nous expliquer les problématiques linguistiques qui se posent pour le projet OnBaSAM ?

La masse de données qui figure dans les textes est considérable. 80% des données médicales sont textuelles. Lorsque l’on a une base de donnée « classique », on fait des hypothèses à partir de données structurées. En médecine, nous récupérons des comptes rendus écrits par des professionnels de santé. Il s’agit donc de transformer les textes en un matériel exploitable par un programme. C’est loin d’être évident car la langue naturelle a plusieurs manières différentes d’exprimer les mêmes idées, et chaque mot ou expression peut être interprété différemment selon le contexte. Dans un premier temps, il faut créer une terminologie, liste de termes de références se rapportant à un concept (par exemple « doliprane » et « paracétamol » se référant à la même chose) et en faire des connaissances structurées, i.e.des ontologies. Il y a aussi les difficultés liées aux abréviations des médecins. Pour terminer, l’outil OnBaSAM est un outil d’intelligence artificielle symbolique qui cherche à modéliser le domaine et le contexte d’expression des connaissances des professionnels pour les aider dans leur tâche de prise en charge des patients.