IMPULSIONS

La donnée au cœur de ce qui compte

Tous les articles

Analyser le Big Data non structuré

dossiersmédicaux

Des piles de dossiers médicaux aux nouvelles connaissances utiles

Les sources de données peuvent être très diverses : des rangées de nombres structurées aux textes non structurés tels que les notes. Rien que cette dernière catégorie peut s'avérer une source très utile d'information. À condition que les données puissent être analysées rapidement et facilement. Il existe pour ce faire une technologie astucieuse : une forme spéciale d'analyse de texte qui permet de filtrer rapidement et de manière automatique des concepts se trouvant dans de grandes quantités de sources de données non structurées.

 

Notes

Dans les environnements médicaux, on trouve beaucoup de sources de données structurées utiles, comme l'évolution des résultats de tests à travers le temps et les champs de données codés. Mais l'information la plus précieuse se retrouve souvent dans les notes d'un spécialiste : des données relatives à un entretien avec le patient, des impressions, la pose d'un diagnostic, la demande écrite pour un test, les conclusions tirées de différents résultats de tests, etc.

Bien que ces notes soient de plus en plus souvent numérisées, elles ne sont encore que trop rarement analysées. Et c'est bien dommage. Ces énormes quantités de données non structurées pourraient toutefois être utilisées en ayant recours à des techniques d'analyse de texte.

 

La puissance de l'analyse de texte

Si l'on veut uniquement savoir le nombre de mots que contient un document, ou combien de fois ce mot apparaît, l'analyse de texte n'est pas vraiment nécessaire. On peut le déterminer à l'aide d'un algorithme mathématique très simple. Mais qu'en est-il si nous voulons répondre à des questions plus complexes, telles que :

  1. Combien de fois certains symptômes et médicaments apparaissent-ils simultanément dans des dossiers médicaux ?
  2. Un texte exprime-t-il un sentiment positif ou négatif et sur quels concepts ce sentiment est-il axé?
  3. Combien de textes traitent chaque mois de la neurochirurgie ?

Pour ce genre de questions, l'on peut avoir recours à l'analyse de texte. Dans ce cas, l'analyse de texte revient à extraire des données structurées d'un texte non structuré. Par exemple, si un texte est analysé dans le but de savoir s'il est positif ou non, le résultat affichera une valeur de données structurées : la valeur « oui » ou « non ».

L'avantage de l’obtention de données structurées à l'aide d'une analyse de texte est que ces nouvelles données créées de manière structurée peuvent être facilement combinées avec d'autres sources de données structurées et peuvent être alors traitées avec des algorithmes connus.

 

Plus qu'un thésaurus

La plupart des instruments d'analyse de texte requiert toutefois un travail préparatoire : un index, un thésaurus et une ontologie doivent être établis avant que le véritable travail d'analyse ne commence. Ensuite, l'objectif de l'analyse doit être clairement défini.

Les dossiers médicaux peuvent par exemple être analysés afin de collecter de nouvelles informations sur les effets d'un certain médicament sur les patients souffrant de diabète. Mais lorsqu'il faut rechercher des modèles historiques dans les effets secondaires faisant suite à une opération chirurgicale, un autre thésaurus est nécessaire, même si les mêmes patients sont analysés. La mise en place du thésaurus nécessaire pour une telle analyse de texte limite donc la liberté d'analyse et, partant, les résultats possibles.

 

La vitesse est essentielle

De plus, ce type d'analyse de texte « traditionnelle » demande souvent beaucoup de temps. Du temps dont on ne dispose pas toujours. Imaginez qu'un patient est amené aux urgences. Si les docteurs doivent intervenir rapidement, ils ont rarement le temps de lire le dossier médical dans son intégralité. Ce dont ils ont besoin, c'est d'un résumé de tous les aspects importants relatifs au patient : souffre-t-il de diabète ? Sa pression artérielle est-elle généralement élevée ? Quels médicaments prend-il ? Est-il venu ici auparavant ? La création d'un thésaurus pour l'analyse des documents disponibles prendrait dans ce cas beaucoup trop de temps.

 

Examiner rapidement de grandes quantités de textes

Il faut donc une technologie qui permette d'analyser rapidement les textes sans avoir à préparer le travail à l'aide d'un index et d'un thésaurus, et d'effectuer une analyse de manière autonome. Il existe pour ce faire une forme spéciale d'analyse de texte : l'exploration de texte.

 

Identifier des concepts

InterSystems a développé une technologie (iKnow) qui scinde les textes en phrases, puis en concepts et relations. En décomposant une phrase, le système examine d'abord les relations qu'elle contient. Il est ainsi possible d'établir une relation entre les concepts d'une phrase et des verbes. Mais des relations peuvent aussi se faire avec d'autres constructions de phrase.

bigdata2En identifiant les relations dans une phrase, il y a plus de chances de mettre en lumière les concepts souhaités. Dans la phrase « Le patient a pris des hypotenseurs », iKnow considère le temps passé du verbe « prendre » comme une relation qui sépare les concepts de « patient » et « hypotenseur ». Dans iKnow, on définit cela comme un ordre concept-relation-concept (CRC). De plus, iKnow laisse automatiquement tomber tous les articles superflus dans les phrases, tels que « le » et « un ».

 

Établir des relations

Il est possible d'établir des relations avec d'autres constructions de phrase également. Dans le passage « Traitements tels que la physiothérapie... », il existe une relation entre « traitements » et « physiothérapie ». Autre exemple : « La douleur dans le bas-ventre ». Ici, le mot « dans » induit une relation entre les concepts « douleur » et « bas-ventre ». La conception d'iKnow lui permet de reconnaître différentes constructions linguistiques afin d'établir des relations.

 

Contexte et fréquences

Ce processus, par lequel iKnow identifie des entités, décompose des phrases en graphiques où des concepts sont associés entre eux à l'aide de relations. Les graphes, les métadonnées de contexte et les fréquences qu'iKnow collecte de cette manière peuvent être utilisés pour des analyses plus poussées au sein d'un texte et entre différents blocs de texte.

De grands volumes de textes peuvent ainsi être analysés automatiquement, sans thésaurus ni ontologie, selon les concepts les plus importants. En ayant recours à cette forme spéciale d'analyse de texte, il est par exemple possible d'extraire rapidement les éléments les plus importants d'une pile de dossiers médicaux ou de résumer de grands volumes de texte.

 

Comment utiliser la technologie iKnow ?

La technologie iKnow est intégrée dans InterSystems Caché®, la base de données pour applications médicales la plus utilisée. Les résultats des analyses iKnow peuvent également être utilisés dans InterSystems DeepSee®: un logiciel d'informatique décisionnelle qui permet aux entreprises d'obtenir des informations en « temps réel » au départ de données structurées et non structurées. À l'heure actuelle, la technologie iKnow est déjà fonctionnelle pour le néerlandais, l'anglais, le français, l'allemand, le portugais et l'espagnol. Le japonais et le russe sont en cours de développement.

 

Vous voulez en savoir plus sur l'analyse de texte et le Big Data ? Téléchargez notre livre blanc gratuit sur l'Analyse de texte et le Big Data - Exploration de sources de données inexploitées :

Analyse sémantique de données dans le Big Data

 

 

Photocredit 1
Photocredit 2

THÈMES: Big Data, Données non structurées, e-Santé, Dossier Patient Informatisé

David Majster
David Majster
David Majster a été directeur marketing chez InterSystems Benelux entre 2003 et 2018. Il a combiné son enthousiasme pour les technologies TI avec une approche pragmatique. David est connu pour son bon sens de l'humour et son ingéniosité.

 


Laissez un commentaire

Vous aimerez peut-être: