Intelligence Artificielle et Machine Learning : données inexactes, résultats erronés

06 juin 2017

Durant l’antiquité, les oracles étaient un moyen pour les gens de recevoir des conseils sages et avisés, d'inspiration divine.

De l’Assyrie à l’Egypte en passant par leurs célèbres pairs grecs, les oracles étaient le canal par lequel les dieux parlaient aux hommes. Pour les peuples de toutes les civilisations désireuses de connaître le futur ou de prendre la bonne décision, l’oracle permettait de connaître l’inconnu.

Dans nos cultures modernes, les ordinateurs et la technologie sont devenus les nouveaux oracles (au point qu’un important éditeur de logiciels s’est choisi ce nom). Et avec la croissance infinie des données, les gens veulent en extraire du sens pour prédire l'avenir. Plus que jamais, ils veulent disposer de leur propre version de l’Oracle de Delphes, d’une prêtresse qui leur dira ce qui va se produire.

Les entreprises technologiques se sont précipitées pour répondre à ce besoin ancestral. Aujourd'hui, les nouveaux oracles se nomment intelligence artificielle (IA), apprentissage automatique (Machine Learning) ou encore apprentissage profond (Deep Learning).

Et l’attrait de l’IA est incomparable dans le domaine de la santé, avec son potentiel de traitement et de diagnostic virtuellement illimité. Ce n’est finalement pas si surprenant : la santé constitue un domaine incroyablement vaste, aux nombreux aspects éminemment complexes, et qui se transforme rapidement au gré des avancées technologiques. Comme les anciens Grecs de Delphes avides de sagesse, nous espérons que l’IA nous aidera à entrevoir le futur et nous permettra de prendre les bonnes décisions médicales.

Mais ce que l’on oublie dans cette ruée vers l’or de l’IA et de l'apprentissage automatique sur le secteur de la santé, c’est une loi immuable de l’informatique : GIGO, ou « Garbage In, Garbage Out ». En d'autres termes, les ordinateurs ne sont aussi bons que les données qu’on leur fournit. Lorsque vous formez une IA à l’aide de données inexactes ou diffuses, vous obtenez forcément des résultats erronés.

Pour le dire encore plus simplement, vous ne pouvez pas effectuer d’apprentissage profond ou d’apprentissage automatique ni exploiter l’intelligence artificielle si les données sont inexistantes ou erronées.

Voici un exemple parfait de données inexistantes [i] : une étude de 2015 sur l’efficacité d’une technique d’apprentissage automatique servant à prédire quels patients d'un hôpital risquaient de connaître des complications liées à une pneumonie a montré qu’elle fonctionnait bien dans la majorité des situations. Sauf que l’algorithme a commis une grossière erreur : il a indiqué aux médecins de renvoyer les patients asthmatiques chez eux, alors qu'ils forment une catégorie à haut risque. Cela venait du fait que le protocole de l’hôpital consistait à envoyer systématiquement les patients souffrant d’asthme en soins intensifs. Ces patients n’étaient donc que rarement recensés dans la liste des patients ‘nécessitant des soins complémentaires’ ayant servi à former le système.

« Les gens ont peur que les ordinateurs deviennent trop intelligents et prennent le contrôle, alors que le vrai problème est qu'ils sont trop stupides et qu’ils ont déjà pris le contrôle. » Pedro Domingo dans The Master Algorithm,

Dans de nombreuses organisations, l’espoir de trouver des réponses faciles entraîne les conséquences les plus graves que nous ayons constatées aux stades précoces de l’IA et de l'apprentissage automatique : « Garbage in, gospel out », ou « données de mauvaises qualité en entrée, résultat de qualité en sortie ». Comme l'ont signalé de nombreux articles, la leçon principale sur le front de l’informatique cognitive et des initiatives d'apprentissage profond est que les réussites ne sont pas tangibles. [ii] Nous voulons tellement croire aux postulats de ces oracles technologiques que nous croyons que le simple fait d’exploiter ces techniques créera du sens, de meilleurs soins et de meilleurs résultats.

Malheureusement, ce n’est pas le cas, et cela ne l’a jamais été.

Dans son livre de 1864 Passages from the Life of a Philosopher, Charles Babbage, le « père de l'ordinateur », écrit : « On m’a demandé à deux reprises, ‘Dites M. Babbage, si vous donnez les mauvais chiffres à la machine, est-ce qu’elle fournira les bonnes réponses ?’… Je suis incapable de comprendre le type de pensée confuse qui pourrait engendrer une telle question. »

Alors que doit faire une organisation réfléchie pour tirer parti de l’IA et de l'apprentissage automatique afin de réellement améliorer les soins ?

Mes conseils à ces organisations qui souhaitent exploiter ces nouvelles technologies est simple :

1. Ne succombez pas à la stratégie par communiqué de presse».

Sous-traiter la gestion de données ou espérer que l’IA puisse miraculeusement résoudre les problèmes stratégiques les plus complexes en exploitant des technologies qui n'ont pas fait leurs preuves et sans plan d'action est d'une futilité absolue.

On dit que les deux jours les plus heureux d'un plaisancier sont le jour de l’achat et le jour de la vente du bateau. On peut penser la même chose de la stratégie d’IA par communiqué de presse. Le premier communiqué annonce une avancée extraordinaire et décrit les problèmes qui restent à résoudre. Le second communiqué, qui ne sera pas forcément diffusé, est celui qui annonce la fermeture en catimini du projet infructueux.

Aucun degré de génie marketing ne pourra remplacer une stratégie solide et le dur labeur de recherche dans le domaine des sciences des données. Ce comportement lie également votre stratégie d’IA à un fournisseur particulier. Lorsque vous annoncez que vous faites des merveilles à l'aide d'une technologie d’IA particulière, vous risquez de vous retrouver prisonnier d'une solution unique. Il convient plutôt d’envisager les systèmes d’IA comme un ensemble d'infrastructures informatiques supplémentaires, ayant intérêt à être modulaires afin de pouvoir faire évoluer facilement ses composants. De même, la bonne stratégie doit être mise en œuvre pour permettre l'agrégation et la normalisation des données de santé à partir de systèmes disparates, afin de pouvoir bâtir, tester et déployer des algorithmes d'apprentissage automatique dans toute l’organisation. Cette approche permettra aux organisations de tirer parti des innovations du secteur, tout en diminuant le risque d'obsolescence des systèmes d’apprentissage automatique et les coûts associés aux intégrations personnalisées.

Vouloir atteindre la lune sans construire une rampe de lancement, n’est-ce pas un constat d’échec proactif ?

2. Traitez les technologies d’IA en tant qu’élèves, pas en tant que maîtres

Fondamentalement, les technologies d’IA et d’apprentissage automatique reproduisent la cognition et les capacités d'apprentissage humaines, de façon accélérée. Dès lors, si vous ne disposez pas d'une stratégie d'apprentissage saine, l’IA ou l’apprentissage automatique ne seront d'aucune aide. Cela paraît évident, mais c’est un point souvent négligé. L'autre point essentiel est que nous devons traiter ces technologies comme des élèves motivés et les aider à se développer, et non comme des oracles omniscients et visionnaires capables de définir l’orientation de l’entreprise.

Cris Ross, le directeur informatique de la Mayo Clinic, décrit l’état actuel de l’IA de la manière suivante : « L’intelligence artificielle est encore assez bête, et je ne dis pas ça péjorativement... Les meilleurs exemples d’intelligence artificielle existants sont toujours fondés sur ce qu'on appelle des modèles sémantiques, c’est-à-dire une représentation du langage, des relations entre les mots et de la manière dont ils s'agrègent. Le seul moyen pour que ces systèmes fonctionnent consiste donc à leur fournir des montagnes de données à analyser, et d’en extraire des connexions statistiquement significatives qui pourront ensuite être exploitées pour glaner d'autres informations. C’est donc comme un enfant de 2 ans qui apprend à parler, à marcher et à interagir avec son environnement. Si je mets ma main au feu, il est fort probable que je me brûle, ce qui n’est pas forcément évident pour un enfant de 2 ans. »

L’IA ne va pas guérir le cancer, résoudre la faim dans le monde, ni y répandre la paix. Ce qu’elle peut faire en revanche, c’est rendre les humains plus efficaces dans le traitement et l’analyse de données pertinentes. Mais pour qu’elle soit utile, l’IA doit être formée, alors traitez-la comme une néophyte et créez les conditions adéquates pour qu’elle puisse apprendre. [iii]

3. Planifiez votre stratégie de données – rien ne peut remplacer de bonnes données

Enfin, rien ne peut remplacer des données de qualité. Nous connaissons tous cette loi informatique immuable : GIGO, (« Garbage In, Garbage Out »), et nous devons tous la prendre en compte. L’IA n’est pas un raccourci vers un résultat magique basé sur des données de mauvaise qualité. Comme l'a récemment rappelé John Bruno de Forrester en parlant des implications d’Einstein, la nouvelle IA de Salesforce : « L'avenir des processus commerciaux fondés sur des outils d'analyse est prometteur, mais le chemin n’est pas dénué d’embuches. Les clients actuels ou prospectifs de Salesforce doivent se rappeler que les recommandations intelligentes nécessitent un volume important de données de qualité. Si les données en entrée sont mauvaises, les recommandations en sortie le seront aussi. Nettoyer les données, et améliorer minutieusement les recommandations de manière itérative constitueront des points essentiels pour une réussite à long terme. » [iv]

Si vous avez des ambitions en matière d’exploitation des technologies actuelles, sachez que l’IA dépend fortement de quantités gargantuesques de données. Ce qui signifie que cette technologie n’est applicable que si l'on dispose d’ensembles de données suffisamment profonds et riches, avec suffisamment de subtiles variations.

Les données ouvrent la voie à l’IA, et pour récolter les fruits de l’IA et de l’apprentissage automatique, nous devons mettre en œuvre une stratégie de données de santé. Dans le domaine de la santé, cela signifie qu'il faut dépasser le dossier médical électronique et les entrepôts de données Pour être sûr de disposer des bonnes fondations pour tout effort d’IA ou d'apprentissage automatique, vous devez disposer d'une stratégie de données de santé — et d’une manière de réellement gérer TOUTES vos données.

Si vous souhaitez atteindre la lune, c’est le seul moyen d'arriver au moins jusqu’à la rampe de lancement.

> Version anglaise de cet article

Pour en savoir plus :

La plateforme de gestion de données InterSystems IRIS

[i] Caruana, R. et al. ‘Intelligible models for healthcare: predicting pneumonia risk and hospital 30-day readmission’ Proc. 21th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining1721–1730 (ACM, 2015).

[ii] Davenport, Thomas H. “Lessons from the Cognitive Front Lines: Early Adopters of IBM’s Watson.” The Wall Street Journal. Dow Jones & Company, 03 Dec. 2015. Web. 15 May 2017.

[iii] Parmar, Arundhati, Arundhati Parmar | 1:42 Pm May 10, Stephanie Baum | 2:27 Pm May 15, Juliet Preston | 2:15 Pm May 15, and Erin Dietsche | 10:31 Am May 15. “AI Is “still Pretty Dumb” and like a “2-year-old”.” MedCity News. N.p., 08 Mar. 2017. Web. 15 May 2017.

[iv] “John Bruno’s Blog.” Can Salesforce Really Prescribe An End-to-End Sales Process? | Forrester Blogs. N.p., n.d. Web. 15 May 2017.

InterSystems

Pour en savoir plus sur l'auteur

Intelligence Artificielle et Machine Learning : données inexactes, résultats erronés

1. Ne succombez pas à la stratégie par communiqué de presse».

2. Traitez les technologies d’IA en tant qu’élèves, pas en tant que maîtres

3. Planifiez votre stratégie de données – rien ne peut remplacer de bonnes données

Créez des applications critiques et exigeantes en données avec InterSystems IRIS. Commencez à coder dès à présent.