Thursday, April 16, 2026
HomeHealth & FitnessAI fails at primary patient diagnosis more than 80% of the time,...

AI fails at primary patient diagnosis more than 80% of the time, study finds


Selon une nouvelle étude, l’intelligence artificielle générative (IA) ne dispose toujours pas des processus de raisonnement nécessaires à une utilisation clinique sûre.


PUBLICITÉ


PUBLICITÉ

Les chatbots IA ont amélioré leur précision de diagnostic lorsqu’ils sont présentés avec des informations cliniques complètes, mais n’ont toujours pas réussi à produire un diagnostic différentiel approprié dans plus de 80 % du temps, selon les chercheurs du Mass General Brigham, un hôpital et un réseau de recherche à but non lucratif basé à Boston et l’un des plus grands systèmes de santé aux États-Unis.

Les résultats de l’étude, publiés en libre accès. Réseau JAMA ouvert revue médicale, a constaté que les grands modèles de langage (LLM) ne répondent pas au raisonnement requis pour une utilisation clinique.

“Malgré des améliorations continues, les grands modèles de langage disponibles sur le marché ne sont pas prêts pour une mise en œuvre clinique non supervisée”, a déclaré Marc Succi, co-auteur de l’étude.

Il a ajouté que l’IA ne peut pas encore reproduire le diagnostic différentiel, qui est fondamental pour le raisonnement clinique et qu’il considère comme « l’art de la médecine ».

Le diagnostic différentiel est la première étape permettant aux professionnels de la santé d’identifier une maladie, en la distinguant des autres présentant des symptômes similaires.

Comment les modèles ont été testés

L’équipe de recherche a analysé les performances de 21 LLM, dont les dernières versions disponibles de Claude, DeepSeek, Gemini, GPT et Grok.

Ils ont évalué les LLM dans 29 vignettes cliniques standardisées à l’aide d’un outil nouvellement développé appelé PrIME-LLM.

L’outil évalue la capacité d’un modèle à différentes étapes du raisonnement clinique : établir un diagnostic initial, commander les tests appropriés, parvenir à un diagnostic final et planifier le traitement.

Pour simuler le déroulement des cas cliniques, les chercheurs ont progressivement alimenté les informations des modèles, en commençant par des éléments de base tels que l’âge, le sexe et les symptômes du patient, avant d’y ajouter les résultats de l’examen physique et des résultats de laboratoire.

Un diagnostic différentiel est essentiel dans un contexte clinique réel pour passer à l’étape suivante. Cependant, dans l’étude, les modèles ont reçu des informations supplémentaires afin de pouvoir passer à l’étape suivante même s’ils échouaient à l’étape du diagnostic différentiel.

Les chercheurs ont constaté que les modèles linguistiques atteignaient une grande précision dans les diagnostics finaux, mais ne permettaient pas de générer des diagnostics différentiels et de faire face à l’incertitude.

L’auteur de l’étude, Arya Rao, a noté qu’en évaluant progressivement les LLM, la recherche cesse de les traiter comme des candidats et les met dans la position d’un médecin.

“Ces modèles sont excellents pour établir un diagnostic final une fois que les données sont complètes, mais ils ont du mal au début d’un cas, lorsqu’il n’y a pas beaucoup d’informations”, a-t-il ajouté.

Les chercheurs ont constaté qu’aucun des deux modèles ne parvenait à produire un diagnostic différentiel approprié dans plus de 80 % du temps.

Au diagnostic final, les taux de réussite variaient entre environ 60 % et plus de 90 %, selon le modèle.

La plupart des LLM ont montré une plus grande précision lorsqu’ils étaient fournis avec des résultats de laboratoire et des images en plus du texte.

Les résultats ont identifié un cluster hautes performances comprenant Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash et Gemini 3.0 Pro.

Les professionnels de la santé restent essentiels

Cependant, les auteurs ont noté que malgré les améliorations basées sur les versions et les avantages des modèles de raisonnement optimisés, les LLM disponibles dans le commerce n’ont pas encore atteint le niveau d’intelligence nécessaire pour une mise en œuvre sûre et restent limités dans la démonstration d’un raisonnement clinique avancé.

“Nos résultats renforcent le fait que les grands modèles linguistiques dans le domaine des soins de santé nécessitent toujours un” humain informé “et une surveillance très étroite”, a déclaré Succi.

Susana Manso García, membre du groupe de travail sur l’intelligence artificielle et la santé numérique de la Société espagnole de médecine familiale et communautaire, qui n’a pas participé à l’étude, a déclaré que les résultats transmettent un message clair au public.

« L’étude elle-même insiste sur le fait que [language models] Il ne doit pas être utilisé pour prendre des décisions cliniques sans supervision. Par conséquent, même si l’intelligence artificielle représente un outil prometteur, le jugement clinique humain reste indispensable », a-t-il déclaré.

“La recommandation au public est d’utiliser ces technologies avec prudence et, en cas de problème de santé, de toujours consulter un professionnel de la santé.”

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments