Saturday, May 30, 2026
HomeHealth & FitnessAI models rival doctors on complex medical reasoning tasks, study finds

AI models rival doctors on complex medical reasoning tasks, study finds


Les modèles d’IA ont surpassé les médecins dans les décisions médicales en matière de soins d’urgence, selon une nouvelle étude.


PUBLICITÉ


PUBLICITÉ

Des chercheurs de la Harvard Medical School et du Beth Israel Deaconess Medical Center aux États-Unis ont comparé l’intelligence artificielle et les médecins sur un large éventail de tâches de raisonnement clinique.

Ils ont constaté que les grands modèles linguistiques (LLM) surpassaient les cliniciens dans plusieurs tâches, notamment la prise de décisions aux urgences sur la base des informations disponibles, l’identification des diagnostics probables et le choix des prochaines étapes de gestion.

“Nous avons testé le modèle d’IA par rapport à pratiquement tous les critères de référence, et il a surpassé à la fois les modèles précédents et les références de nos médecins”, a déclaré Arjun Manrai, co-auteur principal et professeur à la Harvard Medical School.

“Cependant, cela ne signifie pas que l’IA améliorera nécessairement les soins : comment et où elle devrait être mise en œuvre n’est pas encore bien étudiée, et nous avons désespérément besoin d’essais prospectifs rigoureux pour évaluer l’impact de l’IA sur la pratique clinique.”

Comment le modèle d’IA a-t-il été testé ?

Les chercheurs ont d’abord évalué o1-preview, le modèle de raisonnement d’OpenAI publié en 2024, fournissant une variété de cas cliniques, y compris des conférences de cas publiées et des dossiers réels de services d’urgence.

L’IA a surpassé les médecins humains dans la plupart des expériences, en particulier en matière de raisonnement de gestion, de raisonnement clinique, de documentation et de situations d’urgence réelles avec des informations limitées.

“Les modèles deviennent plus performants. Nous avions l’habitude d’évaluer les modèles avec des tests à choix multiples ; maintenant, ils obtiennent systématiquement un score proche de 100 % et nous ne pouvons plus suivre les progrès parce que nous sommes déjà au plafond”, a déclaré le co-auteur Peter Brodeur, chercheur clinique en médecine chez Beth Israel Deaconess.

Dans un test, les chercheurs ont demandé au LLM-o1 et au GPT-4o d’évaluer les patients à différents moments dans un service d’urgence standard, depuis le triage précoce jusqu’aux décisions d’admission ultérieures.

À chaque étape, le modèle n’a reçu que les informations disponibles à ce moment-là et a été invité à générer des diagnostics probables et à recommander ce qui devrait se passer ensuite.

Le plus grand écart entre l’IA et les médecins humains s’est produit au stade du triage, où les informations sur les patients sont les plus limitées.

À l’instar des médecins humains, les modèles d’IA ont amélioré leurs capacités de diagnostic à mesure que davantage d’informations devenaient disponibles.

“Bien que l’application de l’IA pour aider à prendre des décisions cliniques soit parfois considérée comme une tâche à haut risque, une utilisation accrue de ces outils pourrait servir à atténuer les coûts humains et financiers liés aux erreurs de diagnostic, aux retards et au manque d’accès”, ont écrit les auteurs.

Des recherches supplémentaires sont encore nécessaires

Les chercheurs ont appelé à des essais prospectifs pour évaluer ces technologies dans des contextes réels et à ce que les systèmes de santé investissent dans l’infrastructure informatique et développent des cadres pouvant prendre en charge l’intégration sécurisée des outils d’IA dans les flux de travail cliniques.

“Un modèle pourrait établir le bon diagnostic principal, mais également suggérer des tests inutiles qui pourraient exposer le patient à un préjudice”, a déclaré Brodeur. “Les humains devraient être la base ultime pour évaluer les performances et la sécurité.”

L’étude présente certaines limites. Les auteurs ont noté que l’étude reflète uniquement les performances du modèle et se concentre principalement sur la version préliminaire du modèle o1, qui a depuis été supplantée par des modèles plus récents tels que le modèle o3 d’OpenAI.

“Bien que nous nous attendions à ce que les performances soient maintenues ou améliorées avec des modèles plus récents, davantage d’études devraient être menées pour élucider la façon dont les performances varient entre les modèles et étudier comment les humains et les LLM peuvent collaborer”, ont écrit les auteurs.

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments