National

Les réponses de ChatGPT en matière de santé sont peu fiables, montre une étude

La Presse Canadienne, 2024

11h24

29 mai 2025

Temps de lecture :

3 minutes

Par La Presse Canadienne, 2024

MONTRÉAL — ChatGPT-4.0 répond incorrectement à près des deux tiers des questions diagnostiques ouvertes qui lui sont posées, ont constaté des chercheurs ontariens.

Si les erreurs de ChatGPT-4.0 n'étaient pas catastrophiques, les auteurs de l'étude en viennent quand même à la conclusion qu'il «reste encore des améliorations à apporter avant que ces (grands modèles de langage) puissent être utilisés de manière fiable dans un contexte médical».

Sans ces améliorations, écrivent-ils dans le journal JMIR Formative Research, les outils comme ChatGPT «risquent de désinformer les individus».

Ce n'est pas d'hier que les internautes fouillent en ligne pour élucider leurs symptômes, a rappelé Sirisha Rambhatla, une professeure adjointe du département de sciences de gestion et d'ingénierie qui a supervisé les travaux du doctorant Troy Zada à l'Université de Waterloo.

Mais contrairement aux réponses plus «génériques» fournies par des outils comme Google, des outils comme ChatGPT «semblent très humains parce que la réponse est personnalisée en fonction de votre question. On pense donc que les gens auront davantage tendance à leur faire confiance», a-t-elle dit.

L'étude a utilisé une centaine de questions issues d'un examen médical à choix multiples. Les questions avaient été modifiées pour générer des réponses ouvertes. Elles reflétaient les symptômes et les préoccupations que des utilisateurs réels pourraient poser à ChatGPT.

Des étudiants en médecine qui ont évalué les réponses ont estimé que seulement 37 % d'entre elles étaient correctes. Environ deux tiers des réponses, qu'elles soient factuellement correctes ou incorrectes, ont par ailleurs été jugées peu claires par les évaluateurs experts et non experts.

«L'hypothèse selon laquelle ChatGPT n'est actuellement pas adapté à l'autodiagnostic est confirmée, écrivent ainsi les auteurs de l'étude. Sur les trois évaluations réalisées avec un seuil de réussite de 60 %, GPT-4.0 n'en a réussi qu'une seule de justesse. L'analyse indique que GPT-4.0 est généralement imprécis et incorrect lorsqu'il fournit des informations médicales. Cependant, lorsque GPT-4.0 fournit des réponses correctes, il reste suffisamment fiable pour continuer à répondre à ces questions avec précision, même lorsque certaines informations sont manquantes.»

ChatGPT a par exemple répondu à un homme que son éruption cutanée était probablement attribuable à un nouveau détergent qu'il utilisait, alors qu'en réalité elle était causée par ses gants en latex.

«La réponse était plausible, elle n'était pas clairement fausse, a dit la professeur Rambhatla. Si c'était clairement faux, ça serait facile. Et c'est ça, le problème.»

Si cette erreur risque, au pire, de retarder un peu le bon diagnostic et la prise en charge appropriée du problème, on ne peut pas exclure le risque de voir un utilisateur de ChatGPT faire fi d'une situation plus grave après avoir reçu une réponse rassurante du robot.

Les auteurs de l'étude admettent toutefois que la performance de ChatGPT-4.0 est nettement supérieure à celle de la version précédente de l'outil, qui avait aussi été mise à l'épreuve.

«Des preuves substantielles indiquent que les (grands modèles de langage) s'améliorent continuellement, ce qui suggère leur utilisation potentielle future dans les systèmes de santé», écrivent-ils.

À une époque où l'accès à un médecin de famille est difficile à travers le Canada, il y a de fortes chances que de plus en plus de Canadiens se tourneront vers des outils d'intelligence artificielle pour répondre à leurs questions en matière de santé. Une enquête menée récemment en Australie a constaté qu'un habitant de ce pays sur dix avait déjà posé une question médicale à ChatGPT.

Des mesures doivent donc être mises en place pour éviter que les internautes ne se fient aveuglément aux réponses de l'IA, a dit la professeure Rambhatla, qui cite en exemple des vidéos médicaux sur YouTube qui préviennent que le contenu n'a pas été validé par un expert médical.

«On se tourne vers ces outils parce qu'ils sont plus facilement accessibles, a conclu la chercheuse. On ne veut pas priver les gens d'une source d'information, mais il faut que ça soit plus fiable. Idéalement il faudrait que les systèmes puissent nous répondre 'je ne sais pas' ou 'je ne suis pas certain'. Le problème lui-même nous montre la solution requise.»

Jean-Benoit Legault, La Presse Canadienne