L'IA en santé : progrès impressionnants, preuve manquante

L’IA en santé : progrès impressionnants, preuve manquante

Position doctrinale sur l’écart entre la performance technique spectaculaire des systèmes d’IA en diagnostic médical et l’absence persistante de preuve médico-économique indépendante de leur bénéfice systémique.

Le cas MAI-DxO

Microsoft AI a présenté MAI-DxO, un « orchestrateur » multi-agents qui a résolu 85% de 304 cas cliniques complexes du NEJM — quatre fois le score d’un groupe contrôle de médecins, à coût notionnel inférieur. Le système fonctionne comme un panel virtuel de spécialistes qui interroge, prescrit des examens et se corrige avant de poser un diagnostic.

Ce qui est remarquable

Trois avancées méritent d’être soulignées : un raisonnement séquentiel et coût-conscient qui dépasse les benchmarks de type QCM que les LLMs dominent déjà ; un signal de coût intégré où chaque examen porte un prix CPT, attaquant le problème des 100 milliards de dollars annuels de sur-prescription aux États-Unis ; et une couverture simultanée en largeur et en profondeur qu’aucun clinicien isolé ne peut assurer.

Les biais méthodologiques à identifier

L’analyse révèle plusieurs biais structurels : un biais d’échantillonnage (les cas NEJM sont rares et « riches en signal », non représentatifs de la prévalence en soins primaires), un biais rétrospectif (les cas résolus rétro-adaptés en dialogues peuvent fuiter des indices textuels), un biais de baseline (21 médecins généralistes hors de leur spécialité constituent un étalon fragile pour les revendications « surhumaines »), et un biais modèle-sur-modèle (le propre LLM de Microsoft évalue son système frère).

Les limites cliniques structurelles

Trois dimensions restent hors du périmètre du benchmark mais sont au cœur de la pratique clinique : la sémiologie exclusivement textuelle sans imagerie, auscultation ni signes tactiles ; le point de départ post-anamnèse sur une vignette pré-digérée qui contourne la complexité de l’interrogatoire réel ; et l’absence de confrontation avec l’incohérence, l’émotion et les indices non verbaux du patient réel.

La question médico-économique

La question fondamentale demeure double : l’IA va-t-elle réellement surpasser — ou au mieux augmenter — les cliniciens humains et s’intégrer efficacement dans la chaîne de valeur des établissements de santé ? Et va-t-elle réduire les coûts systémiques et améliorer les outcomes, ou devenir un cheval de Troie permettant aux hyperscalers de siphonner les budgets de santé publique ?

L’évaluation médico-économique doit être intégrée dans toute initiative IA en santé dès sa conception.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

Point de départ : MAI-DxO (Microsoft AI) atteint 85% sur 304 cas NEJM complexes — quatre fois le score d'un groupe contrôle de médecins, à coût notionnel inférieur.
Biais méthodologiques identifiés : biais d'échantillonnage (cas NEJM rares vs. prévalence de soins primaires), biais rétrospectif (indices textuels dans les cas résolus), biais de baseline (21 MG hors spécialité), biais modèle-sur-modèle (le LLM de Microsoft évalue son propre système).
Limites cliniques structurelles : sémiologie exclusivement textuelle (pas d'imagerie, auscultation, signes tactiles), point de départ post-anamnèse sur vignette pré-digérée, absence de confrontation avec l'incohérence et la dimension émotionnelle du patient réel.
Question médico-économique non résolue : l'IA va-t-elle réduire les coûts systémiques et améliorer les outcomes, ou devenir un cheval de Troie permettant aux hyperscalers de siphonner les budgets de santé publique ?
Thèse centrale : l'évaluation médico-économique doit être intégrée dans toute initiative IA en santé dès sa conception — aucune IA clinique ne devrait être généralisée sans étude indépendante démontrant un bénéfice net pour le bien commun.