Aucune IA clinique ne devrait être généralisée sans preuve médico-économique indépendante
Position doctrinale sur l’écart entre la performance technique spectaculaire des systèmes d’IA en diagnostic médical et l’absence persistante de preuve médico-économique indépendante de leur bénéfice systémique.
Microsoft AI a présenté MAI-DxO, un « orchestrateur » multi-agents qui a résolu 85% de 304 cas cliniques complexes du NEJM — quatre fois le score d’un groupe contrôle de médecins, à coût notionnel inférieur. Le système fonctionne comme un panel virtuel de spécialistes qui interroge, prescrit des examens et se corrige avant de poser un diagnostic.
Trois avancées méritent d’être soulignées : un raisonnement séquentiel et coût-conscient qui dépasse les benchmarks de type QCM que les LLMs dominent déjà ; un signal de coût intégré où chaque examen porte un prix CPT, attaquant le problème des 100 milliards de dollars annuels de sur-prescription aux États-Unis ; et une couverture simultanée en largeur et en profondeur qu’aucun clinicien isolé ne peut assurer.
L’analyse révèle plusieurs biais structurels : un biais d’échantillonnage (les cas NEJM sont rares et « riches en signal », non représentatifs de la prévalence en soins primaires), un biais rétrospectif (les cas résolus rétro-adaptés en dialogues peuvent fuiter des indices textuels), un biais de baseline (21 médecins généralistes hors de leur spécialité constituent un étalon fragile pour les revendications « surhumaines »), et un biais modèle-sur-modèle (le propre LLM de Microsoft évalue son système frère).
Trois dimensions restent hors du périmètre du benchmark mais sont au cœur de la pratique clinique : la sémiologie exclusivement textuelle sans imagerie, auscultation ni signes tactiles ; le point de départ post-anamnèse sur une vignette pré-digérée qui contourne la complexité de l’interrogatoire réel ; et l’absence de confrontation avec l’incohérence, l’émotion et les indices non verbaux du patient réel.
La question fondamentale demeure double : l’IA va-t-elle réellement surpasser — ou au mieux augmenter — les cliniciens humains et s’intégrer efficacement dans la chaîne de valeur des établissements de santé ? Et va-t-elle réduire les coûts systémiques et améliorer les outcomes, ou devenir un cheval de Troie permettant aux hyperscalers de siphonner les budgets de santé publique ?
L’évaluation médico-économique doit être intégrée dans toute initiative IA en santé dès sa conception.