Jumeaux numériques de santé, et la proportionnalité entre revendication, preuve et responsabilité
Un jumeau numérique de santé qui affiche une bonne courbe de performance a démontré une seule chose : qu’il prédit. Il n’a montré ni qu’il explique, ni qu’il simule, ni qu’il peut servir à intervenir sur un patient. Cet article pose une règle unique de proportionnalité : les revendications d’un modèle doivent être à la mesure de la preuve qu’il fournit et de la responsabilité qu’il engage, et une preuve de prédiction ne satisfait ni l’une ni l’autre quand la revendication est d’intervenir. La cible est le jumeau statistique, et la part statistique du jumeau hybride ; un jumeau mécanistique qui porte ses hypothèses causales dans ses équations relève d’une autre évaluation.
Prédire, c’est associer une sortie à une entrée. Expliquer, c’est savoir pourquoi l’association tient. Simuler, c’est produire des contrefactuels fiables. Intervenir, c’est agir sur un corps réel. Ces verbes ne forment pas un escalier de connaissance : la médecine intervient depuis des décennies sans expliquer, de l’aspirine au lithium à l’anesthésie générale. Ce qui les sépare est la responsabilité. Une erreur de prédiction détériore une métrique, une erreur d’explication compromet un modèle, une erreur de simulation invalide des hypothèses, une erreur d’intervention détériore un patient. La preuve exigée s’alourdit à chaque cran parce que le porteur de l’erreur change, pas parce que la cognition change. L’amalgame industriel consiste à présenter un système qui a rempli la première ligne comme s’il avait rempli les suivantes, et le glissement se loge dans un verbe : le jumeau qui « modélise », « anticipe » ou « teste ».
La plupart des évaluations de jumeaux surpondèrent la discrimination et affament la calibration. L’ordre devrait être inversé. La discrimination mesure si le modèle classe les patients les plus à risque au-dessus des moins à risque, ce que résument l’AUC ou le c-index. La calibration mesure si un risque annoncé de vingt pour cent correspond bien à un événement sur cinq. Une décision clinique repose sur un seuil de probabilité, pas sur un rang, et un seuil n’a de sens que sur des probabilités calibrées. Un modèle qui discrimine bien mais calibre mal envoie les mauvais patients de l’autre côté du seuil avec une assurance trompeuse, et la calibration est souvent ce que le changement de distribution dégrade en premier.
Une performance fortement importée n’est pas pour autant fragile. AlphaFold dépend d’un prior exogène gigantesque et se révèle plus robuste que bien des modèles entraînés sur une seule tâche étroite. Importer une régularité est souvent ce qui sauve un modèle quand la cohorte du patient est trop petite pour la fournir. D’où une distinction qui tranche : la provenance explique pourquoi un modèle tient ou cède, la transférabilité décide s’il peut être déployé. Les deux dimensions sont découplées, et le critère décisif est la stabilité sous changement de distribution, non la pureté de l’origine. L’audit de dépendance ne purge pas l’exogène au nom d’une pureté endogène ; il le déclare et le teste là où il compte.
Un jumeau prétend rarement se contenter de prédire ; il prétend simuler, et la simulation exige une structure causale suffisamment correcte, pas seulement une bonne performance. Même à signal fort, un jumeau peut être faux s’il simule sur une structure incorrecte. Deux propriétés bornent la portée d’une simulation : la transportabilité, qui dit si un résultat établi dans une population vaut dans une autre, et l’invariance, qui dit si une relation se maintient à travers les environnements. Hors du domaine où transport et invariance ont été montrés, une simulation n’est pas fausse par malchance ; elle est hors garantie. La plupart des systèmes thérapeutiques sérieux vivent au niveau de la causalité interventionnelle locale, sur un domaine borné. La faute consiste à vendre ce niveau comme une causalité structurelle généralisable.
L’ingénierie critique gradue déjà la preuve selon la gravité de la défaillance : la DO-178C définit cinq niveaux d’assurance et fait décroître ses objectifs de vérification avec la criticité. La santé classe le risque d’une IA de dispositif médical au titre de l’AI Act et du MDR/IVDR, mais ne fournit aucun barème pour la légitimité de la simulation. Le livrable proposé comble ce vide sans excès. C’est une fiche d’identité du jumeau en quatre blocs : l’objet, avec ses cibles prédictive et décisionnelle ; les données, avec la taille d’échantillon effective et les dépendances déclarées ; la validité, avec la transférabilité hors distribution, le niveau causal et le domaine au-delà duquel le jumeau ne doit pas simuler ; l’assurance, avec le niveau visé et les conditions explicites de non-déploiement. Objet, données, validité, assurance : ce qu’on prétend, avec quoi, jusqu’où, et sous quelle garantie. La fiche n’est pas une norme en vigueur ; elle rend opérationnel l’esprit des règlements existants pour le cas des jumeaux.
Un jumeau numérique qui prétend intervenir avec une preuve de prédiction n’est pas un patient virtuel. C’est une décision déguisée en mesure, et une responsabilité que personne n’a signée. L’article complet, avec le tableau de responsabilité, l’audit de dépendance et les références, est disponible ci-dessous.
Notes doctrinales et explorations sur l’IA en systèmes régulés. Une à deux fois par mois. Désabonnement en un clic.