Une erreur de prédiction détériore une métrique, une erreur d'intervention détériore un patient

Une courbe de performance prouve la prédiction, et rien d’autre

Un jumeau numérique de santé qui affiche une bonne courbe de performance a démontré une seule chose : qu’il prédit. Il n’a montré ni qu’il explique, ni qu’il simule, ni qu’il peut servir à intervenir sur un patient. Cet article pose une règle unique de proportionnalité : les revendications d’un modèle doivent être à la mesure de la preuve qu’il fournit et de la responsabilité qu’il engage, et une preuve de prédiction ne satisfait ni l’une ni l’autre quand la revendication est d’intervenir. La cible est le jumeau statistique, et la part statistique du jumeau hybride ; un jumeau mécanistique qui porte ses hypothèses causales dans ses équations relève d’une autre évaluation.

Quatre verbes, une hiérarchie de responsabilité

Prédire, c’est associer une sortie à une entrée. Expliquer, c’est savoir pourquoi l’association tient. Simuler, c’est produire des contrefactuels fiables. Intervenir, c’est agir sur un corps réel. Ces verbes ne forment pas un escalier de connaissance : la médecine intervient depuis des décennies sans expliquer, de l’aspirine au lithium à l’anesthésie générale. Ce qui les sépare est la responsabilité. Une erreur de prédiction détériore une métrique, une erreur d’explication compromet un modèle, une erreur de simulation invalide des hypothèses, une erreur d’intervention détériore un patient. La preuve exigée s’alourdit à chaque cran parce que le porteur de l’erreur change, pas parce que la cognition change. L’amalgame industriel consiste à présenter un système qui a rempli la première ligne comme s’il avait rempli les suivantes, et le glissement se loge dans un verbe : le jumeau qui « modélise », « anticipe » ou « teste ».

La calibration, non la discrimination, fait le pont vers la décision

La plupart des évaluations de jumeaux surpondèrent la discrimination et affament la calibration. L’ordre devrait être inversé. La discrimination mesure si le modèle classe les patients les plus à risque au-dessus des moins à risque, ce que résument l’AUC ou le c-index. La calibration mesure si un risque annoncé de vingt pour cent correspond bien à un événement sur cinq. Une décision clinique repose sur un seuil de probabilité, pas sur un rang, et un seuil n’a de sens que sur des probabilités calibrées. Un modèle qui discrimine bien mais calibre mal envoie les mauvais patients de l’autre côté du seuil avec une assurance trompeuse, et la calibration est souvent ce que le changement de distribution dégrade en premier.

La provenance explique, la transférabilité décide

Une performance fortement importée n’est pas pour autant fragile. AlphaFold dépend d’un prior exogène gigantesque et se révèle plus robuste que bien des modèles entraînés sur une seule tâche étroite. Importer une régularité est souvent ce qui sauve un modèle quand la cohorte du patient est trop petite pour la fournir. D’où une distinction qui tranche : la provenance explique pourquoi un modèle tient ou cède, la transférabilité décide s’il peut être déployé. Les deux dimensions sont découplées, et le critère décisif est la stabilité sous changement de distribution, non la pureté de l’origine. L’audit de dépendance ne purge pas l’exogène au nom d’une pureté endogène ; il le déclare et le teste là où il compte.

La simulation a un domaine de validité, ou elle est hors garantie

Un jumeau prétend rarement se contenter de prédire ; il prétend simuler, et la simulation exige une structure causale suffisamment correcte, pas seulement une bonne performance. Même à signal fort, un jumeau peut être faux s’il simule sur une structure incorrecte. Deux propriétés bornent la portée d’une simulation : la transportabilité, qui dit si un résultat établi dans une population vaut dans une autre, et l’invariance, qui dit si une relation se maintient à travers les environnements. Hors du domaine où transport et invariance ont été montrés, une simulation n’est pas fausse par malchance ; elle est hors garantie. La plupart des systèmes thérapeutiques sérieux vivent au niveau de la causalité interventionnelle locale, sur un domaine borné. La faute consiste à vendre ce niveau comme une causalité structurelle généralisable.

La responsabilité commande la preuve, et la fiche l’enregistre

L’ingénierie critique gradue déjà la preuve selon la gravité de la défaillance : la DO-178C définit cinq niveaux d’assurance et fait décroître ses objectifs de vérification avec la criticité. La santé classe le risque d’une IA de dispositif médical au titre de l’AI Act et du MDR/IVDR, mais ne fournit aucun barème pour la légitimité de la simulation. Le livrable proposé comble ce vide sans excès. C’est une fiche d’identité du jumeau en quatre blocs : l’objet, avec ses cibles prédictive et décisionnelle ; les données, avec la taille d’échantillon effective et les dépendances déclarées ; la validité, avec la transférabilité hors distribution, le niveau causal et le domaine au-delà duquel le jumeau ne doit pas simuler ; l’assurance, avec le niveau visé et les conditions explicites de non-déploiement. Objet, données, validité, assurance : ce qu’on prétend, avec quoi, jusqu’où, et sous quelle garantie. La fiche n’est pas une norme en vigueur ; elle rend opérationnel l’esprit des règlements existants pour le cas des jumeaux.

Un jumeau numérique qui prétend intervenir avec une preuve de prédiction n’est pas un patient virtuel. C’est une décision déguisée en mesure, et une responsabilité que personne n’a signée. L’article complet, avec le tableau de responsabilité, l’audit de dépendance et les références, est disponible ci-dessous.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

Prédire, expliquer, simuler et intervenir sont quatre revendications distinctes. Chacune engage sa propre preuve et sa propre responsabilité, et une preuve de prédiction ne couvre aucune des trois autres.
La hiérarchie des quatre verbes est de responsabilité, pas de connaissance. Passer de la prédiction à l'intervention n'augmente pas la compréhension requise ; cela change ce qui supporte l'erreur, d'une métrique à un patient.
Pour passer de la prédiction à la décision, la calibration compte plus que la discrimination. Une AUC élevée ne dit rien de fiable sur un seuil, et le changement de distribution dégrade la calibration en premier.
La provenance n'est pas la transférabilité. D'où vient une performance explique pourquoi elle tient ou cède ; sa stabilité hors distribution par sous-population décide du déploiement. Les deux sont découplées.
La responsabilité commande la preuve. Comme dans la DO-178C aéronautique, le coût de la preuve doit croître avec le coût de l'erreur, pas avec la performance affichée. Le règlement européen classe le risque mais ne barème pas la légitimité de la simulation.
Le livrable est une fiche d'identité du jumeau (objet, données, validité, assurance) : ce qu'on prétend, avec quoi, jusqu'où, et sous quelle garantie. C'est la sortie de l'audit de dépendance, pas une idée séparée.