Article — Position doctrinale · ○ Accès libre

Un jumeau numérique en santé ne se valide pas en miroir

Substituabilité opérationnelle, domaine d'applicabilité déclaré et refus hors domaine : ce qu'un COMEX porte réellement devant un régulateur

Jérôme Vetillard · · Twingital Institute · 5 pages · 5 min de lecture
🇬🇧 Read in English ↓ Télécharger en PDF

Valider un jumeau numérique clinique : la mauvaise question coûte un dossier

Un jumeau numérique en santé ne se valide pas en mesurant sa ressemblance au réel. Il se valide par les garanties qu’il apporte aux décisions qu’il remplace. La phrase paraît triviale une fois posée ; elle contredit pourtant la quasi-totalité des critères mobilisés, en comité de direction, pour défendre une cohorte synthétique devant une autorité.

La scène est familière. Un générateur produit des données qu’un discriminateur peine à séparer du réel, un expert valide à l’œil, et l’on en déduit que le jumeau est « bon ». Cette déduction confond deux objets que tout sépare : la qualité d’une imitation et la robustesse d’une substitution. Le réalisme n’est pas un mauvais indicateur. C’est un indicateur spécialisé, pertinent seulement quand le niveau qu’il capture correspond à la tâche revendiquée.

Ressemblance n’est pas substituabilité

La fidélité statistique d’une cohorte synthétique ne mesure pas son utilité pour une tâche. La communauté méthodologique a, pour l’essentiel, déjà tranché ce point. Le déplacement persiste ailleurs, à la couche qui décide réellement d’un dossier industriel : déploiement, gouvernance, responsabilité réglementaire. C’est là qu’un jumeau continue d’être jugé à son réalisme apparent, et c’est précisément là que le critère est faux.

La question pertinente n’est jamais « le jumeau ressemble-t-il au réel ? ». Elle est « pour quel usage veut-on remplacer le réel, et sous quelles garanties ? ». Un jumeau n’est jamais déployé en général : il entraîne un modèle, construit un bras de contrôle virtuel, estime une stratégie de recrutement, calibre un seuil, teste une politique clinique. Chaque usage porte sa propre notion de fidélité, et la ressemblance distributionnelle globale n’en capture qu’une — rarement celle qui gouverne la décision.

Du portrait statistique à l’instrument de décision

Tous les jumeaux commencent comme des portraits statistiques. Certains deviennent des instruments de décision. La différence est structurante. Un portrait cherche à représenter une population. Un instrument cherche à produire une décision suffisamment fidèle pour remplacer, dans un contexte donné, celle qui aurait été prise à partir de données réelles. Dès qu’un jumeau entre dans une boucle clinique, réglementaire ou industrielle, ce n’est plus l’imitation qu’on évalue : c’est la boucle décisionnelle dans laquelle il intervient.

Ce qu’un régulateur attend réellement d’une cohorte synthétique

Un dossier ne se dépose pas comme un score de ressemblance. Il se dépose comme une chaîne de garanties. La note PDF en déroule la démonstration complète ; on en retient ici l’ossature. D’abord l’absence de fuite : la cohorte réelle d’évaluation ne doit jamais avoir contribué à générer le synthétique, faute de quoi la performance mesurée ne reflète qu’une contamination. Ensuite la substituabilité opérationnelle, dont la méthodologie Train-on-Synthetic / Test-on-Real — entraîner exclusivement sur le synthétique, évaluer sur une cohorte réelle indépendante, formalisée par Esteban, Hyland et Rätsch (2017) pour les séries temporelles médicales — fournit le cadre, à condition de préserver non la seule discrimination mais aussi la calibration et le bénéfice décisionnel quand ces dimensions gouvernent l’acte. Enfin le domaine d’applicabilité déclaré : non une garantie, mais une hypothèse réfutable que la surveillance doit pouvoir mettre en défaut.

Le refus comme propriété d’architecture, pas comme défaut

Au-delà de son domaine déclaré, un jumeau gouvernable ne produit pas une réponse assurée. Il produit un refus. Ce refus ne tombe pas du générateur comme une propriété spontanée : il suppose un mécanisme explicite de détection des situations hors domaine, et c’est à ce titre une décision d’architecture. La conséquence dérange et doit être tenue : le système renoncera parfois à répondre là même où on l’attendait le plus. Ce n’est pas un échec ; c’est la version honnête de la gouvernabilité, par opposition à l’aplomb silencieux d’un système qui répond partout sans jamais savoir où il cesse d’être valide.

Cette ligne sépare deux régimes que l’objection de la rareté impose de distinguer. Dans le régime ancré, une cohorte réelle de validation existe et la substituabilité se démontre au sens fort. Dans le régime extrapolé — populations sous-représentées, maladies orphelines, événements jamais observés — aucune vérité terrain n’est disponible : la substituabilité ne se démontre plus, elle se borne et se surveille, sous l’unique encadrement du domaine déclaré que la détection hors domaine doit pouvoir invalider en temps réel.

Le générateur ne suffit pas

La déployabilité d’un jumeau ne se déduit pas des seules performances de son générateur. Un excellent générateur peut fuir de la confidentialité, effondrer les modes rares, mal préserver les dépendances utiles ou refuser d’extrapoler. Inversement, des données restées facilement distinguables du réel peuvent autoriser une excellente substituabilité pour une tâche précise. ToxTwin, terrain d’implémentation et non preuve universelle, illustre exactement ce découplage : la ressemblance distributionnelle globale échoue, la substitution pour la tâche considérée réussit. L’indistinguabilité n’est ni une condition nécessaire ni une preuve suffisante de déployabilité. PREDICARE éclaire le problème symétrique : un jumeau de triage n’a pas seulement à décider, il doit reconnaître les situations où sa décision n’est plus garantie.

La primitive réglementaire existe déjà

Cette gouvernabilité cesse d’être une formule dès qu’on l’arrime à l’instrument qui l’encode. Les plans de modification prédéterminés que les régulateurs commencent à reconnaître pour les dispositifs apprenants — le Predetermined Change Control Plan de la FDA en est l’expression la plus aboutie — autorisent à l’avance une enveloppe de changements bornée, sous surveillance, plutôt que de figer un modèle. La doctrine du port de promotion, développée ailleurs dans cette série, en propose la primitive d’architecture.

Un jumeau numérique n’est donc pas un objet autonome. C’est un composant d’une architecture de décision, et comme toute architecture critique, il ne se valide pas en miroir. Il se valide par les garanties qu’il apporte aux décisions qu’il remplace.

Un jumeau qui ressemble se montre. Un jumeau qui remplace se gouverne.

[Série : Digital Twin en santé — 9/12 · article dominical de clôture. La démonstration complète, le protocole ToxTwin et la distinction des deux régimes figurent dans la note PDF ci-dessus.]

Lire le document