Pour une théorie relationnelle et émergente de la validation des preuves computationnelles en santé, et au-delà
L’habitude consiste à traiter une preuve comme un pont ou un théorème : solide ou non, exact ou non, certifié une fois pour toutes. L’habitude est mal posée. Un essai parfaitement rigoureux devient du bruit hors de sa population cible. Deux études irréprochables sur la même intervention aboutissent à des recommandations incompatibles sans qu’aucune ne soit en faute. Un modèle parfaitement calibré conduit pourtant à une décision dangereuse quand son seuil ignore le coût asymétrique d’un faux négatif. Aucune de ces situations n’est un paradoxe en attente de réparation, car toute réparation disponible, validité interne, validité externe, stratification, calibration, ne fonctionne qu’en réintroduisant une décision, une perte ou un domaine. La conclusion est structurelle et non anecdotique : la validité n’est pas une propriété que porte un objet, c’est une relation entre une source de preuve et l’usage qu’on en fait.
Dès lors que la validité est relationnelle, « valide » devient un prédicat incomplet, comme « plus grand que ». Il réclame ses arguments, et exactement quatre. Une décision D, au sens de Wald, une règle qui associe une action à une observation, sans laquelle le prédicat se vide. Une perte L pour ordonner les conséquences de cette règle, raison pour laquelle un modèle calibré peut être calibré et faux. Un domaine Δ où la source est réputée fiable, emprunté à la discipline du domaine d’applicabilité des modèles structure-activité, car hors de Δ une preuve n’est pas fausse, elle est hors sujet, ce qui est pire puisqu’une preuve hors sujet a l’air d’une preuve. Un temps T, parce qu’une preuve validée aujourd’hui ne l’est pas pour toujours. La structure (D, L, Δ, T) est minimale en un sens précis : retirez-en une et une contradiction revient. La charge s’inverse en conséquence. Ce n’est pas à la théorie de prouver qu’aucun cinquième indice n’existe, c’est à qui en propose un de le prouver irréductible aux quatre.
L’objection évidente est le relativisme : si la validité n’est jamais qu’une relation à un usage, toute notion de qualité a-t-elle été dissoute. La parade n’est pas de réintroduire en douce un absolu, mais d’exiger qu’une théorie de la validation soit cohérente, composable, transférable et réfutable, puis de passer la théorie à son propre tamis. Elle ne s’auto-réfute pas, les validations partielles se composent le long d’une chaîne de décisions, les conditions de transfert sont déclarées plutôt qu’espérées, et une seule validité indépendante de l’usage ferait tomber tout l’édifice. Une théorie qui survit à ses propres critères n’est pas vraie pour autant ; elle est admissible, ce qui est déjà plus que ce que « la validité en soi » a jamais offert. Cette lecture relationnelle ne concurrence ni GRADE, ni CONSORT, ni TRIPOD. Elle est la grammaire commune qui explique pourquoi chacun, dans son coin, finit par déclarer un usage, un critère, une limite et une fenêtre.
Le tournant génératif rend une question brûlante : une population synthétique, un jumeau numérique, une cohorte simulée peuvent-ils produire un contenu absent de leurs données. La réponse naïve est non, et elle est juste pour de mauvaises raisons, ce qui la rend dangereuse. L’énoncé précis est une loi de conservation : aucun générateur ne rend identifiable un contenu absent de ses contraintes. Ce qu’exhibe une représentation latente n’est pas un contenu nouveau, c’est un contenu déjà identifiable en principe à partir des contraintes, et que le générateur rend inférable, c’est-à-dire opérationnel. Le verbe juste n’est pas créer mais rendre inférable. Cela interdit la promesse vendeuse de générer des patients là où il n’y a pas de données, et confère du même geste au générateur une valeur défendable : rendre calculable une structure latente, à un coût sans commune mesure avec celui d’un recrutement.
Une preuve sert à deux choses, pas une : choisir l’acte, et juger s’il vaut la peine d’en savoir davantage avant de choisir. La seconde fonction est ce que quantifie l’analyse de la valeur de l’information, via l’EVPI et l’EVSI. La conséquence pour les cohortes synthétiques est tranchante et souvent ignorée. Une cohorte peut préserver la décision optimale sous une perte donnée tout en déformant la structure d’incertitude qui fonde la valeur d’une recherche future. Elle conduit alors au bon choix aujourd’hui en suggérant à tort qu’une étude supplémentaire est inutile, ou indispensable. D’où deux niveaux : substituabilité décisionnelle, même règle optimale, et substituabilité informationnelle, même valeur de l’information susceptible de réviser cette règle. Une preuve qui ne satisfait que la première demeure intrinsèquement myope.
La substituabilité n’est pas un état booléen mais une mesure graduée σ entre zéro et un, définie relativement à une décision δ, une perte L et un domaine déclaré, et formalisée naturellement comme un regret décisionnel normalisé : un moins l’excès de perte attendu d’agir sur la source synthétique plutôt que réelle, rapporté à une référence. Une valeur de un signifie que la substitution n’induit aucune perte décisionnelle moyenne ; à mesure que le coût des divergences augmente, σ décroît vers zéro. Le chiffre mesure le coût de remplacer une source par une autre pour une décision déclarée, pas la proximité statistique de deux distributions. Dire d’une cohorte qu’elle est « substituable à 0,82 » ne veut rien dire sans sa décision, son vecteur de perte, son domaine, son intervalle d’incertitude et sa date. C’est précisément ce qui rend la substituabilité gouvernable : un état binaire ne se négocie pas, un degré daté se seuille et s’audite.
Rien dans (D, L, Δ, T) n’est propre à la médecine. Un modèle de risque financier calibré sur un régime de marché expire quand le régime tourne. Une simulation de certification aéronautique ne vaut que dans l’enveloppe de vol déclarée. Un détecteur de cybersécurité n’a aucune garantie hors de la distribution d’attaques sur laquelle il a été entraîné, et l’adversaire habite précisément cette extrapolation. Ces transferts sont des conjectures de portée que la théorie réclame d’éprouver domaine par domaine, pas des affirmations décoratives. La santé en offre seulement la version la plus dense, parce que les enjeux y sont vitaux, les sous-populations nombreuses et les arbitrages de perte les plus moralement chargés. Un profil de patient est un vecteur sur plusieurs centaines de variables tabulaires, et c’est pourquoi on ne raisonne pas sur un porteur d’une mutation BRAF V600E en lui appliquant l’intuition d’un modèle de mots, et pourquoi un terrain de toxicité comme ToxTwin est une instance d’implémentation, pas une preuve générale.
Hors de son domaine, une preuve n’est pas fausse, elle est expirée, et la distinction compte : une preuve fausse était mal établie, une preuve expirée était bien établie et a cessé de s’appliquer. Une preuve qui peut expirer est un processus, avec un début de validité, une fenêtre et une condition de fin, qu’on ne certifie pas une fois pour toutes mais qu’on engage, surveille et renouvelle. À partir de là, l’ordre des concepts est la pensée même. La validation n’appartient à aucun des termes en présence : elle est une propriété émergente d’une relation entre source, décision et contexte, indexée par le temps. Il s’ensuit qu’une preuve énonce une implication gardée, une promesse conditionnelle, et que le contrat d’usage n’est que le nom social de cette promesse lorsqu’elle doit être tenue entre des parties. La réglementation formalise déjà de telles promesses, à travers les plans de contrôle des changements prédéterminés de la FDA et la logique d’intended purpose du règlement européen sur l’IA, sans avoir encore la théorie qui le dit. Cette note propose cette théorie. L’argument complet, avec sa structure, son cas oncologique et ses références, est disponible ci-dessous.
Notes doctrinales et explorations sur l’IA en systèmes régulés. Une à deux fois par mois. Désabonnement en un clic.