Axe III · D7

Évaluation et mesure de la performance

Thèse. Mesurer la performance en production est un problème d'épistémologie avant d'être un problème de métriques. Une métrique sans cadre d'interprétation produit du chiffre opposable mais non informatif.

La distinction qui tranche

Performance en test vs performance en production. La première est mesurée sur une distribution figée par le concepteur ; la seconde subit la distribution imposée par le réel. Tout écart entre les deux est imputable à l'évaluation, pas au modèle.

Erreur typique

Reporter une AUC moyenne comme s'il s'agissait d'une propriété intrinsèque du modèle, alors qu'elle n'a de sens que pour une cohorte donnée, à un instant donné, sur une définition d'événement donnée. Plus grave : utiliser des métriques agrégées qui masquent des effondrements en sous-population. La fairness algorithmique n'est pas une option éthique mais une condition de validité métrologique.

Signaux de défaillance

Une seule métrique reportée par modèle, sans intervalle de confiance ni protocole de calcul. Pas de stratification par sous-population (âge, sexe, comorbidité, centre, période). Calibration jamais évaluée séparément de la discrimination. Pas de mesure du taux de withhold ni de son corrélat clinique. Métriques d'évaluation choisies après vue des résultats, variante du garden of forking paths (Gelman & Loken, 2013).

Référentiels mobilisés

TRIPOD+AI statement (Collins et al., BMJ 2024) ; STARD 2015 ; CONSORT-AI et SPIRIT-AI ; ISO/IEC TS 4213 (assessment of classification performance) ; sur la calibration, Van Calster et al., BMC Medicine 2019 ; pour la fairness, Mitchell et al. Model Cards (FAccT 2019), Barocas-Hardt-Narayanan Fairness and Machine Learning (2023).

Terrain d'implémentation

OCTOPUS / ISPOR étudie le mNSCLC BRAF V600E, n=184, cinq pays, RWE ambispective. Le pipeline TweenMe produit des vecteurs patients à 299 features, synthèse TM-CTGAN/TM-TVAE, TSTR à 95,2 %, log-rank OS p=0,911. La survie est modélisée par SurvTRACE (architecture transformeur, Wang & Sun 2022, arXiv:2110.00855). Le TSTR à 95,2 % établit une fidélité opérationnelle pour les tâches aval ; il n'établit pas une indistinguabilité statistique générale entre cohorte synthétique et réelle, et ne dispense pas d'une validation per-tâche. Sélection top 5 % poster ISPOR 2026.

Articulation

Alimente D3 en métrologie de référence pour la dérive. Conditionne D4 : sans métrologie défendable, le dossier réglementaire est une fiction documentée.