Comment attribuer une performance dans un pipeline socio-technique complexe ?

Pourquoi un essai pivotal ne peut pas dire si l’IA découvre des médicaments

Une lecture de Phase III mesure une molécule, pas le procédé qui l’a produite. C’est la première raison pour laquelle le verdict de 2026 sur la découverte de médicaments par IA est mal cadré : il réclame un auteur quand il faudrait réclamer une répartition. La quinzaine de composés issus de plateformes d’IA qui entrent en Phase III pivotale établira si ce survivant tient, pas si la méthode qui l’a engendré constitue une capacité industrielle reproductible. La découverte d’un médicament n’est pas un acte ; c’est une chaîne, et on n’attribue pas une chaîne à l’un de ses maillons.

La question est mal posée deux fois. Sur le fond, parce qu’un essai arbitre un candidat, pas une procédure. Sur la forme, parce que « l’IA a-t-elle découvert ? » cherche une origine là où la question opératoire est « quelle part de la performance revient à quel composant ? ». L’attente d’un moment de vérité appartient à un public précis : la presse spécialisée, quelques influenceurs, une fraction des fonds qui comptent les programmes en clinique (de l’ordre de 173, dont une quinzaine en Phase III) et lisent une promesse dans le volume. Les directions de R&D savent qu’un essai pivotal n’arbitre pas une méthode, et les investisseurs aguerris raisonnent en valeur ajustée du risque, pas en récit de validation.

Ce que « capacité » doit signifier avant que le mot soit utilisable

Une capacité est la propriété reproductible d’un procédé produisant un avantage mesurable dans un domaine d’usage déclaré. Trois conditions, aucune optionnelle : reproductible (pas un coup), mesurable (pas un récit), déclarée quant au domaine (pas générale par défaut). Une capacité sans domaine déclaré n’est pas une capacité : c’est une moyenne. Une plateforme excellente sur les kinases peut être médiocre ailleurs, ce qui fait que la question pertinente n’est jamais « l’IA sait-elle découvrir des médicaments » mais « cette plateforme sait-elle découvrir, dans ce domaine déclaré, à un coût connu ».

C’est la discipline de substituabilité qu’on applique aux jumeaux numériques : un système ne vaut que dans son périmètre de validité énoncé, et l’extrapoler hors de ce périmètre est un biais, pas une généralisation.

Pourquoi « médicament découvert par IA » ne nomme rien de mesurable

« Découvert par IA » est un terme de communication, pas une catégorie opératoire. L’étiquette agrège des contributions qui n’ont ni le même point d’application ni le même poids causal, sur trois étages non commensurables : la découverte (identification et validation de cible), la conception (génération de novo, optimisation de tête de série) et le développement (prédiction ADMET, découverte de biomarqueurs, stratification de patients, optimisation de protocole). Le repositionnement de composés connus traverse les trois. Une plateforme qui identifie une cible inédite et une plateforme qui réordonne une bibliothèque de têtes de série ne font pas le même métier, et leur réussite ne se compte pas dans la même monnaie. Traiter les « médicaments IA » comme une population unique est la première erreur, parce que l’étiquette fond trois populations disjointes en une fausse unité.

Pourquoi la population de Phase III ne se compare pas naïvement

Une molécule en Phase III n’est pas un échantillon : c’est un rescapé. Le taux de base le rappelle sans douceur : sur l’ensemble des indications, la probabilité de passer de Phase II à Phase III est de l’ordre de 30 %, et tombe sous 20 % en neurologie (Wong, Siah et Lo, Biostatistics, 2019). Le signal d’une plateforme ne se dilue pas simplement à chaque filtre, parce que les pipelines modernes sont itératifs, pas séquentiels : la sortie algorithmique informe une décision humaine, qui appelle une nouvelle requête, qui réoriente l’optimisation.

La bonne notion est donc l’intrication, pas la dilution. L’intrication désigne ici la non-séparabilité : la contribution marginale d’un composant dépend des valeurs réalisées des autres, parce que sorties algorithmiques et décisions humaines se conditionnent mutuellement par itération. Deux quantités intriquées ne se soustraient pas. C’est cela qui fait obstacle à l’attribution naïve, et cela commande un point plus subtil sur le biais du survivant. Si la valeur propre d’une plateforme est précisément de mieux éliminer les mauvais candidats en amont, alors la surreprésentation de survivants n’est pas un artefact à corriger : c’est un médiateur, un maillon sur le chemin causal de l’effet recherché. On ignore, en l’état, si la survie joue comme confondeur ou comme médiateur, et cette ambiguïté est l’obstacle d’identification, formulé proprement.

Dans quel cadre causal l’attribution prend un sens

Affirmer que l’IA « ne cause pas directement » une meilleure molécule n’a de sens que dans un cadre causal précisé. Le cadre des effets potentiels (Rubin, 1974) définit la contribution d’un composant comme un contraste contrefactuel : la grandeur d’intérêt avec le composant, moins cette même grandeur sans lui, sur une unité comparable. Le cadre des graphes orientés (Pearl, 2009) statue sur l’identifiabilité même de ce contraste à partir des données observées, en distinguant confondeurs, médiateurs et variables de collision. L’un définit l’estimand ; l’autre tranche son identifiabilité. Les articuler dans un pipeline industriel réel est un problème de recherche ouvert, pas une formalité. Dans ce cadre, une chose est nette : la contribution causale d’un composant n’est pas son rang dans la chaîne, mais sa contribution marginale. L’IA en amont n’est pas l’IA responsable.

Pourquoi un franchissement de Phase I à 80-90 % prouve moins qu’il n’y paraît

Un taux élevé de franchissement de Phase I, rapporté à 80-90 % pour les composés étiquetés IA contre environ 52 % en historique, ne démontre pas à lui seul une meilleure conception moléculaire. La Phase I teste la tolérance, pas l’efficacité, et l’écart admet deux explications également compatibles avec les données : meilleure conception, ou sélection de candidats proches d’un espace chimique déjà connu comme sûr. Un filtre toxicologique en amont (ToxTwin en est un terrain) ne transforme pas une molécule médiocre en bonne molécule ; il modifie la distribution des molécules engagées dans le pipeline expérimental. Le gain provient de la fonction de sélection, non de la fonction de conception. Deux mécanismes causalement distincts, générer de meilleurs candidats ou sélectionner plus efficacement parmi eux, produisent le même chiffre observable, et un readout clinique ne permet pas de les départager. Dans une architecture agentique, où un générateur, un filtre toxicologique, des modules ADMET et un orchestrateur de décision remodèlent chacun la distribution transmise au suivant, la performance finale devient une propriété de la composition, pas d’un algorithme isolé.

Pourquoi la bonne unité est l’eNPV, pas la probabilité de succès

L’erreur économique est de réduire la capacité d’une plateforme à P(succès). Ce qu’une direction pharmaceutique maximise est la valeur actuelle nette espérée ajustée du risque (eNPV) : l’espérance des flux futurs, pondérée par les probabilités de transition et actualisée pour le délai. Trois leviers y entrent, pas un : probabilité de succès, coût et délai. Dix-huit mois gagnés déplacent les flux vers le présent et augmentent l’eNPV à probabilité inchangée. Une plateforme peut donc transformer l’économie d’un portefeuille sans toucher à la biologie : découvrir 20 % plus vite et 50 % moins cher, fût-ce au prix de quelques points d’échec supplémentaires, peut relever l’eNPV agrégé. Les investisseurs sérieux ne cherchent pas une meilleure IA ; ils cherchent un meilleur portefeuille, construit autant par la structure de coût et la vitesse d’itération que par le taux terminal.

Comment l’attribution opérerait : ablation et valeur de Shapley

La question correcte est causale : quel est l’effet du procédé sur l’eNPV. L’unité à attribuer est la contribution marginale d’un composant à l’eNPV, décomposable en trois effets interprétables, sur la probabilité de transition, sur le coût et sur le délai. Le dispositif idéal, un bras apparié opposant un pipeline assisté par IA à un pipeline classique sur la même cible et la même indication, est une ablation : on retire le composant, on observe la variation. Il est inexécutable, parce que nul ne finance deux programmes concurrents à plusieurs centaines de millions pour le seul plaisir de l’inférence. La voie réaliste passe par les quasi-expériences familières à l’économétrie : appariement historique, scores de propension, variables instrumentales, contrôles synthétiques, émulation d’essais cibles, inférence causale bayésienne. Aucune ne vaut un essai randomisé ; leur convergence forme le faisceau d’indices que le readout isolé ne fournit pas.

La valeur de Shapley (Shapley, 1953) indique la forme que prendrait une attribution rigoureuse. Son attrait tient à deux propriétés qu’aucune intuition ne remplace : l’efficience (la somme des contributions égale exactement la performance totale, sans reste inexpliqué) et la symétrie (deux composants interchangeables reçoivent la même part). Ce sont précisément les garanties qu’on veut quand les contributions sont intriquées et qu’aucune décomposition naïve ne tient. L’objection est sérieuse : Shapley exige une coalition bien définie, une fonction de valeur et un coût combinatoire qui explose avec le nombre de composants, aucun donné d’avance dans un pipeline réel. L’outil est juste ; son application est un travail en propre. C’est une esquisse, pas une méthode.

Performance, provenance, capacité : la distinction qui dénoue le débat

Le débat persiste parce qu’il confond trois questions. La performance demande : cette molécule fonctionne-t-elle. La provenance demande : comment est-elle apparue, et quelle part revient à l’IA. La capacité demande : l’avantage est-il une propriété reproductible du procédé, dans un domaine déclaré, à un coût connu. Une approbation répond à la première et reste muette sur la troisième. L’objection selon laquelle la statistique de masse tranchera ne vaut que sur des populations homogènes, et la population étiquetée IA ne l’est pas : elle fond trois étages, la survie filtre avant le comptage, et nul appariement de cible ou de période ne corrige ces biais.

La critique doit énoncer ses propres conditions de réfutation, sous peine d’être elle-même infalsifiable. Les voici : si, sur plusieurs centaines de cas, des quasi-expériences indépendantes convergeaient vers des réductions robustes de délai et de coût, une diversité chimique supérieure et de meilleurs taux d’approbation à cible et indication appariées, et si ces effets résistaient à plusieurs spécifications de confondeurs, alors l’hypothèse de capacité deviendrait raisonnablement crédible, même sans bras randomisé. Tant que ce faisceau n’existe pas, la capacité reste à estimer, pas à proclamer.

La portée dépasse la chimie. La génération de protéines, la robotique de laboratoire, la conception de matériaux et l’optimisation industrielle satisfont la même condition : la production résulte d’une chaîne d’agents hétérogènes en interaction, humains et algorithmiques. Là où elle est réunie, attribuer un résultat collectif à un seul agent est une erreur de catégorie, et le répartir est un programme de mesure. Le survivant qui atteint la Phase III est un excellent indicateur de performance clinique et un mauvais estimateur de provenance, parce que sa survie même a effacé la trace de ce qui l’a produit. 2026 ne dira pas si l’IA sait découvrir des médicaments. Il dira si tel survivant tient, et offrira, à qui veut bien la construire, la première occasion d’attribuer le reste.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

Thèse : un essai pivotal de Phase III mesure une molécule, pas un procédé. Le verdict de 2026 sur la découverte de médicaments par IA est doublement mal posé ; il cherche un auteur là où il faudrait chercher une répartition de contributions marginales.
La capacité est définie strictement : la propriété reproductible d'un procédé produisant un avantage mesurable dans un domaine d'usage déclaré. Sans domaine déclaré, une capacité n'est qu'une moyenne.
« Découvert par IA » ne nomme aucune catégorie opératoire : l'étiquette fond trois étages non commensurables (découverte, conception, développement) en une fausse unité, ce qui ruine toute comparaison naïve de taux de succès.
Une molécule en Phase III est un rescapé, pas un échantillon. La survie joue tantôt comme confondeur, tantôt comme médiateur, et cette ambiguïté, pas la dilution, est l'obstacle d'identification. L'intrication, c'est-à-dire la non-séparabilité, remplace la métaphore du signal dilué.
La bonne unité est l'eNPV, pas P(succès) : une plateforme peut transformer l'économie d'un portefeuille par le coût et le délai sans améliorer la biologie. L'attribution opérerait par ablation et contribution marginale de type Shapley, une esquisse et non une méthode validée.
Performance, provenance et capacité sont trois questions distinctes. Une approbation répond à la première et reste muette sur la troisième. 2026 dira si tel survivant tient, pas si le procédé constitue une capacité industrielle reproductible.