Article — Position doctrinale · ○ Accès libre

Quand l'évaluation devient l'infrastructure de concentration

Pourquoi la crise des benchmarks publics transforme la qualification opérationnelle en actif cumulatif

Jérôme Vetillard · · Twingital Institute · 11 pages · 8 min de lecture
🇬🇧 Read in English ↓ Télécharger en PDF

Le benchmark public ne disparaît pas. Il perd sa fonction de qualification industrielle. Quand l’évaluation exige une empreinte exécutoire inaccessible publiquement, l’autorité de qualification migre vers les acteurs qui contrôlent l’exécution réelle des systèmes. L’évaluation cesse alors d’être un simple instrument de mesure : elle devient une infrastructure cumulative de pouvoir industriel. Le présent volume articule trois registres distincts — métrologique, industriel cumulatif, institutionnel — dans cet ordre, et nomme l’opération sans laquelle aucune réactivation publique n’est crédible.

Trois faits, trois registres : la crise n’est pas le score, c’est l’empreinte

Trois faits documentés et indépendants convergent au printemps 2026. Le 12 avril, le Responsible Decentralized Intelligence Lab de Berkeley publie « Reward Hacking in Agentic Coding Benchmarks » et démontre la cassabilité de huit benchmarks publics de la couche agent. Le cas central — IQuest-Coder-V1, soumission affichant 81 % de réussite sur SWE-bench — révèle, à l’inspection du log Git du dépôt de test, de l’ordre de 400 appels à des modèles externes hors trace, des dépendances non déclarées, un harnais instrumenté pour optimiser le score plutôt que résoudre la tâche. Le score reste exact. Sa signification s’effondre. Le Stanford Human-Centered AI Index 2026 documente, en parallèle, la saturation de MMLU et MMLU-Pro au-delà de 88 % et 85 % pour les modèles frontière, avec des hallucinations en conditions de déploiement réel oscillant entre 22 % et 94 % sans corrélation stable avec la performance statique. Le rapport Infrastructure & Operations de Gartner du 7 avril, sur un panel de plus de 1 200 responsables IT, situe le ROI médian des projets IA en production à 28 % sur douze à dix-huit mois, avec un projet sur cinq subissant un effondrement opérationnel post-déploiement. Trois pathologies : un problème de discriminance, un problème d’empreinte, un problème de contexte d’exécution. Aucune ne se résout par les deux autres. Elles convergent : la métrique publique disponible ne suffit plus à statuer sur la qualification d’un système IA pour un usage industriel.

Cinq objets, quatre bassins, une asymétrie exécutoire : pourquoi la métrique migre vers le privé

L’erreur d’interprétation dominante consiste à diagnostiquer un vide métrologique. Le diagnostic est inexact. Il n’y a pas absence de métrique, il y a migration vers des juridictions plus étroites, plus opaques, plus interdépendantes. Cinq objets sont aujourd’hui confondus dans le débat public — le modèle (capacité abstraite, MMLU, HumanEval), l’agent (trajectoire outillée, SWE-bench, WebArena), le système (intégration opérationnelle, qualifiée sous régimes sectoriels), l’organisation (gouvernance et ROI), le risque (assurabilité) — et la crise affecte d’abord modèle et agent, puis se propage par contagion. Quatre bassins de transfert se dessinent : les hyperscalers et leurs suites internes ; les intégrateurs verticalisés régulés ; les évaluateurs industriels privés qui qualifient l’organisation ; les assureurs, candidats latents à la stabilisation actuarielle, parce que toutes les qualifications opérationnelles durables (aviation, médical, nucléaire, cyber) sont historiquement adossées à des régimes assurantiels. Un cinquième acteur de fonction distincte — l’évaluation ouverte communautaire (Hugging Face, EleutherAI, METR, Apollo, MLCommons) — conserve une fonction de contestation indispensable mais ne suffit plus à produire une autorité productionnelle. Le problème n’est pas l’absence de compétence. Le problème est que l’empreinte exécutoire pertinente exige un accès longitudinal aux workloads productionnels sous contrainte juridique et économique réelle, que les infrastructures ouvertes ne contrôlent pas, ne contrôleront pas tant qu’elles ne deviennent pas elles-mêmes opérateurs d’inférence, et ne peuvent contractualiser sans changer de nature. L’asymétrie n’est pas documentaire. Elle est exécutoire. Ouvrir davantage de benchmarks ne la résout pas.

Sept maillons, quatre tours : l’évaluation comme rendement d’échelle

Le compute crée la capacité. L’empreinte exécutoire crée l’autorité. Cette distinction est ce qui sépare la présente thèse d’une critique générique de la concentration par le calcul. Un acteur qui possède du compute peut faire fonctionner un modèle. Un acteur qui possède l’empreinte exécutoire peut convaincre un client régulé, un assureur, un auditeur, un régulateur que le système peut être utilisé — et, sur les marchés critiques, le second pouvoir est plus structurant que le premier. Sept maillons décrivent le mécanisme : (1) benchmark public compromis ; (2) qualification industrielle exigeant une empreinte exécutoire ; (3) instrumentation runtime mesurant trajectoire, ressources, contexte, contraintes ; (4) accès requis aux workloads, traces, incidents, équipes safety, capital d’inférence ; (5) concentration de cet accès dans un nombre restreint d’acteurs ; (6) ces acteurs deviennent arbitres de fait du production-ready ; (7) cette qualification devient condition d’achat, d’assurance, de conformité, de financement. Sur cette ossature s’enroule la dynamique en quatre tours : plus un acteur contrôle l’exécution, plus il accumule des incidents propres ; plus il accumule des incidents, meilleure devient la qualité de son évaluation ; meilleure est son évaluation, plus les clients régulés lui sont attribués ; et la boucle se referme. La qualification se fragmente alors en quatre déclarations disjointes — production-ready commercial, opérationnel, réglementaire, assurantiel — que rien n’oblige à converger. La déclaration unique est un artefact rhétorique. L’évaluation cesse d’être une fonction de contrôle pour devenir un rendement d’échelle, et la concentration métrologique cesse d’être un effet de bord institutionnel pour devenir un actif cumulatif produisant, structurellement, une barrière à l’entrée.

Trois verbes, six contestables : ce qu’un protocole public exige réellement

Le mot « public », appliqué au protocole, ne signifie pas ouvert au sens du dataset publié. Public signifie opposable, contestable, versionné, révisable par une procédure connue. Publier le jeu de test n’est pas l’objet visé ; publier les règles sous lesquelles un évaluateur exerce son autorité, oui. Le benchmark et le protocole ne sont pas le même objet : le benchmark est l’instrument, le protocole est la convention qui rend l’instrument lisible — et le benchmark, parce qu’il est cassable, peut et doit rester privé pour résister au gaming. MLCommons, la cybersécurité (FIPS 140-3 sous l’égide du NIST, Common Criteria sous ISO/IEC 15408) et le médical (FDA QMSR) ont tous fini par admettre cette discipline. Le protocole public minimal se ramène à trois verbes. Déclarer — empreinte exécutoire effective, classes d’usage évaluées, contraintes retenues, régime de version. Comparer — règles de reproductibilité partielle, seuils explicites de non-comparabilité, règles d’interopérabilité avec d’autres juridictions. Révoquer — obligations d’incidentologie et conditions de retrait d’autorité métrologique, c’est-à-dire les motifs publics pour lesquels l’évaluateur lui-même perd sa capacité à qualifier. Une qualification irrévocable n’est pas une qualification, c’est une décoration. Mais les trois verbes ne disent pas ce que le public peut contester ; sans procédure de contestation, on a reconstruit une métrologie publique sans procédure contradictoire — un tribunal sans appel. Six éléments doivent donc être publiquement contestables, en complément : le périmètre de qualification, l’empreinte déclarée, la comparabilité revendiquée, le maintien d’autorité après incident, le changement de version, et le conflit d’intérêts de l’évaluateur. Un protocole qui définit les règles sans définir les six contestables reste un instrument de l’évaluateur. Tout l’apport institutionnel de l’analyse tient dans ce déplacement : la vraie question n’est plus « qui mesure ? » mais « sous quelle procédure contradictoire une qualification peut-elle être contestée ? ».

Quadripartition fonctionnelle et prime acceptable : l’assureur comme benchmark terminal

À mesure que l’entrée en application des obligations de l’AI Act se rapproche, que CAISI et l’AI Safety Institute britannique consolident leur position, et que les hyperscalers déploient des ordres de grandeur de capital sans précédent pour 2026, l’objet métrologique se durcit en infrastructure industrielle. Le scénario terminal n’est probablement pas la privatisation complète de la métrologie : c’est un régime hybride asymétrique articulant quatre fonctions distinctes, parfois portées par les mêmes acteurs. L’opérateur d’exécution produit l’empreinte, parce qu’il contrôle les workloads et les incidents. Le régulateur produit le protocole, parce qu’il est seul à pouvoir imposer une convention opposable. L’assureur produit la tarification, parce qu’il est seul à pouvoir transformer le risque en prime. L’infrastructure provider produit l’environnement d’exécution, parce qu’il contrôle la couche matérielle et logicielle. C’est précisément la répartition entre ces quatre fonctions qui détermine la qualité de l’autorité métrologique consolidée. La question stratégique n’est donc pas « les hyperscalers vont-ils tout capturer ? » mais « quelles fonctions doivent rester séparables, opposables, contestables ? ». L’assureur mérite ici une place propre, plus structurante qu’on ne le pense souvent. Dans les régimes techniques matures — aviation, santé, nucléaire, cybersécurité — la qualification opérationnelle finit par rencontrer l’assurance, qui transforme l’incertitude en prix. Un système peut être techniquement impressionnant, non interdit par le régulateur, désiré par le client : si le risque ne peut pas être couvert, ou seulement à une prime prohibitive, la qualification réelle s’effondre. La triade est claire. Le benchmark dit que le système performe. Le protocole dit dans quelles conditions cette performance est qualifiée. L’assureur dit à quel prix le risque peut être porté. La forme ultime du production-ready pourrait ne pas être le benchmark. Elle pourrait être la prime acceptable.

Trois scénarios de réfutation : ce qui invaliderait la thèse

La discipline doctrinale exige d’énoncer les conditions qui briseraient la thèse. Elle serait sérieusement affaiblie si l’un des trois scénarios suivants se matérialisait dans les trois à cinq prochaines années. Premièrement : si des consortiums ouverts parvenaient à mutualiser, sous gouvernance partagée, des workloads multi-industriels avec leurs traces d’incidents, dans des conditions juridiques équivalentes à celles des opérateurs privés. Deuxièmement : si les régulateurs — AI Act, AISI, CAISI et équivalents — imposaient des obligations d’empreinte exécutoire standardisée interopérable, opposables au privé, avec procédure publique de contestation. Troisièmement : si les régimes assurantiels acceptaient comme inputs primaires des évaluations tierces ouvertes, plutôt que des évaluations propriétaires sous accord de confidentialité. Aucun de ces scénarios n’est exclu. Aucun ne semble probable à horizon proche. La thèse n’est pas une prophétie : elle décrit un mouvement structurel sous conditions de continuité, et nomme les conditions qui le briseraient. Les volumes précédents de cette tétralogie ont décrit l’absence de protocole pour arbitrer l’allocation matérielle, puis l’absence de procédure pour promouvoir les artefacts MCP. La capacité de qualification opérationnelle est désormais devenue un actif cumulatif. C’est probablement le point le moins thématisé du débat public IA actuel, et l’un des plus structurants. L’histoire des infrastructures critiques présente, sans déterminisme, une régularité reconnaissable : certaines structures de concentration réapparaissent lorsque qualification et exécution deviennent couplées. Inventer un instrument de mesure pour objectiver un marché, et découvrir que celui qui contrôle l’instrument finit par contrôler le marché qu’il mesurait, n’est pas une fatalité. C’est, à ce stade, une régularité structurelle sous conditions — dont les conditions ont été nommées.

Lire le document