Refuser le soin, détecter la fraude : le même calcul

Trois faits convergents : ce que mai 2026 a révélé sur le même calcul

Trois événements indépendants ont convergé en mai 2026. Dans l’affaire Estate of Lokken v. UnitedHealth Group, une juridiction du Minnesota a ordonné en mars la production de documents : la plainte cible le modèle nH Predict, développé par naviHealth, auquel est imputé un taux d’erreur de l’ordre de 90 % dans le refus de soins post-aigus pour les bénéficiaires Medicare Advantage. Le 19 mai, la presse santé établissait que l’examen humain du contexte clinique était devenu quasi entièrement délégué à des systèmes automatisés. Le 21 mai, le HHS annonçait intensifier son recours à l’IA pour traquer la fraude dans la dépense fédérale de santé.

La convergence n’est pas fortuite. La même classe d’outil prédictif, appliqué à une dépense de santé, sert chez l’assureur à comprimer l’accès au soin et chez le régulateur public à détecter la fraude. Le débat qui a suivi a distribué des jugements moraux : un usage abusif, l’autre vertueux. Cette distribution manque la propriété structurelle qui explique les deux : le calcul ne sait pas laquelle des deux finalités il sert. Il optimise un périmètre.

Le périmètre d’optimisation : une erreur de catégorie, pas de performance

Un modèle de gestion de couverture ne prédit pas l’état du patient. Il prédit une trajectoire de coût et calibre la prise en charge sur cette trajectoire. La différence est de nature et a un nom : le périmètre d’optimisation.

Trois périmètres se disputent la même décision. Le périmètre clinique maximise le bénéfice du patient et minimise la perte de chance. Le périmètre budgétaire minimise la dépense évitable. Le périmètre capacitaire absorbe le flux et évite la saturation. Aucun n’est illégitime en soi. Le tort naît d’une seule chose : un système qui prétend opérer dans le périmètre clinique alors qu’il optimise en réalité un périmètre budgétaire ou capacitaire. Ce n’est pas un défaut de performance, c’est une erreur de catégorie sur la finalité, une fausse ontologie de l’objectif. Le système ne se trompe pas dans son périmètre ; il opère dans un périmètre différent de celui qu’on lui prête.

La moralité du cas d’usage réside dans l’institution qui assigne le périmètre, jamais dans le modèle. Un dispositif de gouvernance qui surveille le modèle sans surveiller l’assignation du périmètre surveille la mauvaise variable. Cela vaut également pour l’assureur qui refuse le soin post-aigu et pour le régulateur qui traque la fraude : ce qui diffère, c’est le périmètre assigné, pas l’architecture.

Human-in-the-loop contre human-as-alibi : la distinction qui survivra à tout l’article

La défense de UnitedHealth, selon laquelle la couverture est tranchée par des directeurs médicaux et non par l’IA, est exacte dans sa lettre et trompeuse dans sa portée. C’est cette formulation qu’il faut examiner en priorité, parce qu’elle est la plus susceptible de satisfaire une enquête réglementaire sans résoudre le problème structurel.

La question pertinente n’est pas qui signe. C’est qui compose le périmètre sur lequel la signature porte. Si le médecin-conseil valide en bloc une recommandation produite sur le périmètre du coût, sa signature ne réintroduit pas le périmètre clinique : elle l’authentifie absent. L’humain est alors dans la boucle sans pouvoir sur la boucle. Présent, mais sans périmètre.

Cette distinction, human-in-the-loop contre human-as-alibi, conditionne l’ensemble de la discussion réglementaire qui suit. Une exigence de supervision humaine qui ne précise pas quel périmètre l’humain supervise n’ajoute pas de gouvernance au système. Elle ajoute de la signature à un système qui en produit déjà.

G2 contre G3 : d’une optimisation de décision à une restructuration d’espace de décision

L’ordonnancement en trois générations clarifie l’enjeu réel. La première génération est le refus humain explicite : une décision datée, signée, située, contestable sur ses propres termes. La deuxième est la recommandation algorithmique validée par un humain : le modèle propose, l’humain dispose en principe, et un dossier individuel reste identifiable et attaquable. Les deux générations partagent le même objet : une décision sur un dossier.

La troisième génération change d’objet entièrement. Elle n’optimise plus une décision ; elle optimise un espace de décision. Un système de génération 3 agit par modification distribuée des conditions d’accès, de priorité, de friction ou de capacité qui structurent le terrain en amont de la décision clinique locale. Il ne rejette pas le dossier : il déforme le terrain sur lequel le dossier sera traité. Quand un refus survient, il n’est plus une cause mais l’effet de bord d’une trajectoire déjà inclinée.

C’est la conséquence structurelle que manquent les formulations centrées sur la décision automatisée. Les outils de tri, de scoring et de pilotage capacitaire ne décident pas toujours d’un patient ; ils transforment le contexte dans lequel sa privation devient probable. Le tort ne se loge pas dans un acte, mais dans une trajectoire par défaut. La progression de la décision à la trajectoire est la progression du contestable au quasi-invisible : on sait attaquer un refus ; on ne sait pas attaquer une probabilité.

La génération 3 reste une hypothèse structurelle. Son falsifieur est connu et mesurable : le taux d’infirmation humaine, par classe de cas. Cette donnée n’est publiée nulle part. Son absence de publication est déjà un signal de faible gouvernabilité.

La neutralité directionnelle : invariance instrumentale du moteur d’optimisation

Le même modèle prédictif appliqué à une dépense de santé sert, à l’Assurance Maladie, à détecter et stopper la fraude (723 millions d’euros stoppés en 2025, en hausse de 15 %, par un datamining mobilisé depuis une décennie) ; à la CPAM de Paris, à attribuer depuis août 2025 un niveau d’alerte à chaque dossier pour prioriser les enjeux financiers ; et, si les allégations Lokken prospèrent, à comprimer l’accès aux soins post-aigus au détriment du patient.

La neutralité directionnelle nomme cette propriété d’architecture : le même artefact se laisse réorienter vers des finalités opposées sans changer de grammaire technique. Elle ne désigne pas une neutralité axiologique du modèle, l’idée fausse que l’IA serait sans valeurs. Elle désigne une invariance instrumentale : ce qui change, c’est le périmètre assigné par l’institution, pas la structure du calcul. L’architecture est commutable ; la finalité ne l’est pas.

Le danger n’est pas que l’IA soit neutre. Le danger est qu’elle soit réutilisable, et que cette réutilisabilité passe inaperçue derrière la moralité apparente du cas d’usage. Un assureur qui assigne un périmètre budgétaire et un régulateur qui assigne un périmètre antifraude font des choix institutionnels opposés avec le même instrument technique. Ces deux choix sont principalement gouvernés par la décision de périmètre, pas par la qualité du modèle. Diriger l’attention réglementaire vers les audits de modèles sans la diriger vers les déclarations de périmètre laisse la variable décisive non observée.

L’Europe : la modulation algorithmique comme forme non-américaine du même problème

Un dirigeant européen pourrait classer le dossier à ce stade : affaire américaine, assureurs privés, les systèmes solidaires sont différents. Cette erreur de cadrage doit être fermée immédiatement.

L’Europe n’a pas besoin d’importer la prior authorization américaine pour rencontrer le problème. Il lui suffit de moduler l’accès, le délai, l’intensité, la priorité et la charge administrative du parcours. La deuxième distinction qui tranche : le refus n’est qu’une modalité de la privation ; le retard en est une autre ; la friction en est une troisième. La privation moderne passe rarement par un non explicite. Elle passe par la demande de pièces qui allonge le délai, le routage à basse priorité qui repousse le rendez-vous, le seuil de scoring antifraude renforcé qui déclenche une revue supplémentaire, la pondération de SLA qui garantit des délais plus courts à certains profils cliniques qu’à d’autres.

Le terrain français est déjà là, sans rien de spectaculaire. Le scoring antifraude trie les dossiers par niveau d’alerte. Le pilotage capacitaire optimise les flux : l’algorithme Calyps prédit l’activité au centre hospitalier de Valenciennes depuis 2021 avec une fiabilité de l’ordre de 95 % à 48 heures. Priorisation de file d’attente, orchestration BPM des étapes d’un dossier, admission control sur les files, seuils dynamiques de contrôle documentaire, scoring injecté dans les workflows de traitement des demandes : autant de points où une condition d’accès se calibre sans qu’aucune décision clinique ne soit formellement prise, donc sans qu’aucune ne soit formellement contestable. La France n’industrialise pas encore le refus algorithmique explicite ; elle industrialise déjà la modulation algorithmique du parcours.

La dissociation centrale : un système peut rester localement conforme, chaque règle de routage, chaque seuil, chaque SLA respectant sa spécification, tout en produisant globalement une attrition d’accès au soin qu’aucune décision n’a ordonnée. La conformité se vérifie au niveau du composant ; l’attrition se produit au niveau du système. Aucune ne contredit l’autre, et c’est précisément ce qui les rend redoutables ensemble.

Pourquoi ajouter de la revue humaine ne rétablit pas la gouvernabilité

L’objection des partisans d’une régulation par la qualité s’énonce ainsi : auditez le modèle, imposez une revue humaine effective, et le dispositif redevient gouvernable. Cette objection contient une part de vrai : si la revue réattribuait réellement la décision à son périmètre clinique, la thèse tomberait. Mais elle présuppose que la convergence entre l’humain et le modèle serait une défaillance, une paresse, un alibi corrigeable par la discipline. Cette convergence est une propriété attendue du système de travail, pas une faute des reviewers.

L’humain converge avec le modèle par design. Les facteurs structurels sont cumulatifs : temps limité par dossier, asymétrie informationnelle face à un système qu’il n’a pas construit, pression de productivité, réticence à déroger à une recommandation tracée, absence d’accès au raisonnement causal du modèle, responsabilité diluée sur la chaîne. Le plus déterminant : le coût d’infirmation dépasse le coût de validation. Infirmer demande du temps, une justification, une exposition personnelle ; valider n’en demande aucun. Un système qui rend l’infirmation plus coûteuse que la validation produit mécaniquement de la validation. La signature humaine cesse alors d’être un contrôle pour devenir une légitimation terminale, non par vice, par structure.

“Plus de revue” ne suffit pas : on ajoute de la signature à un système qui en produit déjà. Ce qui manque, c’est la mesure de l’effectivité et la réattribution du périmètre. Cinq exigences rendraient le dispositif opposable : déclarer le périmètre réellement optimisé (clinique, économique, capacitaire ou antifraude) ; mesurer le taux d’infirmation humaine réel, par classe de cas ; tracer les transitions causales du score à l’alerte, de l’alerte à la revue, de la revue à la décision, de la décision à l’effet sur le parcours ; identifier une responsabilité nominative sur chaque transition critique ; publier ou auditer les classes de faux positifs et de faux négatifs ayant un effet sur l’accès au soin.

Le cadre réglementaire confirme l’enjeu par sa propre prudence. L’article 14 de l’AI Act impose une supervision humaine pour les systèmes à haut risque, mais son effectivité reste à instrumenter. Le compromis Digital Omnibus du 7 mai 2026 doit reporter les obligations high-risk au 2 décembre 2027 pour les systèmes autonomes et au 2 août 2028 pour les systèmes embarqués. Cet interrègne est exactement l’espace où la revue de façade prospère et où la dissociation devient une stratégie viable.

Gouverner les conditions initiales : ce que les systèmes prédictifs héritent de leur périmètre

L’exigence opératoire est une exigence de périmètre avant d’être une exigence de performance. L’instruction n’est pas “auditez vos modèles”. Elle est : déclarez le périmètre sur lequel la trajectoire de soin est calculée, et mesurez à quelle fréquence un humain s’en écarte.

Un contraste illustre le point. PREDICARE, dans le cadre du programme territorial de médecine prédictive, est un dispositif prédictif orienté vers la décompensation du patient. Son périmètre d’optimisation est physiologique : fenêtre d’anticipation, seuil d’alerte, moment d’intervention. Sa difficulté de gouvernance est entière, mais elle est du bon périmètre : l’erreur qu’on y craint est une erreur sur l’état du patient, que le clinicien peut contester sur son propre terrain. Un système de couverture ou de régulation à structure prédictive comparable porte sur la trajectoire de coût ou de capacité. Même forme, périmètre inverse. La prédiction hérite de son périmètre. Gouverner un système prédictif commence par gouverner ce dont il prédit la trajectoire.

Le soin n’a plus besoin d’être explicitement refusé ; il peut être rendu statistiquement improbable par un environnement de décision optimisé pour un autre périmètre que le bénéfice clinique. Quand le tort s’est dissous dans une trajectoire, le dernier point de prise n’est ni la décision, qui n’a pas eu lieu, ni la signature, qui n’était qu’une légitimation : c’est la condition initiale. Le périmètre assigné, le seuil calibré, la règle de routage, la priorité encodée, tout ce qui incline le terrain avant que le premier dossier n’y entre.

Gouverner le soin algorithmique, ce n’est plus arbitrer des refus. C’est reprendre la main sur les conditions initiales, avant qu’elles ne deviennent une trajectoire que plus personne ne saura contester : ni le patient, qui n’a rien à attaquer, ni le clinicien, qui n’a rien signé, ni l’institution, qui n’a fait qu’assigner un périmètre.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

Le calcul ne crée pas le périmètre économique du refus ; il en change la structure causale, jusqu'à rendre le soin statistiquement improbable sans qu'aucun refus n'ait jamais été prononcé.
Trois périmètres se disputent la même décision : clinique (maximise le bénéfice patient), budgétaire (minimise la dépense évitable), capacitaire (absorbe le flux). Le tort naît d'une seule chose : un système qui prétend opérer dans le périmètre clinique alors qu'il optimise le périmètre budgétaire ou capacitaire. Ce n'est pas un défaut de performance, c'est une erreur de catégorie sur l'objectif.
Première distinction qui tranche : human-in-the-loop contre human-as-alibi. La question n'est pas qui signe, mais qui compose le périmètre sur lequel la signature porte. Une signature sur une recommandation produite au périmètre du coût authentifie l'absence du périmètre clinique.
G2 optimise une décision. G3 optimise un espace de décision. La génération 3 agit par modification distribuée des conditions d'accès, de priorité, de friction ou de capacité, en amont de la décision clinique locale. Elle ne rejette pas le dossier : elle déforme le terrain sur lequel il sera traité.
La neutralité directionnelle désigne une propriété d'architecture : le même artefact se laisse réorienter vers des finalités opposées sans changer de grammaire technique. L'architecture est commutable ; la finalité ne l'est pas. Un dispositif qui surveille le modèle sans surveiller l'assignation du périmètre surveille la mauvaise variable.
L'Europe n'a pas besoin d'importer la prior authorization américaine. La modulation du délai, de la priorité et de la charge administrative produit la même attrition sans refus explicite. La France industrialise déjà la modulation algorithmique du parcours : Calyps, scoring antifraude, orchestration BPM.
Un système peut rester localement conforme tout en produisant globalement une attrition d'accès au soin qu'aucune décision n'a ordonnée. La conformité se vérifie au composant ; l'attrition se produit au système. Aucune ne contredit l'autre.
L'humain converge avec le modèle par design : le coût d'infirmation dépasse le coût de validation. La signature humaine cesse d'être un contrôle pour devenir une légitimation terminale, non par vice, par structure. Ajouter de la revue ajoute de la signature à un système qui en produit déjà.