Bayésien : le mot qui achète de la crédibilité réglementaire sans la mériter

« La plupart des implémentations bayésiennes en santé ne sont pas vraiment bayésiennes au sens épistémologique du terme. C'est du fréquentisme habillé en graphe probabiliste. Le résultat ressemble à du bayésien. Il se vend comme du bayésien. Il n'en a pas les propriétés. »

Sommaire de l'article

1 · La distinction fondamentale

Fréquentisme vs bayésianisme : deux philosophies de la probabilité, deux ontologies. On ne peut pas être « un peu » bayésien. Le fréquentiste estime des paramètres fixes ; le bayésien met à jour des croyances.

2 · Ce que font vraiment les start-ups

Réseaux bayésiens comme formalisme graphique, mais estimation par maximum de vraisemblance. Priors uniformes ou conjugués par commodité computationnelle, pas par raisonnement épistémique. L'incertitude n'est pas propagée — on obtient un score fréquentiste mis en forme.

3 · L'exemple du cancer du poumon

« Doigts jaunes » et cancer corrélés dans les données. Un réseau bayésien appris inclurait cet arc. Mais intervenir sur les doigts jaunes n'a aucun effet. Fumer → cancer et fumer → doigts jaunes : confusion corrélation/causalité dans la structure même du graphe.

4 · Calibration, drift et confiance aveugle

Un modèle calibré globalement peut être catastrophiquement mal calibré localement. La dérive silencieuse (dataset shift) rend le modèle progressivement inadapté sans alarme. Le clinicien ne peut pas détecter le problème sans outillage spécifique.

5 · L'argument RH

Le choix architectural est partiellement un choix RH déguisé en choix technique. Un data scientist senior maîtrisant les architectures transformer coûte 80-140k€ et part à Londres. Un biostatisticien maîtrisant les réseaux bayésiens coûte 50k€ et sort en masse des masters de biostat.

6 · Ce qu'il faut exiger

Validation clinique indépendante. Caractérisation honnête de l'incertitude. Procédure de surveillance de dérive. Équipe capable de maintenir le modèle dans le temps. Et une réponse honnête : est-ce vraiment du bayésien ?

Pourquoi l'IA médicale se dit bayésienne — et ce qu'elle livre vraiment.

Parcourez les pitchs des start-ups d'IA en santé. Lisez les dossiers de marquage CE. Assistez aux conférences medtech.

Un mot revient avec une régularité troublante : bayésien.

« Notre modèle est bayésien. » Sous-entendu : rigoureux, transparent, quantifiant l'incertitude, approuvé par les régulateurs. Sous-entendu : nous ne sommes pas une boîte noire. Nous sommes de la statistique sérieuse.

Avant de se demander si c'est vraiment du bayésien — rencontrons d'abord Monsieur Bayes.

Ce qu'est vraiment le bayésianisme

Thomas Bayes, pasteur anglican du XVIIIe siècle, a formulé une chose simple et révolutionnaire : la probabilité n'est pas une fréquence. C'est un état de croyance. Une mesure de notre incertitude sur le monde — pas une propriété du monde lui-même.

Formellement : P(A|B) — la probabilité de A sachant B. Si vous observez B, dans quelle mesure devez-vous réviser votre croyance sur A ? Le théorème de Bayes répond à cette question avec une élégance brutale :

P(A|B) = P(B|A) × P(A) / P(B)

Trois termes. Trois concepts.

P(A) est le prior — ce que vous croyiez avant d'observer quoi que ce soit. P(B|A) est la vraisemblance — la probabilité d'observer B si A est vrai. P(A|B) est le posterior — ce que vous devriez croire maintenant que vous avez vu B.

C'est un moteur de mise à jour de la connaissance. Vous partez d'une croyance initiale. Vous observez des données. Vous révisez. Vous observez encore. Vous révisez encore. À chaque étape, votre incertitude est explicite, quantifiée, propagée.

En médecine, cette philosophie est naturelle. Un clinicien qui examine un patient fait du bayésianisme intuitif : il part d'une probabilité pré-test (le prior — épidémiologie, présentation clinique), observe un résultat de test (la vraisemblance), et révise son diagnostic (le posterior). Le rapport de vraisemblance positif ou négatif n'est rien d'autre que le facteur bayésien habillé en langage médical.

La promesse de l'IA bayésienne en santé est donc précise : encoder ce raisonnement formellement, propager l'incertitude à chaque étape, produire non pas un score — mais une distribution. Non pas « probabilité 87% » — mais « probabilité 87%, avec une incertitude de ±12% selon la qualité des données disponibles sur ce patient ».

C'est une promesse sérieuse. Elle mérite d'être prise au sérieux — précisément parce qu'elle est rarement tenue.

Les vertus réelles — soyons honnêtes

En IA médicale, cette philosophie a des applications légitimes et documentées.

Les données rares d'abord. En oncologie rare, en maladies orphelines, en pédiatrie — les cohortes sont petites. Trop petites pour entraîner un réseau de neurones profond sans surapprentissage massif. On parle de situations HDLSS (High Dimensional, Low Sample Size). Le bayésien permet d'incorporer des priors issus de la littérature, d'essais antérieurs, de l'avis d'experts — et de compenser le manque de données par de la connaissance structurée. C'est une vraie force, pas un argument marketing.

La quantification de l'incertitude ensuite. Un modèle bayésien ne produit pas un score ponctuel — il produit une distribution. Il dit non pas « 87% de probabilité de sepsis » mais « entre 74% et 96%, selon la qualité des données disponibles sur ce patient ». Cette distinction est fondamentale : il existe deux types d'incertitude que la plupart des modèles confondent. L'incertitude aléatoire — liée au bruit intrinsèque des données, irréductible — et l'incertitude épistémique — liée à l'ignorance du modèle, réductible avec plus de données ou un meilleur modèle. Un cadre bayésien rigoureux les distingue et propage explicitement la seconde vers les prédictions. C'est cette distribution qui est directement actionnable pour le clinicien : elle lui dit quand faire confiance au modèle et quand demander un avis supplémentaire.

L'intégration de connaissances causales enfin. Un réseau bayésien peut encoder explicitement des relations physiopathologiques connues — « la fièvre influence la CRP, qui influence le score de sepsis » — sous forme de graphe orienté. Le modèle ne découvre pas ces relations à partir des données : il les intègre comme contraintes structurelles. Dans des domaines où la causalité est bien établie, c'est un avantage décisif sur un réseau de neurones qui apprend des corrélations sans distinguer cause et effet.

La FDA et l'EMA l'ont compris. Leurs guidances sur les méthodes bayésiennes dans les essais cliniques — respectivement 2010 et 2018 — reconnaissent explicitement la valeur de cette approche pour les petites populations, les maladies rares et les dispositifs médicaux à données limitées.

Le bayésianisme en santé a donc une légitimité réelle. Ce n'est pas un archaïsme. Ce n'est pas une mode.

C'est ce qui rend la suite d'autant plus inconfortable.

Le DAG, le graphe causal — et la confusion fatale

Un réseau bayésien est construit autour d'un DAG — graphe orienté sans boucle — dans lequel chaque flèche dit : « cette variable influence celle-là ».

Chaque nœud est une variable. Chaque arc est une dépendance probabiliste. La structure entière encode une distribution de probabilité jointe sur l'ensemble des variables — ce qui permet de calculer efficacement des probabilités conditionnelles : P(sepsis | fièvre, CRP élevée, hypotension).

C'est élégant. C'est puissant. Et c'est là que commence la confusion.

Un arc dans un réseau bayésien ne dit pas : « A cause B ». Il dit : « si j'observe A, je dois réviser ma croyance sur B ». C'est une relation statistique — une dépendance dans les données. Pas une affirmation sur le monde.

La distinction est l'œuvre de Judea Pearl — prix Turing 2011 — qui a formalisé ce que les épidémiologistes savaient intuitivement sans pouvoir le dire précisément. Pearl distingue trois niveaux de raisonnement :

Observer : P(B|A). Si je vois A, que puis-je dire sur B ? C'est le niveau de la corrélation. De la statistique classique. Du réseau bayésien.

Intervenir : P(B|do(A)). Si j'agis sur A — si je le fixe par une intervention externe — que se passe-t-il sur B ? C'est le niveau de l'essai contrôlé randomisé. De la causalité.

Imaginer : Si A avait été différent, B aurait-il changé ? C'est le niveau du contrefactuel. De la responsabilité médicale. De la médecine personnalisée.

Un réseau bayésien opère au premier niveau. Un graphe causal opère aux trois.

La différence n'est pas technique. Elle est épistémologique.

Exemple concret. Le tabagisme cause le cancer du poumon. Le tabagisme jaunit aussi les doigts. Dans les données cliniques, doigts jaunes et cancer du poumon sont donc corrélés — non pas parce que l'un cause l'autre, mais parce qu'ils partagent une cause commune.

Tabagisme → Cancer du poumon

Tabagisme → Doigts jaunes

Un réseau bayésien appris sur ces données va détecter la corrélation entre doigts jaunes et cancer et inclure un arc entre les deux. C'est statistiquement justifié. C'est causalement faux.

Intervenir sur les doigts jaunes — les décolorer — n'aura aucun effet sur le risque de cancer. Le réseau bayésien, interrogé sur cette intervention, se trompe. Le graphe causal, qui encode la structure en fourche avec le tabagisme comme cause commune, répond correctement : l'arc entre doigts jaunes et cancer est une illusion de corrélation, pas une relation d'influence.

C'est précisément la distinction entre observer et intervenir — le premier et le second niveau de Pearl. Un réseau bayésien opère au premier. Il ne peut pas répondre aux questions du second.

La plupart des start-ups vendent la causalité. Elles livrent la corrélation. Dans un formalisme qui ressemble suffisamment à l'un pour que personne ne réclame l'autre.

Il faut ici ajouter une précision qui aggrave le diagnostic. Un DAG peut être construit de deux manières : spécifié à la main par un expert clinique, qui encode ses hypothèses sur les relations entre variables — ou appris automatiquement à partir des dépendances statistiques observées dans les données. Dans le premier cas, les arcs peuvent refléter une causalité réelle si l'expert la connaît. Dans le second cas, un DAG appris uniquement sur les données n'implique aucune interprétation causale valide — il encode des corrélations, rien de plus. L'exemple des doigts jaunes s'applique dans les deux situations : par ignorance dans le premier cas, par construction dans le second.

Est-ce vraiment du bayésien ?

Revenons donc à la question posée en ouverture.

Dans la majorité des implémentations que l'on rencontre dans les start-ups de santé — la réponse honnête est : non.

Pas entièrement. Pas au sens où Bayes, Laplace ou Pearl l'entendraient.

Voici ce qui se passe réellement.

La structure du graphe — le DAG, les nœuds, les arcs — est dessinée à la main par un expert clinique ou un biostatisticien. C'est déjà une hypothèse forte : on suppose connaître a priori quelles variables influencent quelles autres. Dans des pathologies bien comprises, c'est défendable. Dans des pathologies complexes, multifactorielles, mal élucidées — c'est une fiction structurée.

Les probabilités dans les nœuds sont ensuite estimées par maximum de vraisemblance sur les données d'entraînement. C'est-à-dire : par une méthode fréquentiste classique. On cherche les paramètres qui maximisent la probabilité d'observer les données — sans prior, sans distribution a posteriori, sans propagation de l'incertitude.

Le résultat ressemble à du bayésien. Il se nomme bayésien. Il ne l'est pas.

C'est du fréquentisme en costume bayésien.

La différence n'est pas cosmétique. Elle est opérationnelle.

Un vrai modèle bayésien propage l'incertitude à travers le graphe. Si je suis incertain sur la valeur d'un paramètre — parce que mes données d'entraînement sont rares, ou parce que le patient devant moi ressemble peu à la population d'entraînement — cette incertitude se répercute sur la sortie. Le clinicien reçoit une distribution, pas un score.

Un modèle fréquentiste déguisé ne propage rien. Il produit « probabilité 87% de sepsis » avec la même confiance sur dix mille patients que sur dix. L'incertitude épistémique est invisible. Elle est masquée derrière un chiffre qui a l'air précis.

C'est précisément ce que les guidances FDA et EMA sur les méthodes bayésiennes cherchent à garantir — la propagation rigoureuse de l'incertitude dans les contextes de données limitées. Ce que la plupart des implémentations commerciales ne fournissent pas.

Elles bénéficient de l'aura réglementaire du bayésianisme sans en satisfaire les exigences. C'est un transfert de légitimité non mérité.

Pourquoi personne ne le dit ? Parce que le régulateur vérifie rarement l'implémentation au niveau de l'inférence. Parce que le clinicien n'a pas les outils pour le détecter. Et parce que l'équipe de développement — nous y venons — n'a parfois pas elle-même les compétences pour faire autrement.

Le déficit RH que personne ne nomme

Posons la question directement. Pourquoi autant de start-ups de santé arrivent-elles à la même conclusion architecturale ?

La réponse officielle : le bayésien est explicable, rigoureux, réglementairement accepté. Nous l'avons vu — c'est vrai, partiellement.

La réponse réelle : c'est ce qu'elles peuvent recruter.

Un data scientist senior maîtrisant les architectures transformer, le fine-tuning de modèles de langage médicaux, la calibration d'incertitude par conformal prediction, le federated learning sur données FHIR — ça coûte entre 80 000 et 140 000 euros en France. Ça part à Londres, Zurich ou San Francisco dès qu'une offre sérieuse se présente. Et ça n'existe pas en quantité suffisante sur le marché.

Un biostatisticien formé à la régression logistique, aux modèles de survie, aux réseaux bayésiens — ça existe. Ça sort en masse des masters de biostatistique, des écoles de pharmacie, des CROs. Ça coûte 45 000 à 60 000 euros. Ça connaît le vocabulaire réglementaire. Ça sait parler aux médecins.

Le choix architectural devient alors un choix RH déguisé en choix technique.

Ce n'est pas une accusation de mauvaise foi. C'est une contrainte de marché. Les start-ups font avec ce qu'elles trouvent — et ce qu'elles trouvent, c'est des profils biostat solides, honnêtes, compétents dans leur domaine. Le problème n'est pas leur compétence. Le problème est le glissement.

Car le biostatisticien fréquentiste compétent sait construire des modèles bien calibrés, interpréter des intervalles de confiance, gérer les données manquantes. Ces compétences sont réelles et précieuses. Mais les transposer dans un formalisme bayésien sans maîtriser l'inférence bayésienne rigoureuse — sans savoir spécifier un prior informatif, sans comprendre la sensibilité du posterior au choix du prior, sans maîtriser les méthodes qui permettent de calculer concrètement le posterior — ce que ni Stan, ni PyMC, ni aucun tableur ne fait automatiquement — produit exactement ce que nous avons décrit.

Du fréquentisme habillé. Vendu comme du bayésien.

Dette technique cachée : on livre quelque chose qui fonctionne dans les conditions du développement. On ne livre pas quelque chose qui fonctionnera dans les conditions du déploiement réel — population différente, données évolutives, cas hors-distribution.

La dette est invisible à la livraison. Elle se révèle dans le temps.

Un prior figé est un biais qui dort. Une structure causale imposée en 2021 sur une population de CHU parisien sera silencieusement fausse en 2026 sur une population de médecine de ville en zone rurale. Personne dans la start-up n'a les compétences — ni souvent le mandat — pour faire évoluer le modèle. La maintenance bayésienne rigoureuse est un métier rare. Il n'est pas dans l'organigramme.

Ce qui a été vendu comme une architecture pérenne parce que transparente est en réalité une architecture figée parce que sous-staffée.

Ce que ça coûte — et à qui

Revenons à ce qui compte.

Un modèle fréquentiste déguisé en bayésien, spécifié à la main par un biostatisticien compétent mais non formé à l'inférence bayésienne rigoureuse, déployé sur une population différente de la population d'entraînement, sans procédure de détection de dérive, sans maintenance architecturale prévue — ce modèle va se tromper.

Silencieusement. Progressivement. Sans alarme.

Il ne dira pas « je suis en dehors de mon domaine de validité ». Il produira « probabilité 84% de réhospitalisation » sur un patient pour lequel il n'a aucune légitimité statistique. Avec la même confiance apparente que sur les dix mille patients de la cohorte d'entraînement.

Et le clinicien, informé que le modèle est « bayésien — donc rigoureux, donc explicable » — fera confiance.

Ce n'est pas un scénario hypothétique. C'est le mécanisme exact par lequel des algorithmes médicaux correctement certifiés à un instant T deviennent dangereux à T+18 mois.

Un point aggrave le diagnostic. La performance globale d'un modèle peut rester acceptable alors que sa calibration s'est dégradée — la calibration étant la correspondance entre la probabilité prédite et la fréquence réelle de l'événement. Un modèle mal calibré affiche un chiffre précis. Il ne dit pas que ce chiffre est faux dans le sous-groupe du patient devant vous. C'est précisément ce que le clinicien ne peut pas détecter sans outillage spécifique.

La dérive — dataset shift dans la littérature méthodologique — est documentée. La sous-détection de cette dérive dans les systèmes déployés l'est aussi. Trois vecteurs l'alimentent silencieusement : l'évolution des populations de patients, le changement des pratiques médicales, la transformation des systèmes d'information cliniques. Aucun n'est exceptionnel. Tous sont inévitables.

Le coût n'est pas supporté par la start-up. Elle a livré ce qui était dans le cahier des charges. Le marquage CE a été obtenu. L'investisseur est satisfait.

Le coût est supporté par le patient qui reçoit une recommandation erronée. Par le clinicien qui a fait confiance à un chiffre qui avait l'air rigoureux. Par le système de santé qui a acheté une solution présentée comme pérenne et qui devra la remplacer.

Et par le prochain porteur de projet honnête — qui arrive avec un modèle de deep learning mieux calibré, mieux validé, mieux surveillé — et à qui on oppose : « mais est-il explicable ? »

La boucle est bouclée.

Ce qu'il faut exiger

Pas nécessairement du deep learning. Le bayésien a des vertus réelles dans des contextes précis — données rares, connaissances causales établies, populations bien définies. Ces vertus méritent d'être utilisées honnêtement.

Pas nécessairement du fréquentisme. Les méthodes classiques ont leur place — à condition de ne pas les vendre pour ce qu'elles ne sont pas.

Ce qu'il faut exiger, c'est la même chose que pour n'importe quel dispositif médical : une validation clinique indépendante sur la population cible, pas sur la cohorte de développement ; une caractérisation honnête de l'incertitude, pas un score ponctuel présenté comme une distribution ; une procédure de surveillance de dérive, pas une certification figée à la date de déploiement ; une équipe capable de maintenir le modèle dans le temps, pas seulement de le livrer.

Et une réponse honnête à la question posée en ouverture : est-ce vraiment du bayésien ? Ou est-ce du fréquentisme en costume — utile, peut-être, mais pas ce qui est sur l'étiquette ?

L'IA en santé n'a pas besoin de faux bayésianisme pour être légitime. Elle a besoin de rigueur. De transparence sur ce qu'elle est réellement. Et de professionnels assez honnêtes pour dire à leurs clients — et à leurs investisseurs — ce qu'ils livrent vraiment.

Ce n'est pas une critique de l'ambition. C'est une exigence de précision. Dans une médecine qui se dit volontiers « de précision » — la précision n'est pas optionnelle.

Références

(1) Pearl, J. (2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.

(2) FDA Guidance (2010). Guidance for the Use of Bayesian Statistics in Medical Device Clinical Trials.

(3) EMA Reflection Paper (2018). Use of Bayesian methods in clinical studies.

(4) Gelman, A. et al. (2013). Bayesian Data Analysis. CRC Press.

Bayésien : le mot qui achète de la crédibilité réglementaire sans la mériter.