Clinically-Informed Neural Networks (CINNs)

« L'architecture est une hypothèse. La validation dira si elle tient. »

Note préliminaire — Protection intellectuelle. Les CINNs constituent une contribution architecturale originale en cours de protection intellectuelle. À ce titre, cet article se limite volontairement à l'exposition du cadre théorique, du positionnement épistémologique et du positionnement dans la littérature. Les détails d'implémentation (architecture du pipeline d'extraction, nature formelle des termes de contrainte, mécanisme d'injection et stratégies de calibration) ne seront pas abordés ici et feront l'objet d'une publication ultérieure après dépôt — une pratique standard pour les contributions architecturales en cours de protection.

English translation of the original French article. Article body in French — headings translated. Read the original French version →

1. The inspiring analogy: PINNs

Les Physics-Informed Neural Networks ont résolu un problème élégant : comment incorporer une loi physique connue dans l'apprentissage d'un réseau de neurones, sans que cette loi soit une donnée d'entraînement supplémentaire, mais une contrainte sur l'espace des solutions admissibles.

L'idée est puissante. La fonction de perte devient :

𝓛 = 𝓛_données + λ · 𝓛_physique

où 𝓛_physique mesure la violation de l'équation différentielle connue. Le réseau apprend depuis les données et reste contraint par les lois de la physique. Il ne peut pas converger vers une solution numériquement satisfaisante mais physiquement absurde.

Plus la violation est grande, plus 𝓛_physique est grande, plus 𝓛 totale est grande, plus le gradient pousse les paramètres θ à corriger cette violation lors de la rétropropagation. λ joue le rôle d'arbitre entre les deux objectifs.

Raissi, Perdikaris et Karniadakis (2019) ont montré que cette architecture permet d'apprendre des dynamiques complexes avec des données remarquablement rares — précisément parce que la contrainte physique agit comme régularisateur structurel, réduisant dramatiquement l'espace des solutions à explorer.

Un point important souvent mal compris : 𝓛_physique n'est pas évalué seulement aux points de données. Il est évalué sur un ensemble de collocation points disséminés dans le domaine. Ce qui permet à la contrainte physique d'agir partout, y compris là où aucune observation n'existe.

La question centrale : que se passe-t-il quand vous ne disposez pas de l'équation — mais que vous disposez d'une connaissance statistique dense sur le domaine ?

2. The problem specific to clinical biology

En physique, les lois sont connues, déterministes, universelles. La thermodynamique d'une turbine est la même à Paris qu'à Tokyo. L'équation de Navier-Stokes ne dépend pas de l'histoire personnelle du fluide.

Cette affirmation mérite une nuance : des PINNs ont été appliqués avec succès à certains domaines biologiques — pharmacocinétique/pharmacodynamique, modélisation hémodynamique, électrophysiologie cardiaque. Ces applications fonctionnent précisément là où des équations mécanistiques partielles existent (Rackauckas et al., 2020 ; Ottens et al., 2022 ; Sahli Costabal et al., 2020).

Mais ces domaines représentent une fraction du spectre clinique. La dynamique d'une pathologie chronique complexe — progression de la maladie rénale chronique, trajectoire de l'insuffisance cardiaque, évolution d'une pathologie neurodégénérative — n'obéit pas à une équation différentielle connue et partagée.

Il n'existe pas d'équation différentielle exacte de la progression de l'insuffisance rénale chronique. Il existe des distributions de trajectoires, des corrélations entre biomarqueurs, des prévalences d'événements cliniques issues de décennies de recherche clinique publiée.

Ce n'est pas de l'ignorance. C'est un régime épistémologique différent : non pas l'absence de connaissance, mais une connaissance de nature statistique et populationnelle, là où les PINNs supposent une connaissance déterministe et individuelle.

À cela s'ajoute le problème structurel des données cliniques : le régime HDLSS — High Dimension, Low Sample Size. Quatre consultations par an. Des données éparses, hétérogènes, avec des mécanismes de données manquantes non aléatoires (MNAR). Dans ce régime, un réseau sans contrainte externe sur-apprend sur la cohorte d'entraînement et généralise mal précisément là où la généralisation est l'enjeu clinique (Sugiyama et al., 2012).

3. The central insight: clinical literature as a source of constraints

La réponse que nous explorons chez Qualees avec TweenMe repose sur une observation simple mais structurante.

La littérature médicale publiée — essais randomisés, études de cohorte, méta-analyses, registres — contient une information statistique considérable sur les trajectoires des pathologies modélisées. Cette information est encodée sous des formes variées : distributions de biomarqueurs, relations entre variables biologiques, prévalences et incidences d'événements cliniques, distributions de survie.

Cette information n'est pas dans les données d'entraînement du modèle. Elle est dans la connaissance collective de la communauté scientifique, distribuée dans des milliers de publications, construite sur des populations souvent bien plus larges et mieux caractérisées que la cohorte d'entraînement locale.

Formalisation of the general framework

La fonction de perte prend la forme :

𝓛 = 𝓛_données + λ · 𝓛_clinique(f(x), θ_lit)

où 𝓛_clinique est un terme de contrainte mesurant l'écart entre les sorties du modèle f(x) et les paramètres statistiques θ_lit — distributions de biomarqueurs, intervalles de confiance d'événements cliniques, corrélations inter-variables documentées. λ est une pondération dont la détermination constitue l'un des problèmes ouverts de l'architecture (cf. section 6).

The independence property: characterisation and limits

En première approximation, la contrainte θ_lit est estimée depuis la littérature publiée, construite sur des cohortes distinctes de la cohorte d'entraînement locale. Cette distinction de source est nécessaire mais non suffisante pour garantir l'indépendance statistique.

Une limite structurelle doit être reconnue : la littérature publiée et la cohorte d'entraînement locale peuvent partager des biais systématiques de sélection. L'indépendance de source ne garantit pas l'indépendance distributionnelle.

Une caractérisation opérationnelle de l'indépendance est donc nécessaire, définie en termes de divergence distributionnelle entre la population de référence des contraintes et la cohorte d'entraînement locale.

4. Positioning within existing literature

Avant de caractériser les CINNs, il est nécessaire de les situer par rapport aux familles de travaux les plus proches. Ce positionnement couvre six familles.

4.1 Knowledge distillation et teacher-student frameworks

L'idée d'incorporer une connaissance externe dans l'entraînement d'un réseau est bien établie (Hinton et al., 2015). Dans les frameworks teacher-student, la connaissance est transférée depuis un modèle neuronal pré-entraîné. La différence avec les CINNs est que la source de connaissance n'est pas un modèle neuronal mais une base de connaissances statistiques construite depuis la littérature publiée, traçable, révisable, et auditable dans son origine.

4.2 Constrained optimization in neural networks

Des travaux comme ceux de Marquez-Neila et al. (2017) ou de Pathak et al. (2015) explorent les contraintes dans les réseaux de neurones. Les CINNs s'inscrivent dans la famille des contraintes molles (soft constraints), avec une sémantique clinique explicite et une source externe vérifiable.

4.3 Bayesian deep learning avec priors informés

L'utilisation de distributions a priori encodant des connaissances domaine dans des réseaux bayésiens (Gal & Ghahramani, 2016) partage l'intuition des CINNs. La différence est structurelle : les priors bayésiens opèrent sur les paramètres du modèle ; les CINNs opèrent sur les sorties du modèle via des termes de perte différentiables. Les deux approches sont complémentaires.

4.4 Universal Differential Equations et modèles hybrides QSP

Les Universal Differential Equations (Rackauckas et al., 2020) proposent un cadre dans lequel une dynamique partiellement connue est exprimée sous forme différentielle, les termes inconnus étant appris par un réseau. Les CINNs occupent une position distincte : non pas là où les équations sont partiellement connues, mais là où seule la connaissance statistique populationnelle est disponible, sans structure différentielle sous-jacente.

Les modèles QSP (Gábor et al., 2021) supposent une structure mécanistique partielle (ODE ou PDE) complétée par apprentissage ; les CINNs opèrent en l'absence totale de cette structure. La frontière est nette.

4.5 Validation externe et TRIPOD : le problème que les CINNs cherchent à résoudre

La communauté de validation des modèles de prédiction clinique a produit une littérature considérable sur la généralisabilité externe (Collins et al., 2015 ; Wynants et al., 2020). Cette littérature documente systématiquement la dégradation des performances des modèles ML cliniques en validation externe, précisément dans le régime HDLSS.

Les CINNs peuvent être lus comme une réponse architecturale à ce problème : en contraignant le modèle par des paramètres statistiques issus de populations larges et documentées, ils visent à réduire la sensibilité aux particularités de la cohorte d'entraînement locale.

4.6 Transfer learning et fine-tuning en ML clinique

Les approches de transfer learning (Wornow et al., 2023 ; Steinberg et al., 2021*) adressent partiellement le même problème HDLSS en exploitant des représentations apprises sur de larges cohortes. La distinction fonctionnelle avec les CINNs : le transfer learning encode la connaissance de manière implicite dans les paramètres d'un modèle pré-entraîné ; les CINNs l'encodent de manière explicite, traçable et révisable sous forme de paramètres statistiques issus de la littérature.

* Référence à vérifier avant diffusion finale — voir note bibliographique.

5. Why is this not regularisation?

C'est la question centrale que tout lecteur ML posera. Elle mérite une réponse en quatre temps.

5.1 The distinction from classical regularisation

La régularisation L2 (weight decay, Ridge) ajoute au terme de perte un pénalisateur quadratique sur les paramètres :

𝓛_L2 = 𝓛_données + λ Σᵢ wᵢ²

La régularisation L1 (Lasso) substitue la norme L1, induisant la parcimonie par annulation sélective des poids :

𝓛_L1 = 𝓛_données + λ Σᵢ |wᵢ|

Dans les deux cas, la contrainte s'exerce sur l'espace des paramètres 𝒲. Le terme de pénalisation est sémantiquement indifférent à la nature du problème : il opère de façon identique sur un réseau de classification d'images et sur un modèle de progression tumorale. L1 et L2 instancient le rasoir d'Occam appliqué aux paramètres : en l'absence d'information, préférer la solution la plus simple. C'est un prior non-informatif sur le domaine.

Le dropout contraint la robustesse computationnelle du réseau. La batch normalization contraint les activations pour la stabilité numérique. Ces contraintes n'ont aucune sémantique biologique.

Les CINNs déplacent la contrainte de l'espace des paramètres vers l'espace des trajectoires 𝒯 :

𝓛_CINN = 𝓛_données + λ_bio · ℛ_clinique(τ̂, θ_lit)

où τ̂ désigne la trajectoire prédite et θ_lit les paramètres statistiques issus de la littérature. Le terme de contrainte opère sur 𝒯, l'espace des trajectoires — non sur 𝒲, l'espace des paramètres. Il est sémantiquement spécifié par le domaine.

Dimension	L1 / L2	CINNs
Espace contraint	𝒲 — paramètres wᵢ	𝒯 — trajectoires τ̂
Argument du terme de pénalisation	‖w‖ₚ	ℛ(τ̂, θ_lit)
Sémantique	Nulle — domaine-agnostique	Clinique — biologiquement spécifiée
Prior instancié	Non-informatif (Occam)	Informatif (littérature publiée)
Source du prior	Principe de parcimonie	Consensus scientifique empirique
Dépendance au domaine	Nulle	Constitutive

Une contrainte de régularisation dit : « préfère les solutions simples parmi toutes les solutions mathématiquement possibles. » Une contrainte CINN dit : « préfère les solutions biologiquement plausibles parmi toutes les solutions mathématiquement possibles — en définissant la plausibilité biologique par ce que la communauté scientifique a établi empiriquement. »

La différence n'est pas technique. Elle est épistémologique.

5.2 The distinction from classical calibration

Une contrainte sur les sorties du réseau ressemble à ce que font les méthodes de calibration (Platt scaling, isotonic regression, conformal prediction). La différence structurelle est précisément la propriété clé des CINNs.

Dans les méthodes de calibration classiques, les contraintes sont estimées depuis les données d'entraînement elles-mêmes — un ensemble de validation held-out, une distribution empirique issue de la cohorte locale. Elles sont donc limitées par la taille et la représentativité de cette cohorte.

Dans les CINNs, les contraintes sont estimées depuis une source externe indépendante, construite sur des populations souvent bien plus larges et mieux caractérisées. Cette indépendance est précisément ce qui permet d'agir comme régularisateur dans le régime HDLSS.

La calibration utilise les données pour calibrer le modèle sur les données. Les CINNs utilisent la connaissance externe pour contraindre le modèle là où les données sont insuffisantes pour le faire elles-mêmes.

5.3 The critical asymmetry: hard vs soft constraints

Une asymétrie fondamentale distingue les CINNs des PINNs et doit être nommée explicitement, car elle a des implications de sécurité en contexte clinique.

Dans les PINNs, la contrainte est structurellement dure : une équation différentielle qui doit être satisfaite à tout point du domaine. La violation est détectable, mesurable, et signale une défaillance claire du modèle. Un PINN contraint par une mauvaise équation échoue durement et visiblement.

Dans les CINNs, la contrainte est nécessairement molle : une distribution statistique avec incertitude d'estimation. Un CINN contraint par une littérature biaisée ou des paramètres mal extraits échoue silencieusement : il peut produire des prédictions qui respectent les contraintes (car celles-ci sont erronées) tout en s'écartant de la réalité clinique.

Implication de sécurité clinique. En contexte clinique, une défaillance silencieuse est potentiellement plus dangereuse qu'une défaillance visible. Cette asymétrie impose des exigences spécifiques : monitoring de la distribution des résidus de contrainte, comparaison régulière des paramètres extraits avec des sources primaires validées, mécanismes d'alerte lorsque les prédictions s'écartent des distributions de référence. Ces exigences constituent une composante non-optionnelle de l'architecture en contexte MDR.

5.4 Formal properties of admissible clinical constraints

Un terme 𝓛_clinique est admissible au sens des CINNs s'il satisfait trois propriétés nécessaires :

P1 — Différentiabilité. 𝓛_clinique doit être différentiable par rapport aux paramètres du réseau θ pour permettre la rétropropagation. Cette propriété distingue structurellement les CINNs des approches de post-processing et de calibration classique : la contrainte est active pendant l'entraînement, non appliquée a posteriori sur les sorties.

P2 — Indépendance de source. Les paramètres θ_lit qui définissent la contrainte doivent être estimés depuis une source indépendante de la cohorte d'entraînement locale, avec une divergence distributionnelle mesurable entre la population de référence et la cohorte locale. Cette propriété est la condition d'existence de la valeur ajoutée CINN en régime HDLSS — elle doit être vérifiée empiriquement avant déploiement.

P3 — Traçabilité épistémique. Chaque paramètre θ_lit doit être traçable vers une ou plusieurs sources primaires identifiées, avec leur niveau de preuve associé. Cette propriété distingue les CINNs des approches de knowledge distillation depuis un modèle pré-entraîné opaque : la connaissance est explicite, auditable, révisable.

Note : Ces trois propriétés délimitent une classe d'architectures sans révéler l'implémentation spécifique. En particulier, P1 justifie pourquoi le problème du loss balancing est structurel et non contingent : c'est précisément parce que 𝓛_clinique est différentiable et intégrée dans le graphe de calcul que le déséquilibre NTK analysé par Wang et al. (2022) est pertinent aux CINNs.

6. The loss balancing problem: state of the art

6.1 NTK analysis and gradient imbalance

Wang, Teng et Perdikaris (2022) ont montré via l'analyse du Neural Tangent Kernel (NTK) que le déséquilibre des gradients entre les termes de perte est la principale source d'échec des PINNs entraînés naïvement. Lorsque les magnitudes de ∇𝓛_données et ∇𝓛_physique diffèrent de plusieurs ordres de grandeur, l'optimisation est dominée par le terme dominant et la contrainte est effectivement ignorée.

Ce phénomène est directement pertinent pour les CINNs : les termes de contrainte clinique opèrent dans des espaces métriques différents des termes de perte sur les données, et leurs gradients peuvent être structurellement déséquilibrés.

6.2 Adaptive weighting strategies

Plusieurs stratégies sont candidates à adaptation pour les CINNs :

Self-Adaptive PINNs (SA-PINN), McClenny & Braga-Neto (2023) : les pondérations λ sont traitées comme des paramètres apprenables qui augmentent là où les résidus de contrainte sont élevés. Directement transposable aux CINNs.
Gradient normalization, Chen et al. (2018) : normalisation des gradients de chaque terme de perte avant accumulation. Applicable directement.
Uncertainty weighting, Kendall et al. (2018) : pondération par l'incertitude homoscédastique des tâches, avec fondement probabiliste.

Note — Référence supprimée. La référence initialement citée comme « Bischof & Kraus (2021) — ReLoBRaLo » a été retirée : le titre associé dans la version précédente (Mixture-of-Experts with Expert Choice Routing) correspond à un article sans rapport avec le loss balancing dans les architectures informées. La méthode ReLoBRaLo (Relative Loss Balancing via Residual-based Adaptive Learning) sera réintégrée avec vérification primaire sur arXiv avant diffusion.

Pour les CINNs, le problème de pondération présente une dimension supplémentaire : les λ doivent refléter non seulement l'équilibre numérique des gradients, mais aussi la valeur épistémique relative des sources. Une méta-analyse Cochrane devrait peser davantage qu'une étude rétrospective monocentrique. Cette hiérarchie épistémique est discutée à la section 7.

7. What CINNs aim to deliver — and what they do not resolve

7.1 Expected benefits, subject to validation

Stabilité hors distribution. Dans le régime HDLSS clinique, le risque majeur d'un réseau non contraint est la divergence vers des trajectoires biologiquement absurdes dès que le patient s'écarte de la distribution d'entraînement. La contrainte statistique devrait agir comme un rappel vers la plausibilité — un espace de solutions que la biologie clinique a collectivement validé.

Interprétabilité clinique. Une prédiction accompagnée de sa position relative dans les distributions de référence issues de la littérature est potentiellement plus interprétable qu'une prédiction numérique isolée. Cette interprétabilité est de nature différente de celle des méthodes de saliency (SHAP, LIME) : elle ne porte pas sur les features, mais sur la plausibilité clinique de la trajectoire prédite.

Traçabilité réglementaire. Dans un contexte MDR Classe IIa, pouvoir documenter que le modèle est contraint par des connaissances issues d'études publiées identifiées, sur des populations documentées, constitue une forme de traçabilité épistémique que les architectures end-to-end opaques ne peuvent pas offrir.

Note réglementaire : La traçabilité épistémique des contraintes d'entraînement contribue à la documentation technique du dispositif (Technical File), mais ne se substitue pas à la génération de données de performance clinique requise par la MDR pour la clinical evaluation (Annexe XIV). Ces deux exigences sont complémentaires et non interchangeables.

7.2 Unresolved structural limitations

La qualité de l'extraction conditionne tout. Un modèle contraint par des paramètres mal extraits depuis la littérature peut être pire qu'un modèle non contraint. C'est la vulnérabilité principale de l'architecture.

Le biais des sources est propagé, pas corrigé. Si la littérature utilisée est issue de populations sur-représentées, les contraintes encodent ce biais. Les CINNs ne sont pas meilleurs que la littérature sur laquelle ils s'appuient. Cette limite est structurelle et honnête.

La pondération des contraintes est un problème ouvert. Comment arbitrer entre les données locales et les contraintes issues de la littérature, notamment quand elles sont en tension ? Ce problème reste ouvert dans notre implémentation actuelle.

La hiérarchie épistémique des sources. Une contrainte issue d'une méta-analyse Cochrane n'a pas la même valeur épistémique qu'une contrainte issue d'une étude rétrospective monocentrique. Comment formaliser cette hiérarchie dans les λ de l'architecture — analogiquement aux grilles GRADE — est une question ouverte.

La temporalité des sources. La littérature évolue. Une contrainte construite sur des publications de 2015 peut être invalidée par un registre de 2023. La gestion de l'obsolescence des contraintes (versioning, mécanismes de mise à jour, alertes sur invalidation) est un composant de maintenance active de l'architecture.

8. Validation criteria and falsifiability conditions

8.1 Validation questions

Dans quel régime de rareté des données (en nombre d'observations par variable) la contrainte externe apporte-t-elle un gain de calibration mesurable (ECE, reliability diagrams) par rapport aux baselines non contraintes ?
Comment se comporte le modèle lorsque les données du patient s'écartent significativement des populations représentées dans les contraintes, et comment détecter automatiquement cette situation ?
Comment quantifier la contribution respective des différents termes de contrainte à la performance globale par ablation systématique ?
La connaissance extraite de la littérature est-elle suffisamment fiable pour constituer une contrainte plus robuste que celle estimable depuis la cohorte locale, en fonction de la divergence distributionnelle mesurée ?

8.2 Falsifiability criteria

L'hypothèse centrale des CINNs peut être énoncée de manière falsifiable :

« Dans le régime HDLSS clinique, lorsque la cohorte d'entraînement locale est en deçà d'un seuil N* tel que l'estimation directe des paramètres de calibration atteint une variance inacceptable (σ² > ε), la contrainte externe issue de la littérature apporte un gain de calibration mesurable et statistiquement significatif par rapport aux baselines non contraintes — à condition que la divergence distributionnelle entre population de référence et cohorte locale soit en deçà d'un seuil Δ*. »

Cette hypothèse est rejetée si, dans ce régime spécifié, les expériences montrent systématiquement l'absence de gain, ou une dégradation, de la calibration sous contrainte. La validation doit donc estimer empiriquement les seuils N* et Δ*.

9. Conclusion: constraint as a form of knowledge

Il y a une asymétrie fondamentale dans la modélisation en santé que les approches purement data-driven ignorent :

Les données sont rares. La connaissance ne l'est pas.

Des décennies de recherche clinique publiée ont produit une connaissance statistique considérable sur les trajectoires des pathologies chroniques. Cette connaissance est dispersée dans des milliers de publications, encodée dans des formes variées, rarement exploitée par les modèles ML qui opèrent sur les données de soin.

Les CINNs sont une tentative de combler cette asymétrie — de faire de la connaissance collective de la communauté scientifique une contrainte active dans l'apprentissage, plutôt qu'une information passive consultée a posteriori pour interpréter les résultats.

Ce n'est pas une solution universelle. C'est une réponse architecturale à un régime épistémologique spécifique : celui de la médecine clinique, où les données sont structurellement rares, où la connaissance a priori est statistique et non déterministe, et où la plausibilité biologique des prédictions n'est pas un luxe interprétatif — c'est une condition de sécurité.

Dans la famille des architectures informées — PINNs pour la physique déterministe, Neural ODEs pour les dynamiques continues, UDE pour les systèmes partiellement connus — les CINNs proposent une position distincte : l'inférence sous contrainte épistémique clinique externe, pour des systèmes dont la dynamique est régie par des lois statistiques populationnelles plutôt que par des équations mécanistiques.

Cette architecture est une hypothèse. Elle reste à valider.

Bibliographic note

Les références citées visent à situer le cadre des CINNs dans les familles méthodologiques pertinentes : architectures informées, apprentissage sous contrainte, validation externe en ML clinique, et stratégies de pondération adaptative. Cette bibliographie n'a pas vocation à l'exhaustivité. Les références structurantes — celles qui fondent directement le raisonnement — sont distinguées des références illustratives qui documentent des applications ou des familles de travaux connexes. Toute erreur ou imprécision bibliographique est à signaler : la traçabilité des sources est un engagement constitutif de cette contribution.

Core references

Chen, T. et al. (2018). GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks. ICML 2018.

Collins, G.S. et al. (2015). Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD). Annals of Internal Medicine, 162(1):55–63.

Gal, Y. & Ghahramani, Z. (2016). Dropout as a Bayesian Approximation. ICML 2016.

Hinton, G. et al. (2015). Distilling the Knowledge in a Neural Network. NIPS 2015 Deep Learning Workshop.

Kendall, A. et al. (2018). Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. CVPR 2018.

Marquez-Neila, P. et al. (2017). Imposing Hard Constraints on Deep Networks: Promises and Limitations. CVPR Workshops 2017.

McClenny, L. & Braga-Neto, U. (2023). Self-Adaptive Physics-Informed Neural Networks. Journal of Computational Physics, 474:111722.

Pathak, D. et al. (2015). Constrained Convolutional Neural Networks for Weakly Supervised Segmentation. ICCV 2015.

Rackauckas, C. et al. (2020). Universal Differential Equations for Scientific Machine Learning. arXiv:2001.04385.

Raissi, M., Perdikaris, P. & Karniadakis, G.E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems. Journal of Computational Physics, 378:686–707.

Sugiyama, M. et al. (2012). Machine Learning in Non-Stationary Environments. MIT Press.

Wang, S., Teng, Y. & Perdikaris, P. (2022). Understanding and Mitigating Gradient Flow Pathologies in Physics-Informed Neural Networks. SIAM Journal on Scientific Computing, 43(5).

Wynants, L. et al. (2020). Prediction models for diagnosis and prognosis of Covid-19: systematic review and critical appraisal. BMJ, 369:m1328.

Illustrative references

Achakulvisut, T. et al. (2020). Claim Extraction in Biomedical Publications using Deep Learning Models. arXiv:2002.05635.

Gábor, A. et al. (2021). Robust and efficient parameter estimation in dynamic models of biological systems. BMC Systems Biology.

Gu, Y. et al. (2021). Domain-Specific Language Model Pretraining for Biomedical NLP. ACM Transactions on Computing for Healthcare.

Lee, J. et al. (2020). BioBERT: a pre-trained biomedical language representation model. Bioinformatics, 36(4):1234–1240.

Ottens, A.K. et al. (2022). Physics-Informed Neural Networks in Oncology. Journal of Computational and Applied Mathematics.

Sahli Costabal, F. et al. (2020). Physics-Informed Neural Networks for Cardiac Activation Mapping. Frontiers in Physics, 8:42.

Steinberg, E. et al. (2021). Language models are few-shot clinical learners. Machine Learning in Health Conference. [À vérifier — titre et venue à confirmer sur Semantic Scholar avant diffusion finale.]

Wornow, M. et al. (2023). The shaky foundations of large language models for electronic health records. npj Digital Medicine, 6:135.

Removed reference (to be reinstated after primary verification)

Bischof, R. & Kraus, M. — ReLoBRaLo (Relative Loss Balancing via Residual-based Adaptive Learning). Référence retirée : le titre associé dans la version précédente ne correspond pas à la méthode citée. À vérifier et réintégrer avec DOI validé avant toute diffusion.

Context et portée

Cet article s'inscrit dans le programme de recherche de Qualees sur la modélisation clinique en conditions HDLSS (High Dimensionality Low Sample Size). Les CINNs transposent le principe fondateur des Physics-Informed Neural Networks (Raissi, Perdikaris & Karniadakis, 2019) au domaine de la biologie clinique, où les lois ne sont pas des équations différentielles exactes mais des connaissances épidémiologiques statistiques, partielles et populationnelles.

La distinction centrale — entre régularisation mathématique et contrainte clinique externe — constitue le positionnement épistémologique de l'architecture. La source des contraintes est indépendante des données d'entraînement : elle provient de la littérature biomédicale publiée, avec son niveau de preuve associé.

The rest of this article requires registration

You have read the introductory framework (sections 1–2). The full article covers positioning within existing literature, the distinction from regularisation, loss balancing, validation criteria and the conclusion.

🔒 Register to continue reading

Free access · Personalised document · No commercial follow-up

Accès

🔒 Registration required

Theoretical framework available on this page.
Full document requires registration.

✓ Full article below

Personalised document · Free access
No commercial follow-up