ToxTwin V2.4 — Jumeau numérique de toxicité moléculaire

Contexte

La prédiction toxicologique pré-Phase 1 est l'un des goulots d'étranglement les plus coûteux du développement pharmaceutique.

Approche

Conception et déploiement d'un pipeline end-to-end fondé sur les Graph Neural Networks, avec architecture Medallion, ensemble multi-représentation, tri-routeur par endpoint et infrastructure souveraine.

Résumé

ToxTwin V2.4 est une plateforme de scoring toxicologique prédictif pré-Phase 1 fondée sur un pipeline GNN end-to-end. Elle couvre 14 endpoints toxicologiques — 12 assays Tox21, la mutagénicité Ames et l’inhibition du canal hERG — avec une couche d’interprétation pharmacologique par LLM local. La version V2.4 introduit un tri-routeur par endpoint et des corpus Ames et hERG enrichis depuis des sources primaires réglementaires. Elle est la première version à dépasser 0.89 de mean AUC Tox21 sur protocole 5-fold scaffold CV strict. L’ensemble s’exécute sur une infrastructure souveraine sans dépendance cloud.

Mots clefs — Toxicologie prédictive · Graph Neural Network · GINEConv · AttentiveFP · Ensemble learning · Tri-routeur · Calibration isotonique · Domaine applicatif composite · Scaffold split · hERG · Ames · ISS · ICH S2R1 · ChEMBL · Infrastructure souveraine

Points saillants

Tox21 mean AUC 0.898 — 12/14 cibles atteintes, gaps Ames et hERG réduits de 33–37 %
Tri-routeur par endpoint : spécialisation corpus × architecture surpasse l’encodeur partagé
Corpus Ames ISS (labels ICH S2R1 par souche) + hERG ChEMBL v34 (rééquilibrage 48.5/51.5)
Features conformationnelles 3D testées et écartées — le plafond est un plafond de couverture
Cycle de développement transparent : 6 versions, 4 biais majeurs documentés et corrigés
API REST V2.4 rétrocompatible V2.3, champ routing exposé par réponse

Trajectoire V1.0 → V2.4 : six versions, quatre biais, une architecture

Le développement de ToxTwin illustre un principe que l’on préfère généralement taire en présentation produit : la plupart des gains de performance résultent de la correction d’erreurs préexistantes, pas de l’introduction d’innovations. La trajectoire ci-dessous retrace chaque version, le problème qu’elle devait résoudre, le point bloquant rencontré, et le contournement retenu.

V1.0 — Premier pipeline GINEConv (septembre 2025)

Objectif : établir une baseline GNN sur les 12 endpoints Tox21 avec un GINEConv 9 dimensions entraîné de zéro. AUC annoncée : 0,857 sur split aléatoire.

Point bloquant — bug OGB silencieux. L’encodeur GINEConv opérait en réalité en mode 9D (features atomiques de base) au lieu des 163D OGB (features atomiques et de liaison enrichies). Le modèle passait à travers le pipeline sans lever d’erreur de dimension, mais ignorait la majorité de l’information chimique disponible.

Découverte : lors de l’audit V1.3, la comparaison des checkpoints a révélé que les poids correspondaient à un encodeur 9D. L’AUC 0,857 était non reproductible sur scaffold split — l’AUC réelle sur protocole strict était 0,594 ± 0,056.

Contournement : migration vers GINEConv OGB 163D, réentraînement complet, figeage d’un holdout SHA256 pour toutes les évaluations futures.

V1.1 → V1.3 — Correction du bug OGB et calibration isotonique (octobre–novembre 2025)

Objectif : repartir d’une base propre avec l’encodeur correct, introduire la calibration probabiliste et définir un domaine applicatif.

Point bloquant — fuite de données dans le val set. La construction naïve des folds de validation cross-val permettait à des composés structurellement proches (Tanimoto > 0,6) d’apparaître simultanément en entraînement et en validation. Le modèle apprenait partiellement à reconnaître ses exemples de validation, produisant une AUC de validation artificialmente favorable.

Contournement : introduction du scaffold split Bemis-Murcko strict avec vérification InChIKey train ∩ val = ∅ à chaque fold. AUC Ames corrigée : 0,864 ± 0,056. Introduction de la calibration isotonique OOF et de l’AD k-NN (seuil p95 = 0,332 sur 163 features OGB).

Point bloquant secondaire — circularité Ames. Les labels Ames de la V1.0 étaient dérivés par règles SMARTS depuis les structures, non depuis des résultats expérimentaux. Le modèle apprenait des règles chimiques, pas la mutagénicité réelle. AUC Ames circulaire : non interprétable.

Contournement : remplacement intégral du corpus Ames par le dataset Hansen (labels expérimentaux validés), retrait de tous les labels SMARTS.

V2.0 — Architecture ensemble multi-représentation (décembre 2025 – janvier 2026)

Objectif : dépasser le plafond GINEConv seul en combinant plusieurs représentations moléculaires.

Architecture : GINEConv (topologique, 163D OGB) + AttentiveFP (attentionnel, poids d’arêtes adaptatifs) + Morgan ECFP6 (fingerprints sous-structuraux, 2048 bits). Fusion par concaténation + tête de classification par endpoint.

Point bloquant — déséquilibre de classes hERG. Le corpus hERG initial présentait un ratio 65/35 (bloqueurs/non-bloqueurs). La tête de classification convergait vers la classe majoritaire, produisant un recall quasi-nul sur les non-bloqueurs. ECE > 0,15 sur hERG.

Contournement : pondération de classe inverse par endpoint, ajustement du seuil de binarisation, introduction d’un loss focal sur les endpoints déséquilibrés. AUC hERG : 0,785 en V2.3.

Point bloquant — domaine applicatif dégénéré. L’AD V1.3 basé sur k-NN dans l’espace features brutes produisait des zones de couverture incohérentes entre endpoints — certains endpoints déclaraient 98 % des molécules soumises « dans le domaine » indépendamment de leur structure. L’AD n’était pas discriminant.

Contournement (V2.3) : AD composite tri-signal — similarité structurale (Tanimoto sur ECFP4), proximité dans l’espace latent (distance cosinus post-encodage), densité régionale (estimation par noyau dans l’espace réduit PCA). Chaque signal contribue à un score composite calibré.

V2.1 → V2.2 — Sélection par endpoint et router binaire (février–mars 2026)

Objectif : identifier, pour chaque endpoint, la configuration d’ensemble optimale plutôt qu’une configuration unique pour tous.

Mécanisme : router binaire sélectionnant, par endpoint, entre V2.0a (GINEConv multi-tâche fine-tuné) et V2.2 (ensemble complet). Sélection basée sur AUC médiane par fold.

Point bloquant — instabilité de sélection inter-folds. Pour certains endpoints (SR-ARE, NR-Aromatase), le router sélectionnait des modèles différents selon le fold. La sélection n’était pas stable sur la variance d’échantillonnage du scaffold split.

Contournement : sélection sur AUC médiane des 5 folds (non le meilleur fold individuel), avec minimum de 3 folds concordants pour validation de la sélection. Tox21 mean AUC V2.3 : 0,867.

V2.3 — Consolidation et audit complet (mars–avril 2026)

Objectif : produire la première version dont toutes les métriques sont auditées, reproductibles et comparables à la littérature sur protocole identique.

Bilan V2.3 : 12/14 cibles atteintes. Points manquants : Ames (0,843 vs cible 0,87, gap −0,027) et hERG (0,785 vs cible 0,83, gap −0,045). Audit holdout gelé : SHA256 = 052a2aa2c4cff3d8… — métriques holdout conformes aux métriques CV.

Question posée pour V2.4 : les deux endpoints manquants sont-ils un problème d’architecture ou un problème de données ?

V2.4 — Tri-routeur et enrichissement de corpus (avril 2026)

Réponse à la question V2.3 : les données. Mais pas n’importe quelles données.

Premier échec documenté — AID 1259411 PubChem. L’assay PubChem AID 1259411, étiqueté « Ames » dans plusieurs méta-analyses, est en réalité un assay de carcinogénicité in vivo multi-espèces (labels par souche animale, non par souche bactérienne). L’intégration naïve de ces 547 composés dans le fine-tuning multi-tâche a produit une régression sur tous les endpoints, y compris Ames : de 0,769 à 0,698 sur V2.0a. Le volume supplémentaire a injecté du bruit, pas du signal.

Contournement — corpus ISS pour Ames. Le dataset de l’Istituto Superiore di Sanità (ISS, Mendeley Data) fournit des labels par souche bactérienne (TA98, TA100, TA102, TA1535, TA1537) harmonisés selon la convention ICH S2R1 (positif si au moins une souche positive). Après sanitization et déduplication InChIKey contre le corpus Hansen, 1 511 composés nouveaux intégrés, ratio 1.1:1.

Corpus hERG — ChEMBL v34. CHEMBL240 (KCNH2) : 22 273 activités IC50/Ki. Après filtrage nM, binarisation au seuil 10 µM et déduplication, 6 485 composés nouveaux. Rééquilibrage 65/35 → 48.5/51.5 — amélioration directe de la calibration.

Hypothèse features 3D testée et invalidée. Descripteurs NPR, USR, USRCAT (79 dimensions) ajoutés pour hERG : gain AUC +0,014 seulement. Les fingerprints topologiques capturent déjà l’essentiel ; le plafond est un plafond de couverture chimique.

Découverte structurelle — tri-routeur. Les données Ames ISS et les données hERG ChEMBL ne bénéficient pas au même modèle d’ensemble. Un tri-routeur remplace le router binaire : V2.4b (ensemble Ames-optimisé, 10 endpoints), V2.4d (ensemble hERG-optimisé, 4 endpoints). L’encodeur V2.0a reste en fallback mais n’est sélectionné par aucun endpoint dans le routing optimal.

Résultats V2.4 :

Métrique	V2.3	V2.4	Delta
Tox21 mean AUC	0.867	0.898	+0.031
Ames AUC	0.843	0.853	+0.010
hERG AUC	0.785	0.800	+0.015
Cibles atteintes	12/14	12/14	=

Les deux endpoints manquants (Ames gap −0,017, hERG gap −0,030) ont réduit leurs écarts de 37 % et 33 % respectivement. Protocole inchangé : 5-fold scaffold CV strict Bemis-Murcko, InChIKey train ∩ val = ∅, holdout gelé non utilisé pour la sélection.

Architecture V2.4

Le tri-routeur sélectionne, pour chaque endpoint, le modèle optimal parmi trois : V2.0a (GINEConv multi-tâche), V2.4b (ensemble Ames-optimisé, actif sur 10 endpoints), V2.4d (ensemble hERG-optimisé, actif sur 4 endpoints). Chaque ensemble combine GINEConv + AttentiveFP + Morgan ECFP6 avec des têtes de classification par endpoint. La table de routage, les pondérations de fusion et les seuils AD constituent une propriété intellectuelle Twingital Institute. L’API REST V2.4 est rétrocompatible V2.3 — le champ routing expose désormais V2.4b ou V2.4d par réponse.

Pipeline Medallion — État V2.4

Le pipeline ingère PubChem (~100K composés), ChEMBL v34 (~100K + 22 273 activités hERG), Tox21 (7 831 composés), ISS Ames (1 511 nouveaux composés) et l’enrichissement NER par LLM local. La couche Silver produit ~152 000 composés dédupliqués après sanitization RDKit et contrôle InChIKey. La couche Gold construit les datasets d’entraînement avec scaffold split Bemis-Murcko strict, vérification tri-ensembliste train ∩ val ∩ test = ∅ et ratio positifs/négatifs contrôlé par endpoint.

Trois leçons méthodologiques de V2.4

Un modèle unique est un compromis, pas un optimum. La spécialisation par endpoint — données spécifiques, tête spécifique, sélection par routeur — surpasse systématiquement l’encodeur partagé. Le tri-routeur ne choisit pas le « meilleur modèle » mais le meilleur modèle pour cette tâche.

Les données battent l’architecture, mais pas n’importe quelles données. L’injection de données mal étiquetées dégrade les performances même si le volume augmente. La curation — vérification de la source primaire réglementaire, harmonisation des labels, contrôle du ratio — est le travail qui produit le gain.

Les features supplémentaires ne compensent pas les données manquantes. Les descripteurs 3D, malgré leur justification pharmacologique, n’apportent qu’un gain marginal quand le modèle topologique est déjà correctement entraîné.

Conformité réglementaire

ToxTwin n’est pas un dispositif médical. Le scoring toxicologique pré-clinique est hors catégorie « haut risque » (EU AI Act, Annexe III). Le pipeline est conçu par anticipation selon les exigences « haut risque » : audit trail Delta Lake, versionnement MLflow, incertitude et domaine applicatif exposés dans chaque réponse API.

Plan V3.0

Le holdout gelé reste disponible pour une validation finale pré-déploiement. L’extension prévue en V3.0 couvre : les métaux de transition (cisplatine, carboplatine, oxaliplatine — featurisation spécialisée états d’oxydation Pt/Ru/Au, géométrie de coordination), les endpoints DILI, ClinTox et Carcinogens, et la validation externe sur corpus ECHA ou partenaire industriel.

Note technique V2.4 — Le tri-routeur

Enrichissement des corpus Ames et hERG, architecture tri-modèle sélective, et les leçons méthodologiques d'un cycle d'amélioration contrôlé.

↓ Télécharger la note technique V2.4 (PDF)

Série ToxTwin — Publications associées

Note technique · Avril 2026

ToxTwin V2.4 — Le tri-routeur

Enrichissement des corpus Ames ISS (1 511 composés, labels ICH S2R1 par souche) et hERG ChEMBL v34 (6 485 composés, rééquilibrage 48.5/51.5), architecture tri-modèle sélective. Tox21 mean AUC 0.898 (+0.031), Ames 0.853, hERG 0.800.

Lire l'article → ↓ PDF

Synthèse technique · 8 pages

ToxTwin V2.3 — Synthèse technique consolidée

Architecture, trajectoire V1→V2.3, performances, domaine applicatif et plan qualité. Première version avec métriques auditées sur protocole scaffold CV strict.

Lire l'article → ↓ PDF

Guide · 9 pages

Guide utilisateur ToxTwin V2.3

Soumettre un SMILES, interpréter les scores de probabilité calibrée, comprendre le domaine applicatif, lire l’interprétation pharmacologique.

Lire l'article → ↓ PDF

Rapport de validation · V1.3

Rapport toxicologique prédictif — Doxorubicine

Premier rapport de validation publié du pipeline ToxTwin. Triplet SR-ARE / SR-MMP / Ames — signature mécanistique des anthracyclines.

Lire l'article → ↓ PDF

Démonstration interactive

Tester ToxTwin sur vos molécules

Analysez vos propres SMILES via ToxTwin V2.4 — 14 endpoints toxicologiques, calibration certifiée, domaine applicatif composite, tri-routeur par endpoint. 3 analyses gratuites, accès étendu sur inscription.

Accéder à la démonstration →