ToxTwin V2.3 — Synthèse technique consolidée

Vue d’ensemble

ToxTwin V2.3 est une plateforme de scoring toxicologique prédictif pré-Phase 1, fondée sur un pipeline GNN end-to-end. Elle couvre 14 endpoints toxicologiques — 12 assays Tox21, la mutagénicité Ames et l’inhibition du canal hERG — avec une couche d’interprétation pharmacologique par LLM local. L’ensemble s’exécute sur une infrastructure souveraine sans dépendance cloud. La version V2.3 est la première dont les métriques sont validées sur un protocole 5-fold scaffold CV strict.

Trajectoire V1.0 → V2.3

Le développement a traversé six versions majeures. La V1.0 annonçait une AUC de 0,857 qui s’est révélée non reproductible. L’audit complet en V1.3 a identifié quatre biais fondamentaux : une incompatibilité silencieuse d’architecture masquant des poids aléatoires, une fuite de données par contamination du val set, une circularité sur les labels Ames SMARTS, et un domaine applicatif calculé dans un espace dégénéré. L’AUC réelle corrigée était 0,594 ± 0,056.

Les phases correctives ont remonté la performance à 0,867 : remplacement du corpus de pré-entraînement par un corpus drug-like de référence (Phase 1), fusion de représentations moléculaires complémentaires (Phase 2), et mécanisme de sélection par endpoint (Phase 3). La logique de fusion, de routage et les tables d’affectation constituent une propriété intellectuelle Twingital Institute.

Architecture

L’architecture V2.3 combine plusieurs représentations moléculaires — topologique, attentionnelle et sous-structurale — via un mécanisme de fusion et de sélection par endpoint. Les spécifications détaillées des composants, dimensionnalités et nombre de paramètres constituent une propriété intellectuelle Twingital Institute.

Le pipeline d’inférence procède par résolution SMILES, featurisation moléculaire, encodage et fusion (propriété intellectuelle), calibration probabiliste et évaluation du domaine applicatif.

Pipeline de données Medallion

Le pipeline Medallion en trois couches (Bronze, Silver, Gold) intègre des données issues de PubChem (~100 000 composés), ChEMBL v34 (~100K composés + activités), Tox21 (7 831 composés) et un enrichissement NER par LLM local (~7 300 profils traités). La curation multi-phases produit environ 145 000 composés dédupliqués. Le dataset d’entraînement utilise un scaffold split Bemis-Murcko strict avec vérification InChIKey.

Domaine applicatif

Le score AD composite est calculé à partir de composantes indépendantes évaluant la similarité structurale, la proximité dans l’espace latent et la densité régionale. Les composantes, pondérations et seuils de décision constituent une propriété intellectuelle Twingital Institute. Un score hors domaine ne signifie pas toxicité — il signifie insuffisance de données pour une prédiction fiable.

Calibration probabiliste

Chaque endpoint dispose d’un calibrateur entraîné sur les prédictions out-of-fold du protocole 5-fold CV. L’ECE post-calibration est inférieure à 0,05 sur tous les endpoints.

Interprétation LLM

Un LLM local transforme les scores bruts en rapports toxicologiques pharmacologiquement fondés. Les mécanismes anti-hallucination, l’architecture du prompt et la structure de la base de connaissances constituent une propriété intellectuelle Twingital Institute. Le système produit un dual output : rapport structuré lisible et données structurées machine.

Performances V2.3

Les 12 endpoints Tox21 atteignent une AUC moyenne de 0,867 ± 0,043. Les 12 cibles sont atteintes sur les endpoints Tox21 ; Ames (0,843, cible 0,87) et hERG (0,785, cible 0,83) restent en retrait. ToxTwin dépasse AttentiveFP sur SR-MMP (+0,061) et atteint GROVER sur NR-Aromatase (+0,005). Il reste en retrait par rapport à DeepAmes (−0,046) et CardioTox (−0,087).

Limites techniques

ToxTwin V2.3 est limité aux molécules de moins de 500 atomes lourds, aux atomes C H N O S P F Cl Br I (métaux de transition non supportés, prévu V3.0), et n’est pas recommandé pour les peptides de plus de 5 acides aminés.

Sécurité et conformité

ToxTwin n’est pas un dispositif médical. Le scoring toxicologique pré-clinique est hors catégorie “haut risque” (EU AI Act, Annexe III). Le pipeline est conçu par anticipation selon les exigences “haut risque” : audit trail, versionnement modèles, incertitude et domaine applicatif exposés dans chaque réponse API.

Plan V2.4

La validation interne (5-fold scaffold CV strict, calibration ECE, routing consistant) est réalisée. Les tests de robustesse (reproductibilité, invariance SMILES, sensibilité SAR, couverture AD) et la validation externe (holdout gelé, validation prospective, benchmarks DeepAmes et CardioTox) restent à conduire. L’enrichissement des corpus Ames et hERG est prioritaire.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

Mean AUC Tox21 0.867 ± 0.043 sur 5-fold scaffold CV strict — 12/14 cibles atteintes.
4 biais majeurs découverts et corrigés entre V1.0 et V2.3 : bug OGB, fuite de données, circularité Ames, AD dégénérée.
Architecture ensemble multi-représentation avec sélection par endpoint (propriété intellectuelle Twingital Institute).
Calibration probabiliste par régression isotonique OOF — ECE < 0.05 sur 14/14 endpoints.
Domaine applicatif composite tri-signal : similarité structurale, proximité latente, densité régionale.
Pipeline Medallion Bronze/Silver/Gold — 145 000 composés curés depuis PubChem, ChEMBL et Tox21.