Architecture, trajectoire V1→V2.3, performances, domaine applicatif et plan qualité
ToxTwin V2.3 est une plateforme de scoring toxicologique prédictif pré-Phase 1, fondée sur un pipeline GNN end-to-end. Elle couvre 14 endpoints toxicologiques — 12 assays Tox21, la mutagénicité Ames et l’inhibition du canal hERG — avec une couche d’interprétation pharmacologique par LLM local. L’ensemble s’exécute sur une infrastructure souveraine sans dépendance cloud. La version V2.3 est la première dont les métriques sont validées sur un protocole 5-fold scaffold CV strict.
Le développement a traversé six versions majeures. La V1.0 annonçait une AUC de 0,857 qui s’est révélée non reproductible. L’audit complet en V1.3 a identifié quatre biais fondamentaux : une incompatibilité silencieuse d’architecture masquant des poids aléatoires, une fuite de données par contamination du val set, une circularité sur les labels Ames SMARTS, et un domaine applicatif calculé dans un espace dégénéré. L’AUC réelle corrigée était 0,594 ± 0,056.
Les phases correctives ont remonté la performance à 0,867 : remplacement du corpus de pré-entraînement par un corpus drug-like de référence (Phase 1), fusion de représentations moléculaires complémentaires (Phase 2), et mécanisme de sélection par endpoint (Phase 3). La logique de fusion, de routage et les tables d’affectation constituent une propriété intellectuelle Twingital Institute.
L’architecture V2.3 combine plusieurs représentations moléculaires — topologique, attentionnelle et sous-structurale — via un mécanisme de fusion et de sélection par endpoint. Les spécifications détaillées des composants, dimensionnalités et nombre de paramètres constituent une propriété intellectuelle Twingital Institute.
Le pipeline d’inférence procède par résolution SMILES, featurisation moléculaire, encodage et fusion (propriété intellectuelle), calibration probabiliste et évaluation du domaine applicatif.
Le pipeline Medallion en trois couches (Bronze, Silver, Gold) intègre des données issues de PubChem (~100 000 composés), ChEMBL v34 (~100K composés + activités), Tox21 (7 831 composés) et un enrichissement NER par LLM local (~7 300 profils traités). La curation multi-phases produit environ 145 000 composés dédupliqués. Le dataset d’entraînement utilise un scaffold split Bemis-Murcko strict avec vérification InChIKey.
Le score AD composite est calculé à partir de composantes indépendantes évaluant la similarité structurale, la proximité dans l’espace latent et la densité régionale. Les composantes, pondérations et seuils de décision constituent une propriété intellectuelle Twingital Institute. Un score hors domaine ne signifie pas toxicité — il signifie insuffisance de données pour une prédiction fiable.
Chaque endpoint dispose d’un calibrateur entraîné sur les prédictions out-of-fold du protocole 5-fold CV. L’ECE post-calibration est inférieure à 0,05 sur tous les endpoints.
Un LLM local transforme les scores bruts en rapports toxicologiques pharmacologiquement fondés. Les mécanismes anti-hallucination, l’architecture du prompt et la structure de la base de connaissances constituent une propriété intellectuelle Twingital Institute. Le système produit un dual output : rapport structuré lisible et données structurées machine.
Les 12 endpoints Tox21 atteignent une AUC moyenne de 0,867 ± 0,043. Les 12 cibles sont atteintes sur les endpoints Tox21 ; Ames (0,843, cible 0,87) et hERG (0,785, cible 0,83) restent en retrait. ToxTwin dépasse AttentiveFP sur SR-MMP (+0,061) et atteint GROVER sur NR-Aromatase (+0,005). Il reste en retrait par rapport à DeepAmes (−0,046) et CardioTox (−0,087).
ToxTwin V2.3 est limité aux molécules de moins de 500 atomes lourds, aux atomes C H N O S P F Cl Br I (métaux de transition non supportés, prévu V3.0), et n’est pas recommandé pour les peptides de plus de 5 acides aminés.
ToxTwin n’est pas un dispositif médical. Le scoring toxicologique pré-clinique est hors catégorie “haut risque” (EU AI Act, Annexe III). Le pipeline est conçu par anticipation selon les exigences “haut risque” : audit trail, versionnement modèles, incertitude et domaine applicatif exposés dans chaque réponse API.
La validation interne (5-fold scaffold CV strict, calibration ECE, routing consistant) est réalisée. Les tests de robustesse (reproductibilité, invariance SMILES, sensibilité SAR, couverture AD) et la validation externe (holdout gelé, validation prospective, benchmarks DeepAmes et CardioTox) restent à conduire. L’enrichissement des corpus Ames et hERG est prioritaire.