ToxTwin V2.3 — Guide utilisateur · Twingital Institute

Qu’est-ce que ToxTwin ?

ToxTwin est un modèle de prédiction toxicologique qui analyse la structure chimique d’une molécule pour estimer sa probabilité d’activité sur 14 endpoints biologiques réglementaires. Il utilise un réseau de neurones sur graphes (GNN) entraîné sur des données de screening à haut débit issues des bases ChEMBL et Tox21. ToxTwin estime le risque toxicologique préliminaire à partir de la structure seule, signale si la molécule est dans le domaine de validité du modèle, et génère une interprétation pharmacologique synthétique. Il ne remplace pas les tests biologiques réglementaires (ICH S2, S7B), ne prédit pas la toxicité in vivo, et ne fournit pas de décision réglementaire opposable.

Soumettre une molécule

ToxTwin accepte les molécules en notation SMILES — la représentation textuelle standard de la structure chimique. Le SMILES canonique est recommandé (ToxTwin applique une canonicalisation RDKit en amont). Les sources de SMILES incluent PubChem, ChEMBL, ChemDraw/MarvinSketch et RDKit. L’interface de démonstration est accessible sur twingital-ventures.com avec un quota freemium de 3 analyses gratuites. Les SMILES invalides, les molécules de plus de 500 atomes lourds et les mélanges (caractère .) font l’objet de traitements spécifiques documentés dans le guide.

Les 14 endpoints

Les 7 endpoints récepteurs nucléaires (NR-AR, NR-AR-LBD, NR-AhR, NR-Aromatase, NR-ER, NR-ER-LBD, NR-PPAR-γ) évaluent les perturbations endocriniennes. Les 5 endpoints réponse au stress cellulaire (SR-ARE, SR-ATAD5, SR-HSE, SR-MMP, SR-p53) signalent la toxicité génomique, mitochondriale ou protéique. Les 2 endpoints pharmacotoxicologiques — hERG (canal potassique, ICH S7B) et Ames (mutagénicité Salmonella, ICH S2R1) — ont des performances V2.3 en dessous de la cible réglementaire et sont indicatifs uniquement.

Lire et interpréter les résultats

Chaque endpoint retourne un score entre 0 et 1 représentant la probabilité calibrée d’activité. Les seuils d’interprétation sont : faible (<0,25), modéré (0,25–0,50), élevé (0,50–0,75), critique (>0,75). Un profil complet se lit à trois niveaux : signaux dominants (>0,25), cohérence structurale avec les groupements fonctionnels, et contexte du domaine applicatif. L’exemple de l’aspirine (profil faible sur 14/14 endpoints, Tanimoto 0,857, dans le domaine) illustre la lecture type.

Le domaine applicatif

Le domaine applicatif indique si la molécule est structuralement similaire au corpus d’entraînement. ToxTwin utilise un score composite basé sur trois signaux complémentaires. Les causes fréquentes de sortie de domaine incluent les nouveaux scaffolds, les groupements fonctionnels inhabituels, les peptides, les polymères et les composés organométalliques. Un score hors domaine ne signifie pas toxicité — il signifie insuffisance de données pour une prédiction fiable.

L’interprétation pharmacologique

L’interprétation textuelle générée par LLM local fournit une synthèse narrative des signaux, une mise en relation avec les groupements fonctionnels, une évaluation du niveau de risque et un contexte réglementaire. Elle ne constitue ni un avis réglementaire, ni une prédiction in vivo, ni un remplacement du jugement d’un toxicologue qualifié. C’est un point de départ pour la réflexion.

Limites et cas d’usage

ToxTwin est approprié pour le triage précoce, les hypothèses mécanistiques, la priorisation expérimentale et la veille comparative. Il n’est pas approprié comme substitut aux tests réglementaires, comme composant d’un dossier d’AMM sans confirmation expérimentale, ou pour des classes hors domaine. Les endpoints non couverts en V2.3 (DILI, ClinTox, cardiotoxicité étendue, phototoxicité, DART, complexes métalliques) sont prévus en V3.0.

Questions fréquentes

Le guide répond aux questions les plus courantes : diagnostic des SMILES invalides, interprétation d’un score hERG élevé (signal d’alerte justifiant un patch-clamp, pas une décision d’arrêt), utilisation des scores hors domaine (indicatifs, un signal fort mérite investigation), reproductibilité déterministe des prédictions, prise en compte de la stéréochimie, accès API professionnel, et politique de non-conservation des SMILES soumis.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

14 endpoints toxicologiques détaillés : 7 récepteurs nucléaires, 5 réponses au stress cellulaire, hERG (ICH S7B) et Ames (ICH S2R1).
Scores de probabilité calibrée [0–1] avec 4 niveaux de risque : faible (<0,25), modéré (0,25–0,50), élevé (0,50–0,75), critique (>0,75).
Domaine applicatif composite tri-signal : similarité Tanimoto, distance k-NN latente, densité KDE — seuil is_in_domain calibré.
Interprétation pharmacologique par LLM local : synthèse narrative, corrélation groupements fonctionnels, verdict, contexte réglementaire.
Cas d'usage appropriés : triage précoce, hypothèses mécanistiques, priorisation expérimentale, veille comparative entre analogues.
Limitations explicites : ne remplace pas ICH S2/S7B, hors périmètre pour biologiques, peptides >50 AA, composés organométalliques.