Workflow SMILES → Scoring → Interprétation sur un candidat hors domaine applicatif
Série ToxTwin — Article 2/3. Voir aussi : Pipeline ToxGNN-V1 · API Tests & Guide
Ce document illustre le workflow complet d’utilisation de la plateforme ToxTwin pour l’analyse toxicologique prédictive d’un candidat médicament à partir de sa représentation SMILES. Il sert de modèle pour les analyses de routine et démontre le comportement du système face à un composé structurellement inédit.
Le SMILES (Simplified Molecular Input Line Entry System) est la représentation textuelle standardisée de la structure chimique. Avant soumission à ToxTwin, la validité est vérifiée via RDKit (MolFromSmiles() → canonicalisation → 2D/3D). Des outils complémentaires sont disponibles : ChemDraw (PerkinElmer), MarvinSketch (ChemAxon), PubChem Sketcher, JSME/Ketcher pour les applications web.
Trois modes d’accès : requête POST curl, interface Swagger UI (http://localhost:8000/docs), ou intégration Python programmatique. Le candidat RPT-2026-001 est soumis avec un SMILES contenant un motif [F+] (fluor cationique) — agent alkylant potentiel, rare dans les médicaments approuvés.
Le composé n’est pas référencé dans PubChem, ChEMBL ou Tox21. Aucune donnée expérimentale dans la base Silver : pas de LD50, pas de profil organique, pas de test Ames disponible. C’est précisément le cas d’usage principal de ToxTwin : scorer avant tout test expérimental.
Caractéristiques structurales notables : [F+] (agent alkylant potentiel, signal SR-p53 attendu), cycle pipéridine (métabolisme oxydatif, formation de N-oxyde), cycle pyridine (possible inhibiteur CYP450), groupe hydroxyle (conjugaison glucuronide), amine (risque d’interaction hERG si lipophile). Temps d’inférence : 582,8 ms en résolution directe SMILES.
Similarité Tanimoto maximale : 0,153 (seuil : 0,30). Composé hors domaine applicatif. La molécule la plus proche dans le training set ne partage que ~15 % des sous-structures circulaires (Morgan FP, rayon 2). Causes : [F+] sous-représenté dans Tox21/ChEMBL, combinaison pharmacophorique inhabituelle (pipéridine + pyridine + F+), absence dans les bases publiques.
L’incertitude MC Dropout (20 passes stochastiques) montre des incertitudes élevées (> 5 %) sur les endpoints les plus actifs : SR-p53 (± 6,2 %), SR-ARE (± 6,0 %), NR-AR (± 7,1 %) — comportement attendu et cohérent pour un composé hors domaine.
Les deux signaux prioritaires sont SR-p53 à 32,6 % (génotoxicité — le récepteur p53 est le gardien du génome, son activation indique un stress génotoxique, cohérent avec le [F+] électrophile) et SR-ARE à 25,5 % (stress oxydatif — activation de la voie Nrf2/KEAP1, cohérente avec la présence de [F+]). Les signaux secondaires (NR-AhR 15,4 %, SR-HSE 13,1 %, NR-AR 13,0 %) restent en zone faible. Les 7 endpoints restants présentent des scores < 10 % avec incertitudes faibles.
Priorité 1 : Test Ames (OCDE 471) pour la mutagénicité bactérienne, Test Comet (OCDE 489) pour les cassures ADN, Test ROS/GSH pour le stress oxydatif. Priorité 2 : Micronoyaux in vitro (aberrations chromosomiques), LD50 rat (OCDE 420). Priorité 3 : Inhibition hERG par patch-clamp (cardiotoxicité potentielle liée à l’amine + cycle azoté), Panel CYP450 (interactions métaboliques).
Profil de risque MODÉRÉ sur deux voies génotoxiques (SR-p53 32,6 %, SR-ARE 25,5 %), cohérentes avec le groupement [F+]. Composé hors domaine applicatif (Tanimoto 0,153) — les prédictions sont des extrapolations. La progression vers les études réglementaires nécessite impérativement la validation expérimentale des signaux génotoxiques (Ames + Comet) avant toute décision de développement. Ce rapport constitue une aide à la décision et ne se substitue pas au jugement d’un toxicologue qualifié ni aux études réglementaires obligatoires (ICH S2, S7A, S7B).