PHUSE 2024 — Paper CM05 — Co-écrit avec Mark Lambrecht (SAS)
Article de conférence co-écrit avec Mark Lambrecht (SAS), présenté à PHUSE 2024 (Paper CM05). Revue approfondie des architectures d’IA générative et de leurs applications sur l’ensemble de la chaîne de valeur des sciences de la vie, de la découverte de médicaments à l’automatisation des données cliniques. 16 pages.
Présentation de trois architectures génératrices : Generative Adversarial Networks (tandem générateur-discriminateur), Variational Autoencoders (encodage probabiliste dans un espace latent), et Transformers (mécanisme d’auto-attention, matrices Query/Key/Value). Forces, limites et domaines d’application de chaque architecture comparés à travers les cas d’usage en sciences de la vie.
Digitalisation des structures moléculaires via SMILES comme pont entre chimie et computation. Conception moléculaire par IA (GANs, VAEs) versus chimie combinatoire et criblage haut débit. Criblage virtuel par mécanismes d’attention des transformers. Évaluation computationnelle (in silico) comme prérequis aux tests in vitro/in vivo. Criblage de biologiques pour le développement d’anticorps monoclonaux.
Génération de séquences génomiques synthétiques par GANs et VAEs. Modélisation par transformers des fonctions géniques, facteurs épigénétiques (méthylation de l’ADN, modification des histones) et relations entre ARN non codants. Prédiction de structure protéique par AlphaFold et RoseTTAFold. Évaluation accélérée des forces de liaison par HPC : docking moléculaire, simulations de dynamique moléculaire, calculs d’énergie libre, simulations QM/MM et Microsoft Quantum Elements.
Pharmacogénomique pour des thérapies ciblées selon les profils génomiques et cliniques individuels. Analytique prédictive par techniques de séries temporelles et NLP sur données longitudinales de santé. Intégration multi-omique du génome au métabolome. Modèle de collaboration homme-IA où l’expertise clinique contextualise les résultats computationnels à l’échelle populationnelle.
Fonctionnalité copilote SAS pour la génération automatisée de code statistique, le nettoyage de données, l’analyse standardisée (CDISC) et le reporting automatisé. Génération et augmentation de données synthétiques pour pallier la rareté des données. Modélisation prédictive pour le diagnostic, la prévision de progression et la personnalisation thérapeutique. Défis : qualité/standardisation des données, sécurité/vie privée, interopérabilité (HL7/HIE) et interprétabilité des modèles.
Intégration eCOA pour des critères de jugement rapportés par les patients standardisés. Capture et suivi en temps réel. Engagement patient renforcé par rappels automatisés. Inclusion et diversité par élimination des contraintes géographiques. Protocoles adaptatifs ajustés dynamiquement par IA générative. Rôle de plateformes comme SAS Viya pour l’analytique temps réel.
Évolution de « l’IA éthique » vers « l’IA de confiance » par documentation, transparence et redevabilité. Conformité réglementaire, atténuation des biais, techniques d’explicabilité pour les LLMs (visualisation d’attention, cartes de saillance, fine-tuning domaine, post-traitement par règles). Supervision humaine comme principe non négociable — l’IA augmente mais ne remplace jamais l’expertise clinique.
Modèles génératifs multimodaux, Retrieval Augmented Generation (RAG) pour l’intégration de connaissances domaine, calcul quantique pour la simulation moléculaire, Edge AI pour l’analytique temps réel au chevet du patient. Coopération internationale nécessaire pour les cadres éthiques et réglementaires en évolution.