Impact de l'Intelligence Artificielle (IA) sur les bio-industries

L’Équipe R&D de Qualees (Salma Barkaoui – Head of Data Sciences, Ivan Ignatiev – CTO, Jérôme Vetillard – VP R&D) a été invitée par l’École de Biologie Industrielle (EBI) pour participer à une table ronde sur les impacts de l’IA sur les bio-industries lors du Research Day du 24 janvier 2025.

Contexte et intervenants

Deux thèmes abordés : l’IA comme accélérateur de la recherche, et l’IA et l’optimisation des processus industriels/logistiques. Intervenants : Sophie Hamelin (L’Oréal, transformation digitale et « chercheur augmenté »), Stéphane Menio (Safran Landing Systems, directeur R&D), Lionel Pelletier (Aktehom, intégrité des données et intelligence réglementaire), Fabrice Ruiz (Clinsearch, administrateur EBI, animateur). Le second thème n’a pu être abordé du fait de la richesse des échanges sur le premier.

L’importance cruciale des données

L’adage « Garbage in, Garbage out » reste plus que jamais valable à l’ère de l’IA. Dans les secteurs fortement réglementés comme la santé, la certification des algorithmes et la conformité (RGPD, IA Act) sont des enjeux majeurs. Le processus d’entraînement des modèles est souvent opaque — secret industriel, ombres sur la provenance, régulation européenne stricte vs. dérégulation américaine. L’évaluation de la qualité dépend fortement du domaine d’application. De la même manière qu’un industriel contrôle la qualité de sa matière première, il est impératif d’évaluer et de corriger la qualité des données avant tout entraînement — essentiel pour industrialiser la production d’IA, notamment dans la conception de jumeaux numériques (TweenMe by Qualees).

Spécificités du domaine médical : les données HDLSS

Les données médicales sont souvent High Dimensionality, Low Sample Size : beaucoup de variables (génétique, imagerie, biomarqueurs, dossiers cliniques) mais peu de lignes (quelques milliers de patients). Contrairement aux LLM qui s’appuient sur des volumes textuels massifs et unidimensionnels, les données médicales sont multimodales et nécessitent une expertise clinique pour être prétraitées et standardisées. Tokenisation spécialisée, normalisation des abréviations, anonymisation des PHI, imputation multivariée (kNN, MICE), réduction de dimensionnalité (PCA, t-SNE) : autant de transformations nécessaires avant tout entraînement.

Impact écologique et concentration des ressources

L’entraînement des LLM a un coût énergétique considérable : GPT-3 ~1 300 MWh, GPT-4 ~3 000 MWh, BLOOM ~433 MWh. La puissance nécessaire est multipliée par 4 à 5 chaque année (Epoch AI). La concentration des GPU chez les GAFAM (1,8 million chez Microsoft vs. 300 à Stanford) pose un problème de démocratisation de l’accès à l’IA. Approche Qualees : choix d’IAs compactes et spécialisées, cluster Kubernetes consommant ~500 kWh/an en fonctionnement continu.

Cybersécurité et IA dans le domaine de la santé

Au-delà des mesures classiques (authentification forte, architecture zero trust, xDR, SIEM, SOC), l’IA introduit de nouveaux risques : prompt injection malveillant forçant un LLM à divulguer des informations sensibles, violation de la confidentialité différentielle permettant d’extraire des données du jeu d’entraînement, data poisoning faussant le modèle avec des conséquences graves en diagnostic, et stratégies de piratage via IA (deep fakes temps réel, phishing automatisé).

Exemples d’IA en R&D : limites et réalités

AlphaFold v3 : prédiction de la conformation tertiaire et quaternaire des protéines et calcul des forces de liaison ligand/récepteur, mais ignorance des conditions physico-chimiques réelles (pH, phase aqueuse, T°), cruciales pour la purification ou la formulation. Génération de séquences : une simple macro Excel peut générer des séquences aléatoires — la valeur ajoutée vient de la prédiction fonctionnelle et de la faisabilité expérimentale. Retour d’expérience étudiant EBI : comparaison wet lab vs. in silico, les étudiants ont retenu un autre outil qu’AlphaFold, jugé trop éloigné des résultats expérimentaux.

Conclusion

L’IA doit être vue comme un accélérateur et un outil d’aide, non un substitut à l’expertise humaine. Son déploiement demande rigueur méthodologique, attention portée à la qualité et respect des contraintes industrielles, médicales et réglementaires. Recommandations : renforcer la traçabilité et l’audit des données, établir des standards communs d’interopérabilité, former les équipes aux fondamentaux data science et cybersécurité, confronter systématiquement la théorie à la pratique par des validations in vivo/in vitro.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

« Garbage in, Garbage out » reste plus que jamais valable — la qualité des données d'entraînement et leur audit sont souvent passés sous silence.
Données médicales HDLSS : beaucoup de variables (génétique, imagerie, biomarqueurs) mais peu de lignes — la malédiction dimensionnelle complexifie les modèles.
Impact énergétique : GPT-3 ~1 300 MWh, GPT-4 ~3 000 MWh. Puissance nécessaire multipliée par 4 à 5 chaque année. Concentration des GPU chez les GAFAM.
AlphaFold v3 : prédiction de la conformation des protéines, mais ignorance des conditions physico-chimiques réelles (pH, phase aqueuse, T°).
Cybersécurité IA : prompt injection, violation de la confidentialité différentielle, data poisoning, deep fakes temps réel — menaces montantes en santé.
L'IA doit être vue comme un accélérateur et un outil d'aide, non un substitut à l'expertise humaine. Approche Qualees : IAs compactes (~500 kWh/an).