Génération et validation de patients synthétiques haute fidélité pour le CBNPC par TVAE et données cliniques OCTOPUS

Auteurs : Abir Tadmouri (Pierre Fabre) · Salma Barkaoui, Head of ML/AI (Qualees) · Mohammed Bennani (Qualees) · Jérôme Vetillard, VP R&D & CPO (Qualees) · Hadhami Mejbri, Data Scientist (Qualees)

Contexte et objectifs

La génération de données de santé synthétiques haute fidélité joue un rôle crucial dans l’avancement des modèles prédictifs et le partage de données tout en protégeant la vie privée des patients. En oncologie, la rareté des données et l’hétérogénéité des patients posent des défis majeurs, en particulier pour les sous-types rares comme le CBNPC. L’objectif de cette étude est d’augmenter la puissance statistique dans l’évaluation de l’efficacité thérapeutique en oncologie en augmentant le jeu de données réel OCTOPUS (~200 patients) avec des données synthétiques de haute qualité, tout en préservant l’intégrité clinique et statistique.

Prétraitement et intégration des données OCTOPUS

L’intégration des données part de 59 datasets SAS et 37 domaines SDTM vers 11 domaines sélectionnés. USUBJID est identifié comme identifiant unique, la table DM (Demographics) sert de hub central. Les domaines clés pour la modélisation de survie sont intégrés (DM, CM, MI, DD, SU, PR, TU, VS, AE + tables SUPP). Le flux de traitement est cartographié par patient : systémique → 1ère ligne → 2e ligne → lignes suivantes. Les patients sont classifiés en quatre groupes d’issue (traitement complété, décès, arrêt médecin, autres interruptions). L’imputation hybride rule-based + MICE montre la meilleure cohérence longitudinale comparée à KNN et SoftImpute. Dataset final : 156 lignes × 190 colonnes.

Méthode TVAE et génération synthétique

Le TVAE (Tabular Variational AutoEncoder) utilise une architecture d’autoencodeur variationnel pour apprendre la distribution sous-jacente des features et générer de nouveaux échantillons synthétiques. Dans cette étude, le TVAE est optimisé en améliorant sa fonction de perte pour mieux préserver les relations entre features. La génération produit 500 patients synthétiques × 190 colonnes à partir des 156 patients réels prétraités.

Pipeline de validation et résultats

La validation multi-tiers couvre : test de Kolmogorov-Smirnov (0.604) pour la similarité distributionnelle des variables continues, test du Chi-Square pour les variables catégorielles, comparaison d’entropie pour la complexité et variabilité des populations, ANOVA, information mutuelle pour les dépendances linéaires et non-linéaires, préservation des corrélations (0.935), KL divergence (0.721). Le ML Utility (Train on Synthetic, Test on Real — TSTR) atteint 0.907, désigné comme la métrique la plus importante. Le score de qualité pratique global est de 0.802, avec une similarité géométrique de 0.844.

Conclusion et perspectives

Ce poster a été sélectionné dans le Top 5 % des contributions soumises à ISPOR Europe 2025. La cohorte synthétique OCTOPUS de 500 patients préserve les relations cliniques complexes et les signaux prédictifs essentiels pour les applications de recherche en aval. Ce cadre scalable ouvre des perspectives prometteuses pour la prédiction de risque de survie patient-spécifique et la sélection personnalisée de traitement basée sur les trajectoires individuelles, faisant avancer la recherche en oncologie de précision avec un jeu de données haute fidélité prêt pour la production.

Lire le document

Accéder à l'article complet

Renseignez vos coordonnées pour accéder au document. Accès gratuit — aucun démarchage commercial.

Document nominatif · Accès gratuit · Aucun démarchage commercial

Ce qu'il faut retenir

Poster sélectionné dans le Top 5 % des contributions ISPOR Europe 2025.
Pipeline TVAE (Tabular Variational AutoEncoder) optimisé pour la génération de 500 patients synthétiques à partir de 156 patients réels OCTOPUS (CBNPC BRAF V600E), 190 colonnes.
Score de qualité pratique global de 0.802 — ML Utility 0.907 (métrique principale), préservation des corrélations 0.935, similarité géométrique 0.844.
ETL structuré depuis 59 datasets SAS / 37 domaines SDTM vers 11 domaines sélectionnés (DM, CM, MI, DD, SU, PR, TU, VS, AE + tables SUPP).
Stratégie d'imputation hybride rule-based + MICE (meilleure cohérence longitudinale vs KNN et SoftImpute). Cartographie des flux de traitement par patient (lignes 1→n).
Validation multi-tiers : KS test (0.604), Chi-Square, entropie, ANOVA, information mutuelle, préservation des corrélations, KL divergence (0.721).
Le cadre ouvre la voie à la prédiction de risque de survie patient-spécifique et à la sélection personnalisée de traitement en oncologie de précision.