Un ensemble ML peut-il surpasser les modèles traditionnels tout en améliorant précision, équité et interprétabilité en prédiction de risque clinique ?

Auteurs : Salma Barkaoui, Head of ML/AI (Qualees) · Mohammed Bennani (Qualees) · Sena Nur Bilgin, Data Scientist (Qualees) · Jérôme Vetillard, VP R&D & CPO (Qualees)

Contexte et objectifs

Le machine learning a transformé l’analytique prédictive en santé, permettant d’améliorer le diagnostic et l’évaluation des risques. Cependant, des défis persistent : déséquilibre de classes, interprétabilité et généralisabilité. Cette étude se concentre sur l’apprentissage ensembliste pour améliorer la précision et la robustesse des prédictions en santé. La suite TweenMe fournit trois outils complémentaires : TweenMe Single pour le fine-tuning d’hyperparamètres par modèle, TweenMe Best pour l’évaluation et le ranking multi-algorithmes, et TweenMe Ensemble pour le stacking pondéré par performance.

Architecture ensembliste et pondération

L’architecture ensembliste intègre plusieurs modèles prédictifs pour réduire le biais et la variance. Les modèles se voient attribuer des poids basés sur leur performance, et la prédiction finale est déterminée par agrégation pondérée. En classification, la prédiction est l’argmax de la moyenne pondérée des vecteurs de probabilités de classe. En régression, c’est la moyenne pondérée des prédictions individuelles. Cette approche garantit que les modèles les plus précis ont un impact proportionnel sur le résultat.

OptiTween : optimisation bayésienne avec OPTUNA

OptiTween implémente l’optimisation bayésienne (Tree-structured Parzen Estimator) pour naviguer efficacement l’espace des hyperparamètres, équilibrant exploration et exploitation pour minimiser une fonction objectif composite — une perte pondérée agrégeant plusieurs métriques d’évaluation. Le composant ImprovementTracker surveille la performance des essais en temps réel, permettant un guidage adaptatif du processus d’optimisation.

Rééchantillonnage et gestion du déséquilibre

SMOTE (Synthetic Minority Over-sampling Technique) augmente la classe minoritaire par interpolation entre échantillons existants, tandis que Tomek Links identifie et supprime les échantillons chevauchants entre classes. Ce rééchantillonnage est intégré dans le framework OptiTween, testé sur le dataset Iraqi Diabetes présentant un déséquilibre marqué entre trois classes (non-diabétique, pré-diabétique, diabétique).

Résultats classification et régression

En classification, TweenMe Ensemble atteint : Accuracy 99.50 %, Weighted F1 Score 99.51 %, Macro F1 99.09 %, Macro Recall 99.80 %, Macro Precision 98.41 %, ROC AUC 99.97 %. Ces résultats surpassent les modèles de deep learning rapportés dans la littérature. En régression sur le dataset Parkinson Telemonitoring (scores moteurs), l’approche Ensemble combine les forces individuelles des modèles (Decision Tree, Random Forest, SVR, Ridge), réduisant le surapprentissage dans cette tâche complexe à haute dimensionnalité.

Conclusion

Le cadre TweenMe Digital Twin Bakery fournit une solution intégrée pour le raffinement systématique de la performance des modèles, améliorant la précision de prédiction à travers des applications cliniques complexes. L’ensemble optimisé surpasse les modèles individuels tuned, confirmant la supériorité des stratégies ensemblistes optimisées pour les datasets à haute dimensionnalité et/ou déséquilibrés en santé.

Lire le document

Accéder à l'article complet

Renseignez vos coordonnées pour accéder au document. Accès gratuit — aucun démarchage commercial.

Document nominatif · Accès gratuit · Aucun démarchage commercial

Ce qu'il faut retenir

Suite d'outils TweenMe Digital Twin Bakery : TweenMe Single (fine-tuning hyperparamètres), TweenMe Best (évaluation et ranking multi-algorithmes), TweenMe Ensemble (stacking pondéré par performance).
OptiTween avec OPTUNA : optimisation bayésienne (Tree-structured Parzen Estimator) naviguant l'espace des hyperparamètres avec ImprovementTracker adaptatif en temps réel.
TweenMe Ensemble atteint Accuracy 99.50 %, Weighted F1 99.51 %, Macro Recall 99.80 %, ROC AUC 99.97 % — surpassant les modèles de deep learning rapportés dans la littérature.
Rééchantillonnage SMOTE + Tomek Links pour le déséquilibre de classes — testé sur le dataset Iraqi Diabetes (3 classes : non-diabétique, pré-diabétique, diabétique).
En régression (Parkinson Telemonitoring, scores moteurs), l'approche Ensemble combine les forces individuelles des modèles, réduisant le surapprentissage et améliorant la précision.
Le cadre TweenMe fournit une solution intégrée pour la sélection et le fine-tuning systématique de modèles en machine learning médical.