Axe I · D2
Ingénierie de la donnée comme infrastructure
Thèse. La donnée n'est ni un input du modèle ni un actif comptable. Elle est l'infrastructure dont le modèle n'est qu'un consommateur, au même titre que les réseaux ou les systèmes de stockage. Tant qu'on traite la donnée comme produit dérivé du projet IA, on construit des modèles sur du sable certifié.
La distinction qui tranche
Data pipeline vs data infrastructure. Un pipeline transporte ; une infrastructure persiste, versionne et garantit. Le premier est un projet ; la seconde est un patrimoine.
Erreur typique
Construire la chaîne de données pour le projet IA, donc spécifique à lui, donc non réutilisable, donc à reconstruire pour le suivant. Coût caché : 60 à 80 % du budget IA en ré-ingénierie permanente, jamais comptabilisé comme tel.
Signaux de défaillance
Aucun catalogue d'origine traçable jusqu'au point de collecte (au sens GDPR art. 30). Schémas qui changent sans versionnement bloquant en aval. Aucune politique de rétention différenciée par type de donnée. Indicateurs de qualité limités à la complétude, jamais la cohérence sémantique, jamais la stabilité distributionnelle. Absence de séparation entre couche brute, couche pivot ontologique et couche analytique.
Référentiels mobilisés
ISO/IEC 8000 (data quality) ; ISO/IEC 11179 (metadata registries) ; FAIR principles (Wilkinson et al., Sci. Data 2016) ; pour la santé, HL7 FHIR R5, OMOP CDM v5.4, CDISC SDTM ; GDPR art. 5 (qualité, minimisation, exactitude) ; référentiel HDS de l'ANS pour l'hébergement.
Terrain d'implémentation
BioKG-TweenMe est une base DuckDB, schéma V1.1, 21 tables organisées en cinq couches (ontologique, phénotypique, génomique, épidémiologique, exposomique), avec diseases.mondo_id comme pivot universel. L'architecture sépare strictement la source (MONDO, HPO, Open Targets, GHO, EXPOSOME-Explorer) de l'usage. L'instance illustre la doctrine du pivot ontologique ; elle ne prouve pas que toute organisation doive adopter MONDO comme pivot. Le choix d'ontologie reste contextuel, le principe de pivot ne l'est pas.
Articulation
Lecture conjointe avec D6 (souveraineté), puisque la localisation de la donnée conditionne la légalité de son traitement. Lecture conjointe avec D7 (évaluation), puisque sans traçabilité des données l'évaluation produit des chiffres qu'on ne peut ni reproduire ni opposer.