Apprendre ce qui ne peut pas varier : la mémoire comme contrainte du monde

Quatrième volet de la série « Encodage, transduction et modèles du monde ». Fait suite à la partie 1/3, à la partie 2/3 et à la partie 3/3.

1. Ce que la trilogie laisse ouvert, et la définition fonctionnelle de l’arête biographique

La trilogie défendait que toute architecture cognitive opère par médiation représentationnelle, et que la différence la plus profonde entre cognition humaine et architectures contemporaines tient à la nature des relations qui relient les représentations : co-occurrence statistique d’un côté, arête biographique de l’autre. Pour la suite, il importe de stabiliser une définition fonctionnelle de cette dernière, indépendamment de toute charge phénoménologique. Une arête biographique désigne une relation entre représentations mnésiques qui satisfait simultanément quatre conditions opératoires : indexation sur l’histoire d’un agent continu, co-activation dans un même épisode, préservation d’un contexte d’occurrence, possibilité de rappel situé depuis plusieurs perspectives modales. La thèse défendue ici : les architectures prédictives auto-supervisées déplacent l’objectif de l’apprentissage de manière épistémiquement décisive, en passant de la prédiction d’observations à la prédiction de contraintes — mais ce déplacement opère à un niveau où les conditions de l’arête biographique ne sont pas définies. Non pas qu’il échoue à les satisfaire ; il ne les adresse pas.

2. Trois niveaux à ne pas confondre

L’analyse opère sur trois niveaux qu’il importe de distinguer explicitement. Le niveau computationnel concerne la mécanique des architectures : encodeurs, espaces latents, fonctions de prédiction, mécanismes de régularisation. Le niveau épistémique concerne ce qui est appris au sens fort : structure de cohérence, invariants, contraintes capturées dans la représentation. Le niveau phénoménologique concerne la mémoire vécue par un sujet situé. Ces trois niveaux ne sont pas substituables. Une propriété computationnelle n’implique pas mécaniquement une propriété épistémique ; une propriété épistémique n’implique pas mécaniquement une propriété phénoménologique. Confondre les niveaux produit deux erreurs symétriques : sur-attribuer (« JEPA comprend le monde »), et sous-attribuer (« JEPA n’a pas de mémoire »). JEPA n’échoue pas à produire une mémoire biographique. Il opère à un niveau où cette notion n’est pas définie. Cette précision conditionne ce qu’on est en droit d’attendre de ces architectures en environnement régulé, où la robustesse hors distribution n’est pas un objectif secondaire mais une exigence de conformité.

3-4. Le déplacement JEPA : généalogie, principe, et précision technique cruciale

JEPA s’inscrit dans une lignée d’architectures auto-supervisées : SimCLR, MoCo, puis BYOL (qui montre qu’une prédiction asymétrique entre vues peut éviter l’apprentissage contrastif sans effondrement), DINO, MAE, et enfin I-JEPA et V-JEPA qui formalisent la prédiction latente sur paires contexte-cible. La spécificité de JEPA par rapport à BYOL tient à ce que la cible est spatialement située via un signal de position et que le contexte est explicitement masqué plutôt que défini par augmentation. Une précision technique cruciale s’impose, sous peine de transformer l’analyse en éloge sans fondement : un objectif de prédictibilité latente seul converge vers le collapse — toutes les représentations s’effondrent en un point unique. Les propriétés d’invariance et de compression ne sont garanties que par des mécanismes anti-collapse explicites : régularisation par variance et covariance (VICReg), target encoder mis à jour par moyenne mobile exponentielle (EMA), asymétrie d’architecture entre encodeur de contexte et encodeur de cible, ou combinaisons. Ce que JEPA apprend est défini par l’objectif combiné à ces contraintes structurelles, non par l’objectif seul. Les vertus prédictives sont inséparables de choix d’ingénierie inductive qui doivent être documentés comme tels.

5. Ce que JEPA apprend réellement : contraintes de prédictibilité

L’espace latent appris par un JEPA n’est pas un espace de features au sens classique — un dictionnaire de motifs visuels ou sémantiques utiles pour des tâches en aval. C’est un espace de cohérence : une géométrie dans laquelle certaines configurations de représentations sont compatibles entre elles et d’autres ne le sont pas. Précision technique qui conditionne la suite : JEPA standard n’encode pas explicitement les transformations du monde. Il n’est pas un modèle dynamique au sens d’un système qui simulerait des trajectoires d’états. Ce que l’apprentissage par prédiction latente sur paires contexte-cible produit, c’est une fonction de mapping entre représentations latentes, contrainte de telle sorte que les paires correspondant à des co-occurrences naturelles aient des représentations mutuellement prédictibles. La dynamique du monde n’est pas représentée comme telle ; elle est implicitement contrainte par la structure de prédictibilité de l’espace latent. JEPA n’encode pas les transformations elles-mêmes. Il encode les contraintes qui rendent certaines transformations prédictibles. Cette caractérisation s’applique au JEPA standard ; les extensions hiérarchiques (H-JEPA) ou conditionnées par l’action (A-JEPA) restent à ce jour largement à l’état de programme. JEPA n’est ni une mémoire, ni un simulateur, ni un agent : c’est une architecture qui apprend une géométrie de prédictibilité.

6-7. Critique de l’analogie « mémoire longue », et reconstruction positive

Une analogie circule régulièrement : le latent space d’un JEPA fonctionnerait comme une forme de mémoire longue, voire comme un analogue de la proprioception. L’analogie capture une intuition partielle (stabilité représentationnelle sous transformations qui préservent la structure prédictible) mais rate l’essentiel. La proprioception biologique est l’émission continue, par le corps, d’un signal interne qui informe le système nerveux central de l’état effectif du système moteur. Aucun JEPA actuel ne possède quoi que ce soit de tel ; sa cohérence est purement représentationnelle. Reste à dire ce que JEPA fait positivement, sans béquille biologique. Trois propriétés méritent d’être nommées en propre : invariance structurelle sous transformation partielle (émergente, modulo les contraintes anti-collapse) ; compression orientée prédictibilité (filtrage informationnel par utilité prédictive, distinct du filtrage par perte d’information dans les autoencodeurs classiques) ; sélection de l’information contrainte par la prédictibilité. Le paradigme classique articulait observer → abstraire → classer ; le paradigme JEPA articule observer → contraindre → anticiper. Le modèle contraint un espace de continuations latentes plausibles, sans les expliciter. La distinction avec un simulateur explicite est cruciale : un world model dynamique génère des trajectoires ; JEPA délimite l’espace dans lequel ces trajectoires devraient pouvoir être générées.

8. Les labels : une projection arbitraire dans un espace optimisé sur d’autres critères

Les labels ne décrivent pas le monde. Ils contraignent son usage. Le label « tumeur maligne » apposé sur une image radiologique ne décrit pas une propriété intrinsèque de l’image — il indique l’usage clinique attendu dans un cadre de décision donné. La maladie n’est pas dans le pixel ; elle est dans l’articulation entre le pixel, l’histoire du patient, le protocole diagnostique et la décision thérapeutique. Le label compresse cette articulation en un signal binaire utile à l’apprentissage supervisé, mais cette compression est une projection métier, pas une description ontologique. Un JEPA apprend une géométrie de cohérence indépendamment de tout découpage métier. Lorsqu’on ajoute une tête supervisée à un encodeur SSL préentraîné, on ne complète pas l’apprentissage : on réinjecte dans un espace optimisé sur d’autres critères une projection arbitraire dictée par les besoins d’une tâche aval. Cette réinjection est légitime et même indispensable, mais elle ne doit pas être confondue avec une révélation de structures que l’encodeur aurait découvertes. D’où une partition stratégique : l’auto-supervision est un mécanisme de découverte de structure ; la supervision est un mécanisme de projection d’usage.

9. Implications en environnement régulé : santé

Trois propriétés y prennent une importance particulière, à formuler comme hypothèses d’ingénierie soutenues par un faisceau d’évidences empiriques substantiel, non comme propriétés intrinsèques de l’architecture. Robustesse hors distribution : un encodeur SSL préentraîné sur une distribution large, projeté ensuite par fine-tuning supervisé, se dégrade généralement moins qu’un classifieur supervisé optimisé pour des corrélations spécifiques au site d’entraînement (Azizi et al. ; CheXzero ; RETFound). À établir cas par cas — aucune garantie théorique. Dépendance aux datasets annotés : la situation HDLSS pénalise sévèrement la supervision pure ; le préentraînement SSL sur corpus non annotés peut déplacer une partie de la complexité d’apprentissage hors de la phase coûteuse en annotation, à condition qu’un corpus structurellement comparable existe (Krishnan, Rajpurkar, Topol). Modélisation de trajectoires : la médecine est essentiellement temporelle ; une architecture qui apprend des contraintes de prédictibilité sur paires temporelles peut produire des représentations utiles pour modéliser trajectoires de maladie ou de traitement.

Encadré illustratif. Dans le programme TweenMe / OCTOPUS sur mNSCLC porteurs de la mutation BRAF V600E (n=184, 5 pays européens), le travail sur les trajectoires a conduit à mobiliser une combinaison d’apprentissage de représentations et de modélisation par SurvTRACE (Wang & Sun, 2022), architecture transformer pour l’analyse de survie en présence d’événements compétitifs, avec une fidélité TSTR mesurée à 95,2 % sur la cohorte de validation. Cette métrique n’est pas une preuve d’indistinguabilité statistique générale ni une démonstration de la supériorité intrinsèque des représentations apprises ; elle est un indice, dans le cadre d’évaluation considéré, que la trajectoire générée préserve les propriétés opérationnelles utiles aux tâches aval. Terrain d’implémentation, pas démonstration universelle.

10. Limites : ne pas transformer JEPA en religion

Six limites doivent être tenues fermement. (1) Aucune preuve à ce jour qu’un JEPA apprenne une physique complète du monde — les démonstrations existantes (I-JEPA, V-JEPA) montrent des invariances apprises sur des distributions naturelles, mais ces invariances ne couvrent qu’une fraction des contraintes physiques réelles. (2) Le latent space appris est, dans la grande majorité des configurations, non interprétable — limite partagée par l’ensemble du SSL, qui pèse particulièrement sous régulation MDR (UE) 2017/745 et règlement européen sur l’IA, où la non-interprétabilité doit être compensée par d’autres garanties (explicabilité post-hoc, monitoring de dérive, validation indépendante par cohorte externe). (3) Évaluation techniquement délicate : les métriques classiques ne mesurent pas directement ce que JEPA est censé apprendre. (4) Performance fortement dépendante du design des masques et des stratégies de génération de paires contexte-cible — ce qui ressemble à une découverte automatique est partiellement encodé dans des choix d’ingénierie inductive. (5) Préentraînement SSL coûteux en compute : la réduction de dépendance aux annotations se paye en cycles GPU sur corpus massifs ; l’argument transfère le coût plutôt qu’il ne l’élimine. (6) Dérive temporelle : un encodeur préentraîné en 2025 n’a aucune garantie de rester valide en 2030 lorsque protocoles, démographies de cohorte et modalités d’acquisition auront évolué. JEPA déplace le problème de l’apprentissage. Il ne le résout pas entièrement.

11. Le seuil non franchi : trois conditions opératoires, et les architectures qui prétendent les satisfaire

Trois conditions opératoires distinguent une mémoire biographique d’une cohérence latente. Réindexation contextuelle : accès au contenu mnésique selon plusieurs voies d’entrée (modale, temporelle, affective) avec réactivation depuis chacune d’une configuration cohérente de l’épisode entier. Intégration multi-épisode : articulation d’épisodes distincts par des relations structurées par une histoire d’agent, ni purement statistiques ni purement temporelles. Persistance d’agent : continuité d’un référent unique auquel les arêtes mnésiques sont indexées, avec la propriété supplémentaire que cet agent peut traiter les épisodes passés comme épisodes vécus par lui-même, et non comme données extérieures consultables. La distinction entre indexation et appartenance est cruciale — un journal indexe des événements à un identifiant ; il ne les fait pas appartenir à un sujet. Une objection sérieuse mérite d’être examinée : les generative agents de Park et al. (memory stream, reflexion, retrieval multi-critère), Voyager (skill library persistante), ReAct revendiquent ce que les trois conditions paraissent décrire. Sans complaisance : sur la réindexation contextuelle, le memory stream offre une indexation multi-axe, mais opère sur des entrées textuelles homogènes — il ré-articule l’épisode plutôt qu’il ne le réactive. Sur l’intégration multi-épisode, la reflexion produit des résumés (compressifs, lossy), pas des relations préservant l’individualité des épisodes. Sur la persistance d’agent, ces architectures ont un identifiant persistant et un journal indexé à cet identifiant, mais ne satisfont pas la condition d’appartenance : la récupération est une opération d’index, pas une réactivation située. Aucune de ces architectures ne satisfait simultanément les trois conditions au sens strict — elles s’en approchent par juxtaposition. La translation phénoménologique → fonctionnelle isole un minimum opératoire en deçà duquel le seuil n’est pas franchi, indépendamment de tout engagement sur la conscience. Si une architecture ne le satisfait pas, le seuil n’est pas franchi, quels que soient les arbitrages métaphysiques. Si elle le satisfait, la question phénoménologique reste ouverte comme excédent structurel — zone que les architectures actuelles n’atteignent pas.

12. Conclusion : intelligence et invariance

Ce que les architectures prédictives latentes changent n’est pas la nature de l’intelligence artificielle. C’est la cible de l’apprentissage. Avant elles : apprendre des réponses, classifier, reconstruire. Après elles : apprendre les contraintes qui rendent certaines transformations prédictibles, encoder la cohérence d’un espace plutôt que la fidélité à un signal. Ce déplacement n’est ni une révolution ni un détail. C’est un mouvement épistémique précis, dont la portée doit être évaluée à hauteur de ce qu’il fait — réduire la dépendance aux annotations dans certains régimes, améliorer la robustesse hors distribution sous certaines conditions, structurer la modélisation de trajectoires —, et de ce qu’il ne fait pas : satisfaire les conditions fonctionnelles d’une mémoire biographique, ni par lui-même ni par simple adjonction d’un journal d’épisodes. La question stratégique pour les architectes industriels en environnement régulé n’est pas faut-il adopter JEPA ? — la question est faiblement posée. Elle est : quelle propriété cherche-t-on à instancier, à quel niveau, et l’architecture choisie l’instancie-t-elle, ou en simule-t-elle seulement la surface ? Les deux réponses sont valides selon le contexte, mais elles ne sont pas équivalentes, et leur confusion produit des systèmes qui paraissent intelligents jusqu’au moment exact où on les déplace hors de leur distribution d’entraînement. L’intelligence ne réside pas dans ce qui est observé, mais dans ce qui ne peut pas varier. Reste à savoir si ce qui ne peut pas varier suffit à constituer un sujet qui se souvient.

Lire le document

Accéder à l'article complet

Renseignez vos coordonnées pour accéder au document. Accès gratuit — aucun démarchage commercial.

Document nominatif · Accès gratuit · Aucun démarchage commercial

Ce qu'il faut retenir

Les architectures prédictives latentes (JEPA et apparentées) déplacent l'objectif de l'apprentissage de manière épistémiquement décisive : elles passent de la prédiction d'observations à la prédiction de contraintes. Ce déplacement opère cependant à un niveau où la notion de mémoire biographique n'est pas définie.
Trois niveaux à ne pas confondre : computationnel (mécanique des architectures), épistémique (ce qui est appris au sens fort), phénoménologique (mémoire vécue). JEPA n'échoue pas à produire une mémoire biographique — il opère à un niveau où cette notion n'est pas définie.
Précision technique cruciale : un objectif de prédictibilité latente seul converge vers le collapse. Les vertus prédictives ne sont garanties que par des mécanismes anti-collapse explicites — VICReg, EMA, asymétrie d'architecture. JEPA est défini par l'objectif combiné à ces contraintes structurelles, non par l'objectif seul.
JEPA n'encode pas les transformations elles-mêmes. Il encode les contraintes qui rendent certaines transformations prédictibles. JEPA n'est ni une mémoire, ni un simulateur, ni un agent : c'est une architecture qui apprend une géométrie de prédictibilité.
Les labels ne décrivent pas le monde, ils contraignent son usage. Auto-supervision = mécanisme de découverte de structure ; supervision = mécanisme de projection d'usage. Ajouter une tête supervisée ne complète pas l'apprentissage : on réinjecte une projection métier dans un espace optimisé sur d'autres critères.
En environnement régulé (santé) : trois hypothèses d'ingénierie soutenues par un faisceau d'évidences (Azizi, RETFound, CheXzero, Krishnan) — robustesse hors distribution, déplacement de la dépendance aux annotations dans certains régimes HDLSS, modélisation de trajectoires. Aucune ne garantit son propre succès.
Le seuil non franchi est défini par trois conditions opératoires : réindexation contextuelle, intégration multi-épisode, persistance d'agent (avec condition d'appartenance, non d'indexation). Generative agents, Voyager, ReAct opèrent par juxtaposition — un encodeur, un journal, un mécanisme de récupération. La récupération est une opération d'index, pas une réactivation située.
L'intelligence ne réside pas dans ce qui est observé, mais dans ce qui ne peut pas varier. Reste à savoir si ce qui ne peut pas varier suffit à constituer un sujet qui se souvient.