Référentiel · ○ Accès libre

Au-delà du token suivant : trois architectures pour trois manques du paradigme LLM

World models, mémoire et JEPA comme réponses partielles à la dynamique, à la persistance et à l'espace de prédiction

Jérôme Vetillard · · Twingital Institute · 14 pages · 10 min de lecture
🇬🇧 Read in English ↓ Télécharger en PDF

Le manque fondateur

Le paradigme dominant en 2026 reste le modèle auto-régressif entraîné par maximum de vraisemblance sur un corpus de symboles. Sa réussite empirique est considérable. Mais ce qui passe, dans un grand modèle de langage, pour de la compréhension, de la mémoire ou de la simulation du monde n’est pas directement optimisé comme tel : c’est une propriété émergente d’un apprentissage séquentiel sur des traces symboliques.

Le LLM standard présente trois angles morts distincts. Le premier est celui de la dynamique : le modèle peut décrire une conséquence, mais il n’a pas appris la dynamique causale qui la produit. Le deuxième est celui de la persistance : la fenêtre de contexte est un dispositif de calcul, pas une mémoire au sens fort, et un cahier de brouillon plus grand qu’en 2022 ne suffit pas à dire qu’il en possède une. Le troisième est celui de l’espace de prédiction : prédire le prochain token impose la tokenisation comme espace cible, alors que beaucoup de ce que l’on cherche à prédire (états physiques, trajectoires biologiques, évolution clinique sous intervention) ne se réduit pas proprement à une séquence symbolique.

Trois familles d’architectures répondent, chacune partiellement, à ces manques : les world models attaquent la dynamique, les modèles à mémoire la persistance, les architectures de type JEPA l’espace de prédiction. Cette correspondance terme à terme est une posture initiale plutôt qu’un état d’équilibre — les frontières se déforment dès que l’on regarde les architectures les plus récentes. Surtout, ces lignées ne se substituent pas proprement les unes aux autres. Leur trajectoire probable n’est pas l’élimination mutuelle, mais la composition. Et cette composition ne résout pas le problème : elle le déplace vers la coordination des modules, la stabilité d’entraînement, la gouvernance des actions et la validation des sorties. Une architecture hybride n’est pas une synthèse magique ; c’est une pile de problèmes mieux localisés.

Définitions opératoires et trois coupures

Un world model, au sens strict, est un modèle qui apprend la dynamique d’un environnement à partir d’observations couplées à des actions, et qui permet de prédire un état futur conditionnellement à une séquence d’actions. Cette définition stricte met l’accent sur la projection dynamique. Il existe toutefois un usage plus large : des modèles vidéo génératifs comme Sora peuvent être décrits comme des world models implicites — ils apprennent une dynamique sans que la conditionnalité à l’action soit explicite. Confondre les deux permet de faire de belles annonces et de mauvais choix d’architecture, ce qui est une tradition industrielle désormais bien établie.

Un modèle à mémoire est une architecture qui distingue le calcul courant d’un stockage persistant, compressé ou réadressable. Le critère n’est pas la longueur du contexte, mais la différenciation entre traitement immédiat et conservation. JEPA, pour Joint Embedding Predictive Architecture, désigne une famille qui prédit dans l’espace des représentations plutôt que dans l’espace brut des observations.

Trois coupures opèrent : prédire des observations ou prédire des représentations (sépare les world models génératifs des architectures JEPA) ; contexte ou mémoire (sépare les LLM à long contexte des modèles à mémoire au sens architectural) ; prédiction passive ou prédiction conditionnée à l’action (sépare la continuation linguistique d’un modèle dynamique). Ces coupures ne sont pas des frontières absolues mais des instruments d’analyse : leur fonction est d’empêcher la confusion des niveaux.

Les world models génératifs

La famille des world models génératifs est la plus ancienne. Ha et Schmidhuber publient en 2018 un article éponyme : un autoencodeur variationnel compresse l’observation en vecteur latent, un modèle dynamique récurrent prédit les états latents futurs, un contrôleur choisit les actions. L’idée importante n’est pas seulement la compression mais le fait que le contrôleur peut être entraîné dans le « rêve » du modèle. La lignée Dreamer (V1, V2, V3) généralise cette intuition avec un Recurrent State Space Model combinant état déterministe et stochastique. DayDreamer transpose la logique vers des robots physiques, où l’apprentissage par imagination réduit le coût et le risque de l’essai-erreur réel.

Les limites sont structurelles. Computationnelle d’abord : la reconstruction pixel peut devenir un mauvais professeur, dépensant la capacité du modèle sur des détails sans portée décisionnelle. Temporelle ensuite : les erreurs de prédiction se composent, et tout horizon utile est un horizon borné. Distributionnelle enfin : un world model apprend une dynamique locale à la distribution d’entraînement — c’est le problème classique du transfert sim-to-real, mais sous une forme plus générale. Tout modèle dynamique est fiable dans un domaine de validité, pas dans le monde en soi.

JEPA et la rupture représentationnelle

JEPA répond à une faiblesse précise des modèles génératifs : l’obligation de prédire dans l’espace brut des observations. Sa proposition n’est pas de reconstruire mieux mais de ne pas reconstruire ce qui ne mérite pas de l’être. Une partie de l’entrée sert de contexte, l’autre de cible ; deux encodeurs produisent des représentations ; un prédicteur apprend à transformer la représentation du contexte pour approcher celle de la cible. La perte est calculée dans l’espace de représentation. Aucune reconstruction pixel n’est requise.

L’objectif n’est donc pas la fidélité sensorielle mais la prédictibilité abstraite. JEPA peut ainsi être compris (de façon approximative) comme une tentative d’apprendre les contraintes du monde plutôt que ses apparences. Le mécanisme évite l’effondrement trivial via une moyenne mobile exponentielle (EMA) sur les poids de l’encodeur cible. I-JEPA applique le principe aux images, V-JEPA à la vidéo, V-JEPA-2 ajoute une dimension agentique : le modèle prédit des représentations futures conditionnellement à des actions. Dès qu’il prédit des états futurs sous condition d’action, JEPA devient un world model au sens strict — mais non génératif. La distinction pertinente devient : world model génératif dans l’espace des observations, ou world model prédictif dans l’espace des représentations.

Les limites doivent être énoncées sans complaisance. Échelle : aucune loi d’échelle comparable à celle des grands LLM n’est démontrée à ce jour ; le next-token prediction fournit au texte une tâche universelle, JEPA n’en dispose pas encore. In-context learning : aucun mécanisme équivalent — JEPA apprend des représentations, pas un programme local reconfigurable. Portée modale : JEPA est naturel pour la perception visuelle et la robotique, mais ne remplace pas un modèle linguistique général. Le présenter comme alternative globale aux LLM est une facilité rhétorique.

Les modèles à mémoire

La mémoire est probablement le terme le plus maltraité du débat contemporain. Trois sous-familles méritent d’être distinguées. Mémoire externe à index (RAG, MemGPT) : gouvernable, inspectable, traçable, mais limitée aux objets indexables — un état physiologique continu ou une trajectoire clinique probabiliste s’y logent mal. Mémoire d’état récurrente compressée (Mamba, RWKV, state space models) : coût linéaire avec la longueur, mais compresser c’est choisir et choisir c’est oublier — la mémoire est continue mais lossy. Mémoire long-terme apprise (Titans) : un module neuronal apprend quoi écrire, quand écrire, comment oublier et comment réutiliser ; la mémoire devient un composant entraîné.

Une mémoire épisodique au sens architectural minimal suppose trois conditions : un événement singulier indexé temporellement, un rappel orienté par la situation présente, et une mise à jour contextuelle qui ne soit ni surécriture ni écrasement. Aucune des trois sous-familles industrielles courantes ne satisfait pleinement ces trois conditions. Les modèles à mémoire ne résolvent pas le problème du monde — ils résolvent une partie du problème de la persistance. Ils permettent de conserver ou de compresser des traces, pas nécessairement de les comprendre, de les hiérarchiser ou de les utiliser causalement.

Synthèse comparative

Sur six axes architecturaux (objet prédit, espace cible, action, mémoire, évaluation, coût), les quatre familles diffèrent structurellement. La lecture utile de la matrice n’est pas positive (que sait faire chaque famille ?) mais inverse : quelles capacités sont structurellement absentes, non par défaut d’ingénierie mais par construction architecturale ? Le LLM auto-régressif ne peut pas apprendre la dynamique d’un environnement par sa seule tâche d’entraînement — cette absence est consubstantielle à l’objectif. Le world model génératif ne peut pas exploiter sa simulation interne pour des séquences arbitrairement longues — la composition d’erreurs est une propriété mathématique du chaînage prédictif. JEPA ne peut pas, dans son état actuel, prédire dans l’espace symbolique avec la flexibilité du next-token prediction. Un modèle à mémoire ne garantit pas, par sa seule architecture, que ce qu’il conserve sera pertinent ou légitime.

Trois axes échappent à la matrice et doivent être réintroduits avant tout usage industriel : maturité de l’écosystème (LLM industrialisés, world models en R&D académique, JEPA en preuve de concept représentationnelle, mémoire en industrialisation hétérogène par sous-famille), coût d’intégration multi-modules (qui croît plus vite que le nombre de modules, chaque interface étant elle-même un objet de validation), et contraintes de gouvernance, auditabilité, conformité. Une matrice élégante peut conduire à un système ingérable. La question « laquelle va gagner ? » est mal posée : elle suppose une concurrence globale là où il existe des fonctions différentes, et transforme une décision d’architecture en pari tribal — ce qui est une méthode de gouvernance certes populaire, mais rarement productive.

Convergences en cours

Les trois lignées convergent. Premier mouvement : JEPA devient agentique avec V-JEPA-2 — la prédiction représentationnelle entre dans le territoire des world models stricts par un chemin non génératif. Deuxième mouvement : les transformers deviennent mémoriels (Titans, MemGPT) — le contexte ne suffit pas, il faut distinguer ce qui est manipulé maintenant, ce qui doit être conservé, rappelé, oublié ; la mémoire devient un composant d’architecture. Troisième mouvement : les world models intègrent des mémoires et des représentations plus abstraites — Dreamer possède déjà un état latent récurrent lisible comme mémoire de travail, et la question ouverte est celle du couplage entre modèle dynamique latent, mémoire long-terme apprise et encodeur de représentations prédictives.

Mais cette convergence déplace la difficulté. Composer un LLM, un world model, une mémoire et un encodeur prédictif ne produit pas automatiquement un système supérieur. Cela produit un système plus difficile à entraîner, à interpréter, à valider et à gouverner. Quatre problèmes apparaissent immédiatement : propagation d’erreurs (l’erreur ne reste pas locale dans une architecture composite, elle circule), coordination des objectifs (rarement alignés spontanément), validation (la surface de test croît plus vite que le nombre de modules — c’est l’un des nombreux endroits où l’enthousiasme architectural meurt, poignardé par l’assurance qualité), et gouvernance (qui décide qu’une représentation est suffisamment fiable pour alimenter une action ?).

Sur des terrains comme les jumeaux numériques cliniques, cette conclusion n’est pas théorique. Un système qui projette des trajectoires patient doit combiner dynamique, mémoire de l’historique clinique, représentation abstraite des états non observés et couche de gouvernance. Aucune des trois familles ne suffit seule, et leur composition n’est acceptable que si les interfaces, hypothèses et limites de validité sont explicites — sans quoi le système hérite des angles morts de chaque module sans hériter de leurs garanties.

Limites authentiques

Cette cartographie a elle-même des limites. Absence de benchmark inter-familles : LLM, world models, JEPA et systèmes à mémoire sont évalués par des protocoles incommensurables — les comparaisons directes sont rarement scientifiques, souvent éditoriales, y compris à plus petite échelle celle de cette note. Absence de loi d’échelle démontrée pour JEPA au niveau des grands LLM : la différence entre direction prometteuse et paradigme dominant s’appelle la preuve quantitative — c’est pénible, mais la réalité a parfois ce mauvais goût. Fragilité du transfert sim-to-real pour les world models. Polysémie du terme « modèle du monde » — utile pour vendre une vision, dangereuse pour concevoir une architecture. Aucune des familles n’intègre nativement une gouvernance complète : un LLM ne sait pas naturellement distinguer recommandation et action, un world model ne sait pas borner son domaine de validité, JEPA ne fournit pas de traçabilité causale de ses représentations, un module de mémoire ne garantit pas la légitimité de ce qu’il rappelle. La gouvernance doit être architecturée autour du modèle, parfois dans le modèle, mais elle n’émerge pas automatiquement de la performance.

Conclusion

Le bon diagnostic est fonctionnel, pas concurrentiel. Le paradigme auto-régressif a révélé une puissance remarquable dans la manipulation des séquences symboliques, mais il laisse ouverts trois problèmes : la dynamique du monde, la persistance des informations, le choix de l’espace de prédiction. World models, modèles à mémoire et JEPA y répondent, chacun partiellement, chacun avec ses limites. Un LLM parle du monde. Un world model projette des états possibles du monde. JEPA apprend des représentations prédictives du monde. Un modèle à mémoire conserve ou rappelle des traces du monde. Aucun ne constitue, seul, une architecture complète.

La question stratégique n’est donc pas : quel paradigme va gagner ? Elle est : quelle combinaison minimale de capacités est nécessaire pour le cas d’usage considéré, sous quelles hypothèses, avec quel domaine de validité, quel coût, quelle gouvernance et quelle preuve ? Cette reformulation interdit de confondre annonce de laboratoire, promesse produit et architecture exploitable. C’est moins spectaculaire qu’une prophétie. C’est surtout le seul niveau où une décision d’architecture cesse d’être une croyance et devient défendable.

Texte intégral en accès libre dans le PDF ci-dessous (14 pages, avec figures et notes).

Lire le document