Encodage, transduction et modèles du monde — Partie 1/3

Partie 1/3 de l’article « Encodage, transduction et modèles du monde ». La partie 2/3 (chapitres 3-5) est publiée. La partie 3/3 (chapitres 6-7) est en cours de rédaction.

1. L’objection classique et une reformulation plus rigoureuse

La critique récurrente selon laquelle les systèmes d’IA seraient « enfermés dans le langage » repose sur une confusion entre langage et représentation. Dreyfus (phénoménologie heideggérienne, savoir-faire pratique vs manipulation symbolique) et Searle (chambre chinoise, syntaxe vs sémantique) identifient une tension réelle : la distance entre traitement syntaxique et sémantique vécue. La limitation des LLMs ne relève pas d’un enfermement dans le langage mais de l’absence conjointe d’un ancrage sensorimoteur direct, d’un grounding multimodal fondé sur la co-constitution vécue, et d’une mémoire épisodique biographiquement organisée.

2. La représentation comme condition de toute cognition

Toute intelligence — biologique ou artificielle — implique une transformation préalable du monde en états internes manipulables. L’article distingue trois formes d’encodage : (1) l’encodeur explicite, module architectural dédié (Transformer, VAE, CLIP) qui définit la géométrie informationnelle de l’espace latent ; (2) l’encodage implicite, distribué dans les couches du réseau (CNN, LSTM, auto-attention), propriété émergente de l’optimisation ; (3) l’encodage pipeline, ensemble des décisions prises par le data scientist en amont du modèle — sélection des variables, transformation, traitement de l’incomplétude — qui définit l’espace de perception du modèle. Cette troisième couche est épistémologiquement la plus chargée : le modèle n’a aucun accès aux dimensions du monde qui n’ont pas été encodées.

Lire le document

↓ Télécharger en PDF

Ce qu'il faut retenir

La critique selon laquelle les systèmes d'IA seraient « enfermés dans le langage » repose sur une confusion entre langage et représentation. Le problème est la manière dont les représentations sont formées, ancrées et organisées.
Dreyfus (phénoménologie heideggérienne, savoir-faire pratique vs manipulation symbolique) et Searle (chambre chinoise, syntaxe vs sémantique) identifient une tension réelle : la distance entre traitement syntaxique et sémantique vécue.
Toute intelligence implique une médiation représentationnelle préalable — y compris sous des formes subsymboliques, distribuées ou dynamiques. Aucun système cognitif ne traite le monde brut.
Trois formes d'encodage en IA : l'encodeur explicite (Transformer, VAE, CLIP), l'encodage implicite (couches CNN/RNN comme encodeurs fonctionnels), et l'encodage pipeline (décisions du data scientist).
L'encodage pipeline est épistémologiquement le plus chargé : sélection des variables (périmètre), transformation des variables (géométrie), traitement de l'incomplétude (théorie implicite de l'absence).
Le modèle n'a aucun accès aux dimensions du monde qui n'ont pas été encodées. Cette opacité est structurelle et diffère de la contrainte biologique phylogénétique.
Les espaces latents vectoriels géométrisent l'information — mais derrière l'apparente similarité avec les représentations biologiques se cachent des mécanismes de formation et d'ancrage profondément différents.