Analogie structurelle entre la planche de Galton et l'architecture des réseaux de neurones
Quelles analogies structurelles peut-on identifier entre le fonctionnement d’un dispositif mécanique du XIXe siècle — la planche de Galton — et les réseaux de neurones qui sous-tendent les modèles de langage contemporains ? Les deux systèmes traitent des distributions et des probabilités conditionnelles, agrègent des effets élémentaires simples, et produisent une complexité émergente par massification. Cet article explore ces parallèles et leurs limites, en interrogeant l’émergence de la complexité comme moteur intrinsèque de l’émergence de l’intelligence.
La planche de Galton est un dispositif mécanique qui illustre la distribution normale (ou la loi binomiale) à travers le mouvement de billes qui tombent sur des clous et se répartissent dans des bacs. Sa modélisation mathématique est décrite par l’arbre de probabilité de la loi binomiale : elle réalise la succession d’épreuves de Bernoulli, c’est-à-dire N « tirages » indépendants d’une variable aléatoire à deux valeurs.
Lorsqu’une bille est relâchée au sommet, la probabilité qu’elle atterrisse dans une colonne spécifique dépend du nombre de voies menant du sommet à cette colonne. À chaque étage, la probabilité d’aller à gauche est de 0,5 et celle d’aller à droite est de 0,5. La probabilité d’un chemin au rang N est de 0,5^N, mais le nombre de routes menant à une position est différent selon la position. Ce nombre est représenté par un coefficient binomial, déterminé par le triangle de Pascal.
La loi binomiale est une loi de probabilité discrète. Quand le nombre de tirages N tend vers l’infini, la fonction de masse de la loi binomiale tend à se confondre avec la densité de la loi normale (loi des grands nombres et théorème de Moivre-Laplace).
Un neurone numérique (modèle du perceptron) reçoit un signal numérique amont, le traite par une fonction mathématique interne, et selon le résultat de ce traitement, émet un signal aval. Trois signaux X1, X2, X3 avec des pondérations w1, w2, w3 (poids synaptiques) sont transmis au perceptron qui réalise la somme pondérée de ces signaux. Cette somme peut être ajustée d’un biais, puis envoyée à la fonction d’activation : si la somme ne dépasse pas un seuil S, aucun signal n’est transmis ; sinon, le signal est propagé vers la couche suivante.
Les perceptrons s’organisent en couches successives : couche d’entrée (N perceptrons ingérant le vecteur d’entrée), k couches cachées, couche de sortie (J perceptrons émettant le vecteur de sortie). Dans un maillage complet (full mesh), entre deux couches de K perceptrons, on obtient K² synapses et entre N couches, K^N synapses — autant de paramètres du modèle.
Dans les LLM basés sur des transformers, deux composants structurent l’architecture :
L’encodeur traite et représente l’information d’entrée pour le décodeur. Le mécanisme d’attention multi-têtes capture les dépendances contextuelles entre les mots à différentes positions dans la séquence d’entrée. Il contextualise le prompt : le poids du sous-mot « va » diffère selon que l’encodeur encode « aujourd’hui il va faire beau » ou « vas faire tes devoirs ». Le réseau feed-forward positionnel ajoute des informations non linéaires et capture des relations positionnelles.
Le décodeur génère la séquence de sortie à partir des représentations continues de l’encodeur, via trois sous-modules : auto-attention, attention croisée encodeur-décodeur, et réseau feed-forward positionnel. La sortie est produite par une couche linéaire suivie d’une fonction softmax attribuant des probabilités aux mots du vocabulaire.
Les têtes de lecture utilisent trois matrices : la matrice de requêtes (Q) pour interroger les relations contextuelles, la matrice de clés (K) pour évaluer l’importance relative des mots, et la matrice de valeurs (V) contenant les informations contextuelles. Le mécanisme calcule le produit scalaire Q·K, normalise par la racine carrée de la dimension des clés, applique softmax pour obtenir les poids d’attention, et pondère V. Ce processus est réalisé en parallèle pour chaque tête de lecture.
Le GPT utilise donc des probabilités conditionnelles pour « deviner » le prochain sous-mot complétant le prompt d’entrée, et son mécanisme attentionnel lui permet de deviner la prochaine phrase — qui s’ajoute en flux continu aux données d’entrée pour deviner la suivante.
Les deux systèmes traitent des distributions et des probabilités conditionnelles. La planche de Galton attribue la probabilité de se trouver en un point topologique en fonction du chemin parcouru. Un LLM utilise ses matrices de pondérations probabilistes (définies par l’apprentissage) pour deviner le mot ou la phrase la plus probable complétant le prompt.
Pour surmonter les objections (topologie pyramidale, équiprobabilité, vecteur d’entrée scalaire), une expérience de pensée modifie la planche de Galton : topologie rectangulaire avec clous en quinconce (couche 2n = K clous, couche 2n+1 = K+1 clous), distribution d’entrée vectorielle (N colonnes pré-remplies de quantités différentes de billes), et modification de la taille et de la géométrie des picots (rond, triangulaire, patatoïde) pour briser l’équiprobabilité. La physique applique d’elle-même la fonction softmax puisque p(A) + p(A̅) = 1.
Les deux systèmes agrègent des effets pour produire des résultats. Dans la planche de Galton, chaque bille subit une série de collisions déterminant sa position finale. Dans les réseaux de neurones, les signaux d’entrée sont transformés et pondérés à travers les couches pour produire une réponse. L’apprentissage de la table de Galton « lasagnifiée » consisterait à modifier la taille, la forme et la position des picots jusqu’à obtenir la distribution de sortie désirée — pifométrique et très long, mais nécessitant ensuite uniquement de l’énergie gravitationnelle.
Les deux systèmes montrent des comportements complexes émergeant d’interactions unitairement simples. La planche de Galton génère une distribution complexe à partir de chocs mécaniques élémentaires. Les réseaux de neurones modélisent des fonctions complexes à partir de neurones simples interconnectés.
Les attracteurs étranges de la théorie du chaos se caractérisent par : la non-linéarité (variables interagissant de manière complexe), la sensibilité aux conditions initiales (effet papillon), les structures fractales (motifs similaires à différentes échelles — le triangle de Pascal coloré par parité produit le triangle de Sierpiński), et le comportement chaotique (trajectoires proches divergeant exponentiellement).
La différence fondamentale entre les deux systèmes : pour le LLM, l’émergence repose sur des matrices de poids probabilistes et des minimums locaux dans les calculs de gradients ; pour la planche de Galton, elle relève de la théorie du chaos — position initiale, quantité de mouvement, interaction avec le picot, forme et texture sont autant de paramètres d’un système dynamique non linéaire.
Dans les deux cas, l’architecture du système et les lois qui gouvernent ses mécanismes unitaires sont « simples ». La complexité émerge de l’effet de masse : c’est le nombre de paramètres, synapses ou picots qui ajoute autant de degrés de liberté pour s’adapter aux différentes paires entrée/sortie. Avec 175 milliards de paramètres (GPT-3.5) et cinq fois plus pour GPT-4, apparaissent ces inférences probabilistes qui font penser à un embryon d’intelligence artificielle générale.
Toutefois, l’architecture du cerveau ne ressemble en rien à un plat de lasagne. C’est une architecture de type fractale qui interconnecte des unités spécifiques de calcul (aire visuelle, aire du langage, aires motrices) par de grands faisceaux d’axones. La massification synaptique rend illusoire la capacité de comprendre en détail le fonctionnement du système, et donc d’expliquer a posteriori un résultat ou une « décision ». Les Large Language Models seront difficilement compatibles avec la démarche d’une IA éthique : jeux de données difficiles à décrire avec des métadonnées, robustesse pouvant être compromise par un attracteur étrange, impossibilité de déterminer le comportement du modèle probabiliste à ces échelles de paramètres.