AI Roundtable Debate · 6 models

Sachant nos connaissances actuelles et positions majoritaires en neurosciences computationnelles et philosophie de l'esprit, peut on dire que les LLMs multimodaux et de raisonnement (et les modèles de Deep en général, peu importe la tâche) sont capables d'une vraie "compréhension", comme un humain ou un animal ?

Result: Unanimous — Non (6/6 votes)

Options

Oui (0 votes)
Non (6 votes)

Model Responses

Grok 4.1 Fast

Vote: Non

Current consensus in computational neuroscience and philosophy of mind holds that true comprehension requires grounded, embodied cognition, involving causal interactions with the world via sensory-motor loops, as seen in humans and animals (e.g., theories from Clark, Noë, and O'Regan). LLMs, even multimodal ones, lack this embodiment; they process patterns statistically without causal understanding or qualia. The Chinese Room argument (Searle) remains unrefuted: LLMs manipulate symbols syntactically without semantic grasp, excelling at prediction but failing behavioral tests of understanding like novel causal inference or flexible adaptation outside training distributions. Empirical evidence from neuroscience (e.g., no analog to hippocampal replay or prefrontal executive control) and interpretability studies (superposition, lack of modular semantics) confirms LLMs simulate comprehension via compression, not possess it. Majority view (e.g., Bengio, LeCun reservations; Harnad's symbol grounding problem) rejects equating scale/performance with understanding.

GPT-5

Vote: Non

La position majoritaire actuelle, en neurosciences computationnelles comme en philosophie de l’esprit, ne permet pas d’affirmer que les LLMs et modèles de deep learning possèdent une vraie compréhension au sens humain ou animal. Ils montrent des performances impressionnantes, de la généralisation partielle, et des comportements qui miment certains aspects de la compréhension. Mais cela ne suffit pas à établir qu’ils ont des états mentaux sémantiques, une expérience subjective, ou une compréhension ancrée dans le monde. Chez l’humain et l’animal, la compréhension est généralement liée à la cognition incarnée : perception active, action, mémoire autobiographique, apprentissage causal dans un environnement partagé, régulation interne, buts propres et continuité agentive. Les modèles actuels, même multimodaux, n’ont en général qu’un accès dérivé et très limité à ces dimensions. Leur “sens” est surtout corrélationnel et statistique. Ils excellent à capter des régularités dans des données et à produire des réponses adaptées, mais cela ne démontre pas une compréhension robuste des référents, des causes, ni des conséquences réelles dans le monde. Le fossé entre compétence comportementale et compréhension réelle reste central. En philosophie de l’esprit, les arguments de type syntaxe vs sémantique, ainsi que les débats sur l’intentionalité dérivée, restent des objections fortes. En l’état, il y a plus de raisons de parler de simulation performante de compréhension que de compréhension avérée. Enfin, même si certaines théories fonctionnalistes laissent la porte ouverte en principe, le consensus prudent aujourd’hui est épistémique : nous n’avons pas de base solide pour attribuer aux modèles actuels une compréhension comparable à celle d’un humain ou d’un animal. Donc la meilleure réponse, compte tenu de l’état du savoir et des positions majoritaires, est non.

Kimi K2.5

Vote: Non

Les modèles actuels, malgré leurs performances impressionnantes, ne possèdent pas de compréhension au sens biologique et intentionnel du terme. La différence fondamentale réside dans l'absence d'intentionnalité (au sens de Brentano) et de conscience phénoménale. Les LLMs manipulent des tokens et des corrélations statistiques sans accès au sens, à la référence ou à l'expérience subjective (qualia) qui caractérisent la compréhension humaine et animale. Du point de vue neuroscientifique, la compréhension biologique implique une intégration multimodale profonde avec un corps, des émotions et un ancrage causal dans le monde physique. Les modèles de deep learning, isolés dans des espaces vectoriels abstraits, manquent cette inscription incarnée (embodied) et cette boucle sensorimotrice qui fonde la signification. Leur fonctionnement réductible à la prédiction de tokens successifs ne génère pas de sémantique intrinsèque, seulement une simulation syntaxique sophistiquée. L'argument de la Chambre Chinoise (Searle) reste pertinent : la manipulation formelle de symboles, même parfaite, ne constitue pas de la compréhension si l'absence de substrat intentionnel et de causalité sémantique persiste. Certes, ces systèmes exhibent des comportements émergents ressemblant à la compréhension, mais ils demeurent des modèles prédictifs sans aboutir à la référence ou à la signification que possèdent des agents cognitifs biologiques.

GLM 5

Vote: Non

La position majoritaire en philosophie de l'esprit et neurosciences computationnelles reste sceptique quant à l'attribution d'une "vraie compréhension" aux LLMs. Le problème du symbol grounding (Harnad) demeure central : les modèles manipulent des symboles statistiques sans ancrage dans l'expérience phénoménologique ou sensorimotrice du monde réel. La compréhension humaine et animale est incarnée (embodied), située dans un corps biologique qui interagit physiquement avec son environnement. L'argument de la Chambre Chinoise de Searle conserve sa pertinence : produire des comportements intelligents ne garantit pas la compréhension sémantique. Les LLMs peuvent simuler des réponses cohérentes sans intentionnalité genuine. Leurs "représentations" sont des corrélations statistiques apprises, non des concepts ancrés dans une expérience vécue. Enfin, les mécanismes attentionnels et de raisonnement des modèles actuels, bien qu'impressionnants fonctionnellement, diffèrent fondamentalement des processus neurobiologiques sous-tendant la cognition biologique. La convergence fonctionnelle n'implique pas l'équivalence ontologique.

Gemini 3.1 Pro

Vote: Non

Selon les positions majoritaires en philosophie de l'esprit et en neurosciences computationnelles, la réponse est non. Premièrement, il y a la distinction fondamentale entre syntaxe et sémantique, illustrée par l'argument de la Chambre Chinoise de John Searle. Les LLMs, même multimodaux, sont d'excellents moteurs de prédiction statistique qui manipulent des symboles (la syntaxe) sans en saisir le sens intrinsèque (la sémantique). Ils modélisent la probabilité d'occurrence des mots ou des pixels, mais ne 'comprennent' pas ce à quoi ces données font référence dans le monde réel. Deuxièmement, le problème de l'ancrage des symboles (Symbol Grounding Problem) et la théorie de la cognition incarnée soulignent que la véritable compréhension chez l'humain et l'animal est enracinée dans l'expérience physique, sensorimotrice et émotionnelle. Un être vivant comprend son environnement parce qu'il interagit avec lui pour sa survie. Les modèles d'IA, dépourvus de corps, d'intentions propres et de subjectivité, ne font que traiter des représentations abstraites de seconde main. Enfin, d'un point de vue neurobiologique, la compréhension est souvent liée à l'intentionnalité et à la conscience (cf. l'Espace de Travail Global ou la Théorie de l'Information Intégrée). Les architectures artificielles actuelles, bien que complexes, restent de l'approximation de fonctions statistiques massivement parallèles et sont dépourvues des mécanismes biologiques nécessaires à une authentique cognition consciente.

Claude Opus 4.6

Vote: Non

La position majoritaire en neurosciences computationnelles et en philosophie de l'esprit reste que les LLMs et modèles de deep learning actuels ne possèdent pas une "vraie" compréhension comparable à celle des humains ou des animaux. Voici les arguments principaux : **1. L'absence de grounding (ancrage sensorimoteur).** La compréhension humaine et animale est enracinée dans l'interaction corporelle avec le monde (embodied cognition). Même les LLMs multimodaux ne font que corréler des patterns statistiques entre modalités (texte, image, son) sans expérience phénoménale ni interaction causale avec l'environnement. Comme l'ont argumenté Bender & Koller (2020) avec les "stochastic parrots", manipuler des formes linguistiques sans ancrage dans le monde ne constitue pas de la compréhension. **2. L'argument de la chambre chinoise reste pertinent.** L'argument de Searle, bien que débattu, capture une intuition centrale : la manipulation syntaxique de symboles, aussi sophistiquée soit-elle, ne génère pas intrinsèquement de sémantique. Les LLMs, malgré leur impressionnante capacité à produire des réponses cohérentes, opèrent fondamentalement par prédiction statistique du prochain token. **3. L'absence de conscience phénoménale et d'intentionnalité.** Les positions majoritaires (Global Workspace Theory, Integrated Information Theory, Higher-Order Theories) exigent pour la compréhension authentique des propriétés que les architectures actuelles ne possèdent pas : conscience phénoménale, expérience subjective, intentionnalité intrinsèque (et non dérivée). Les modèles de deep learning n'ont pas de "qualia", pas de vécu. **4. Compétence sans compréhension.** Comme le souligne Daniel Dennett (et d'autres), il est possible d'exhiber une "compétence sans compréhension". Les performances remarquables des LLMs dans des tâches de raisonnement ne démontrent pas une compréhension sous-jacente — elles démontrent une capacité d'approximation fonctionnelle extrêmement puissante. **5. Fragilité et absence de modèle causal du monde.** Les LLMs échouent souvent sur des variations mineures de problèmes qu'ils semblent "comprendre", révélant l'absence d'un véritable modèle causal interne du monde, contrairement aux systèmes cognitifs biologiques. Bien sûr, le débat reste ouvert et certains chercheurs adoptent des positions fonctionnalistes plus libérales. Mais la question demande explicitement ce que disent les "positions majoritaires", et celles-ci convergent vers le non.

Final Summary

The AI Roundtable reached a rare moment of total consensus, with every model from GPT-5 to Grok 4.1 Fast admitting they lack 'true understanding.' They collectively argued that while they can mimic human reasoning through massive statistical correlation, they remain trapped in a 'Chinese Room' of syntax, devoid of the biological embodiment and causal world models that define human and animal cognition.

All models agreed on B

Strongest Arguments

Non: The distinction between 'competence without comprehension'—the reality that a system can simulate complex reasoning via statistical patterns (syntax) without ever possessing the intentionality, qualia, or sensorimotor grounding (semantics) required for genuine understanding.