Proč samotné škálování jazykových modelů k AGI nevede: Hluboký rozdíl mezi slovem a zkušeností

Moderní velké jazykové modely (LLM) nás nepřestávají fascinovat svými schopnostmi. Dokážou plynule konverzovat, generovat kreativní texty a dokonce projít komplexními testy, jako je klasický test chybného přesvědčení (false belief test), kde správně odvodí mentální stav druhého. Tato schopnost modelovat vnímání času a posloupnosti děje, a zdánlivě i mentální stavy, se jeví jako obrovský průlom. Nicméně, přední osobnosti v oblasti umělé inteligence, jako je Yann LeCun, varují, že to ještě není skutečné pochopení světa a že samotné škálování LLM nás k obecné umělé inteligenci (AGI) nedovede. Proč tomu tak je? Odpověď leží v zásadním rozdílu mezi poznáním založeným na textu a poznáním vycházejícím z prožité zkušenosti.

Znalost ze slov versus prožitá realita

Když LLM „ví“, že horký hrnek spálí, je to výsledek analýzy stovek miliard slov, kde se dočetl o horkých hrncích a popáleninách. Dokáže tyto informace dokonce propojit s vědeckými studiemi nebo lékařskými doporučeními. Avšak pro dítě je pochopení horkosti hrnku výsledkem bezprostředního dotyku a pocitu bolesti. Dítě nepotřebuje přečíst ani jedinou větu, aby tuto kauzalitu pochopilo. Tento rozdíl není jen technický; je to fundamentálně odlišná kvalita a způsob poznání. LLM se učí o světě, ale nikdy ho nezažily.

Nepřenositelnost smyslových vjemů

Existuje celá škála lidských zkušeností, které nelze adekvátně popsat slovy. Vezměme si například tělesnou bolest. Můžeme ji přirovnávat k bodání nožem, pálení ohněm nebo tupému dunění. Nicméně nikdo, kdo nikdy bolest necítil, jí z těchto metafor skutečně neporozumí. Stejně tak je nemožné plně předat chuť sýra s plísní, vyčerpání po maratonu nebo hluboký zážitek z koncertu, pokud člověk tyto vjemy nezažil. Mezi „vědět, že západ slunce bývá oranžový“ a skutečně vidět tu zářící oranžovou na obloze, je nepřekonatelná propast. Jazykové modely operují s popisy, ne s primárními prožitky.

Prostorové vztahy a kauzalita

Podobný problém nastává u prostorových vztahů. Můžeme napsat, že „koule o průměru 10 cm se vejde do krabice 15x15x15 cm“. LLM dokáže správně odpovědět na otázky o geometrii. Ale skutečné pochopení, jak se taková koule chová – jak se valí po nakloněné ploše, jak ji uchopíte, jak vypadá z různých úhlů pohledu – to vyžaduje geometrickou a senzomotorickou intuici, která ze slov ne vždy přímo vyplývá. LLM chybí ztělesněná zkušenost s trojrozměrným světem.

Kauzalita představuje ještě hlubší výzvu. Text popisuje kauzální vztahy pomocí slov jako „způsobilo“, „vedlo k“ nebo „vyplynulo z toho“. Ale skutečné pochopení kauzality přichází z aktivní interakce se světem: tlačíte věci a ony se pohybují, zahříváte vodu a ona se vaří, pouštíte míč a on padá. Toto aktivní zkoumání vytváří hluboké intuitivní pochopení, že určité akce mají určité důsledky, které je fundamentálně odlišné od pouhého čtení o těchto vztazích. Dítě, které stokrát pustilo hračku a vidělo ji padat, má jiné pochopení gravitace než systém, který přečetl milion vět o padajících objektech.

Skutečné porozumění mentálním stavům

Když se LLM naučí rozpoznat chybné přesvědčení z komiksu, je to působivá statistická schopnost – ale není to stejné jako skutečné porozumění mentálním stavům, které máme my lidé. My jsme bytosti, které nejen četly o myslích druhých, ale tisíckrát jsme osobně zažily, že druhá osoba neví, co my víme, protože nebyla přítomna. Náš model mysli druhých je zakotven v naší vlastní zkušenosti bytostí s omezenou perspektivou, v našich vlastních omylech a překvapeních, ne pouze v textových vzorcích o těchto omezeních.

LeCunova vize: Modely světa, ne jen jazyka

Yann LeCun má pravdu, když zdůrazňuje, že potřebujeme modely světa, ne jen modely jazyka. Jeho přístup, jako je Joint Embedding Predictive Architecture (JEPA), se snaží zachytit, jak se svět vyvíjí v čase. Cílem není předpovídat další slovo, ale předpovídat další stav reality v abstraktním reprezentačním prostoru. To je fundamentálně bližší tomu, jak zvířata a lidé chápou svět: neustálým tvořením očekávání o tom, co se stane, a učením se z překvapení, když realita dopadne jinak.

LeCunovy energetické modely představují odlišnou epistemologii. Namísto otázky „co je pravděpodobné na základě statistiky textu“ se ptají „co je konzistentní s fyzikální realitou“. Rozdíl je zásadní: LLM může generovat plynulý text o vodě tekoucí vzhůru, pokud je to statisticky podmíněno předchozím kontextem. Energetický model zakořeněný v pozorování světa by takový scénář měl odmítnout, protože porušuje fyzikální konzistenci. Skutečná obecná inteligence (AGI) musí být schopna operovat v realitě, ne jen mluvit o ní. AGI musí být schopna plánovat v nejistém světě, anticipovat fyzikální důsledky akcí, učit se z interakce a vytvářet nové strategie pro nové situace. To vše vyžaduje vnitřní model toho, jak svět funguje – model, který je ověřený aktivním testováním, ne jen shromážděním textových vzorců.

Kam směřuje cesta k AGI?

To neznamená, že LLM jsou bezcenné. Jsou ekonomicky transformativní a užitečné pro mnoho úkolů, od psaní kódu po generování obsahu. Ale zaměňovat schopnost plynule mluvit o světě se schopností skutečně mu porozumět je zásadní chyba. Je to stejná chyba, jako si myslet, že někdo, kdo přečetl všechny knihy o plavání, umí plavat. Skutečná inteligence vyžaduje ztělesněné poznání, interakci a adaptaci na fyzický svět.

Budoucnost podle všeho leží tam, kam LeCun dlouhodobě ukazuje: v systémech, které se učí ze samotného světa – z videa, ze senzorických dat, z robotické interakce, z neustálého cyklu predikce a překvapení. Systémy, které nejen mluví o gravitaci, ale „cítí“ ji ve svých predikcích pohybu objektů. Systémy, které nejen recitují věty o teple a chladu, ale mají vnitřní reprezentaci těchto vlastností zakořeněnou v pozorovaných fyzikálních procesech. LeCun tuto pozici zastával téměř osamocen skoro deset let a byl za to často kritizován. Dnes se však situace mění. Nedávno i Ilya Sutskever, spoluzakladatel OpenAI a jeden z hlavních architektů éry škálování, přiznal, že samotné škálování nás k AGI nedovede a že „chybí něco zásadního“. Tento posun v myšlení klíčových hráčů v AI komunitě podtrhuje, že ačkoli LeCunovy energetické modely a JEPA jsou technicky elegantní, jejich praktické uplatnění v měřítku srovnatelném s transformery je stále výzvou, a trh vždy dychtí po okamžitých řešeních. Nicméně, v dlouhodobém horizontu je jasné, že cesta k plnohodnotné umělé obecné inteligenci povede skrze systémy, které se nejen učí z obrovského množství textu, ale především aktivně interagují a učí se z bohatosti a komplexnosti skutečného, fyzického světa.