Jak se roboti učí světu — od pravidel k pozorování
Ještě před dvaceti lety se zpracování přirozeného jazyka opíralo o ručně psaná gramatická pravidla. Lingvisté trávili desetiletí kodifikací syntaxe, dokud jazykové modely jako GPT neukázaly, že stroj se může naučit gramatiku sám — pouhým čtením bilionů tokenů z internetu. Robotika dnes stojí přesně tam, kde byla NLP v roce 2005.
Každá fyzikální simulace pro roboty je postavená na ručně kódovaných fyzikálních zákonech — třecí koeficienty, kolizní dynamika, kontaktní modely. Robot vytrénovaný v takové simulaci funguje skvěle v prostředí, pro které byl vytvořen. Jenže ho přeneste do neznámé kuchyně a narazíte na strukturální selhání. Ručně kódovanou fyziku nelze škálovat na obecnou fyzickou inteligenci, stejně jako se ručně psanou gramatikou nedalo dojít ke GPT-4.
Data: Proč YouTube mění pravidla hry
Jazykové modely měly obrovskou výhodu: internet plný bilionů tokenů, digitálních a zdarma. GPT-4 trénoval na přibližně 13 bilionech tokenů. Pro srovnání — dataset Open X-Embodiment, na kterém se podílelo 34 robotických laboratoří po celém světě, obsahuje jen asi milion robotických trajektorií. Každá z nich vyžaduje fyzický hardware, lidskou obsluhu a pečlivou kurátorskou práci.
Světový model je neuronová síť, která se učí fyzikální intuici pozorováním — přesně jako člověk. Ukažte jí miliony hodin videí: kuchařské tutoriály, tovární haly, dopravu, stavby. Začne si budovat vnitřní představu o tom, jak svět funguje. Toto implicitní porozumění je často spolehlivější než ručně psané modely, protože obstojí i v situacích, které žádný inženýr nemohl předvídat.
Klíčový poznatek posledních dvou let zní: jakmile máte silnou znalost světa (world knowledge), potřebujete jen minimum roboticky specifických dat (action knowledge). V-JEPA 2 od Meta, natrénovaný na více než milionu hodin internetových videí, dosáhl 80% úspěšnosti při zero-shot manipulaci s předměty v laboratořích, které nikdy předtím neviděl. DeepMind Dreamer 4 se naučil sbírat diamanty v Minecraftu — což vyžaduje 20 000 sekvenčních rozhodnutí — bez jakékoliv interakce s prostředím.
Pět architektur, jedna otevřená otázka
Pod pojmem „světový model" se skrývá pět zásadně odlišných přístupů. Všechny se shodují, že ručně kódované simulace nestačí. Ve všem ostatním se rozcházejí:
Video-generativní modely — NVIDIA Cosmos (14 miliard parametrů), Runway GWM-1 a DeepMind Genie 3 předpovídají budoucí snímky videa. Genie 3 běží v 24 fps a funguje jako živá, hratelná simulace. Nevýhoda? Generování každého pixelu je extrémně nákladné.
Latentní modely — Série Dreamer od DeepMind (Danijar Hafner, Timothy Lillicrap) namísto pixelů vytváří zjednodušenou vnitřní reprezentaci světa. Dreamer V3 překonal specializované metody na více než 150 úlohách bez jakéhokoliv ladění.
JEPA (Joint Embedding Predictive Architecture) — Architektura Yanna LeCuna předpovídá abstraktní reprezentace namísto syrových pixelů. LeCun tomuto přístupu věří natolik, že založil AMI Labs v Paříži, která získala 1,03 miliardy dolarů při valuaci 3,5 miliardy — ještě než dodala první produkt.
Nativní multimodální uvažování — Model DIAMOND dosáhl nejvyššího skóre ze všech světových modelů na benchmarku Atari 100k. Tento přístup tvrdí, že fyzikální porozumění musí být budováno od základu společně s textem, obrazem a zvukem — ne dodatečně „přišroubováno" k textovému modelu.
Difuzní světové modely — UniSim ukázal, že jediný difuzní model dokáže simulovat interakci lidí i robotů s fyzickým světem. Jde o nejméně otestovaný, ale potenciálně nejuniverzálnější přístup.
Důkazy z posledních 18 měsíců naznačují hybridizaci — porozumění fyzice se objevuje napříč všemi architekturami s tím, jak rostou. Rozdíly mezi nimi se stírají a rozhodujícím faktorem nemusí být architektura, ale rychlost přechodu z výzkumu do produkce.
Ekonomika: Schopnosti rostou, náklady zatím ne
Parametry světových modelů vzrostly za pět let tisícinásobně — z 2 milionů u PlaNet na 14 miliard u Cosmos. Trénink Cosmos spotřeboval 10 000 GPU H100 po dobu tří měsíců. Při tomto měřítku se fyzikální porozumění začíná objevovat jako neplánovaný vedlejší efekt — OpenAI to pozorovalo u Sory (3D konzistence, stálost objektů) a DeepMind u Genie 2.
Zásadní problém je však provozní cena. Zatímco textový jazykový model stojí přibližně 15 centů za 100 uživatelských hodin, Sora vyjde na 468 dolarů za uživatelskou hodinu. I efektivnější Odyssey vyžaduje dedikované H100 za 50 dolarů na hodinu. Důvod je strukturální — video se musí generovat kontinuálně, snímek po snímku, v reálném čase. Padesát uživatelů nerozložíte na jedno GPU tak jako u textových modelů.
Dobrou zprávou je, že podobnou křivku poklesu nákladů už jsme viděli — inference LLM zlevnila za tři roky tisícinásobně. Decart už hlásí 400násobné snížení nákladů na video díky vlastnímu inferenčnímu enginu.
NVIDIA v tomto prostoru sestavila nejkomplexnější vertikálně integrovaný stack: Cosmos pro trénink světových modelů, Isaac Sim pro fyzikální simulaci, GR00T pro humanoidní modely, Omniverse pro digitální dvojčata a Jetson Thor pro nasazení na hraně. AWS poskytuje cloudovou vrstvu — SageMaker pro trénink, Inferentia pro optimalizovanou inferenci a IoT Greengrass pro správu flotil.
Tři strukturální mezery, které určí časovou osu
Datová mezera. Video zachycuje, jak věci vypadají, ale ne jaký mají povrch. Úkoly vyžadující hmat — manipulace s křehkými materiály, vkládání součástek — způsobují dramatický propad výkonu modelů. Lidská ruka má 17 000 dotykových receptorů. Většina nasazených robotických rukou nemá žádné taktilní senzory. Standardizovaný hmatový dataset v potřebném měřítku neexistuje — ne kvůli nedostatku technologií, ale kvůli selhání koordinace napříč oborem.
Architektonická mezera. Většina robotických firem dnes spoléhá na imitační učení (učení napodobováním). Když laboratoř GRASP na UPenn testovala takto trénované roboty v opravdu nových podmínkách, úspěšnost klesla na 16,7 %. Naproti tomu každý zdokumentovaný případ robota, který pracoval 10 a více hodin bez lidského zásahu, používal posilované učení (reinforcement learning) se světovým modelem v pozadí.
Časová koherence. Video-generativní světové modely simulují přesvědčivou fyziku po krátkou dobu. Čím déle simulace běží, tím více chyb se kumuluje — objekty končí na nesprávných místech, reakce přestávají dávat smysl. Genie 3 udrží koherenci jen několik minut. World Labs' Marble drift zvládá lépe, ale za vyšší cenu. Hlavní výzva: najít rovnováhu mezi věrností simulace a náklady.
Co to znamená pro Česko a Evropu
Přechod od ručně psaných simulací k naučeným světovým modelům má přímé dopady i na evropský průmysl. Česko jako průmyslová velmoc s rostoucím nedostatkem pracovní síly patří mezi země, kde má robotizace obrovský potenciál. Výzkum světových modelů může výrazně zkrátit dobu nasazení robotů do výroby — místo měsíčního programování konkrétního pracoviště by budoucí robot mohl pochopit nové prostředí během minut.
Evropská unie navíc prostřednictvím AI Act vytváří regulační rámec, který bude ovlivňovat i nasazování fyzické AI. Pro evropské firmy bude klíčové sledovat, zda světové modely zůstanou otevřené (NVIDIA, Meta i Physical Intelligence své modely v roce 2025 otevřely), nebo zda se klíčová infrastruktura uzavře za firemními zdmi. Do ekosystému světových modelů a fyzické AI již nateklo přes 3 miliardy dolarů rizikového kapitálu a firmy vyrábějící humanoidní hardware mají dohromady valuaci přes 50 miliard dolarů.
Jaký je rozdíl mezi světovým modelem a klasickou fyzikální simulací?
Klasická simulace používá ručně naprogramované fyzikální rovnice (tření, gravitace, kolize). Světový model se fyzice učí sám — pozorováním videí a interakcí, podobně jako člověk. Výhodou je, že světový model zvládne i situace, na které inženýři při programování simulace nemysleli. Například V-JEPA 2 od Meta dosáhl 80% úspěšnosti při manipulaci s předměty v laboratořích, které nikdy neviděl.
Kdy uvidíme roboty řízené světovými modely v českých továrnách?
Zatím jde převážně o výzkumnou fázi. Hlavní překážkou jsou vysoké provozní náklady — generování videa v reálném čase stojí stovky dolarů za hodinu. Odhaduje se však, že podobně jako u jazykových modelů (kde inference zlevnila 1000× za tři roky) dojde k dramatickému poklesu nákladů. První komerční nasazení v průmyslu lze očekávat v horizontu 3–5 let, přičemž Česká republika s novým AI centrem v Ostravě má dobrou výchozí pozici.
Potřebují světové modely speciální hardware?
Pro trénink ano — Cosmos od NVIDIE využil 10 000 GPU H100 po dobu tří měsíců. Pro samotné nasazení (inferenci) v robotovi se však již používají specializované čipy jako NVIDIA Jetson Thor, které jsou navržené pro provoz na hraně sítě, tedy přímo v robotovi. AWS nabízí čipy Inferentia pro optimalizovanou cloudovou inferenci. Stejně jako u jazykových modelů se očekává rychlý pokles hardwarových nároků.