Přejít k hlavnímu obsahu

Čínský výzkum IVLR učí roboty myslet v textu i obrazech. Složité úkoly zvládnou téměř vždy

Ilustrační obrázek pro jarvis-ai.cz
Výzkumníci z univerzity Tsinghua a společnosti Xiaomi představili metodu IVLR, která robotům umožňuje plánovat dlouhé úkoly prostřednictvím střídajících se textových cílů a vizuálních klíčových snímků. V testech dosáhli úspěšnosti přes 92 procent.

Proč roboti potřebují plánovat jako lidé

Představte si robota, který má připravit kávu, uklidit stůl a poté otevřít okno. Pro člověka je to banalita. Pro robota to však znamená zvládnout dlouhý horizont úkolů — sekvenci kroků, kde každý další závisí na tom předchozím, a přitom musí robot neustále vnímat prostor kolem sebe. Dosavadní přístupy v oblasti Vision-Language-Action (VLA) politik často ukrývaly plánování uvnitř neuronových sítí, což vedlo k chybám při složitějších operacích. Buď robot zapomněl, co má udělat jako první, nebo nedokázal správně odhadnout, kam přesně položit předmět.

Textové řetězce uvažování (chain-of-thought) sice pomáhají udržet logický sled úkonů, ale postrádají prostorovou představu. Naopak čistě vizuální predikce nabízejí geometrické vodítko, avšak bez sémantického kontextu mohou být matoucí. Tato komplementarita inspirovala mezinárodní tým vědců k novému přístupu.

IVLR-Trace: Storyboard pro roboty

Vědci Jinkun Liu, Haohan Chi a jejich kolegové z Tsinghua University a Xiaomi Group navrhli metodu s názvem Interleaved Vision–Language Reasoning (IVLR). Její jádro tvoří tzv. IVLR-Trace — explicitní mezilehlá reprezentace, která střídá textové podcíle s vizuálními klíčovými snímky po celou dobu plnění úkolu. Jedná se vlastně o jakýsi storyboard: robot nejprve vygeneruje plán ve formě „vezmi bílý hrnek – [obraz] – polož hrnek na podnos – [obraz] – vezmi žlutý hrnek…“ a tento plán pak používá jako kontext při samotné exekuci.

Klíčové je, že politika zůstává uzavřenou smyčkou (closed-loop). Robot ne slepě kopíruje vygenerované obrázky, ale na každém kroku zohledňuje aktuální pozorování prostředí spolu s původním zadáním a uloženým tracem. Díky tomu dokáže reagovat na drobné odchylky, zatímco si zachovává globální přehled o celém úkolu.

Jak se učí, když data chybí

Standardní robotická demonstrační data neobsahují takové střídavé textově-obrazové stopy. Autoři proto vytvořili pipeline pro pseudo-supervizi: traektorie rozdělí do fází, z každé vyberou klíčový snímek a popíší ho pomocí vision-language modelu. Tento proces není dokonalý, ale umožňuje natrénovat politiku na běžných datasetech bez nutnosti ručního anotování. Trénink probíhal na 16 grafických kartách NVIDIA H200 — na benchmarku LIBERO to trvalo asi 4 hodiny (40 tisíc kroků), na SimplerEnv zhruba 6 hodin (60 tisíc kroků).

Výsledky, které překonávají konkurenci

Metoda byla testována na dvou uznávaných simulovaných benchmarkových sadách. Na LIBERO, který obsahuje čtyři sady úloh testujících prostorovou generalizaci a dlouhý horizont, dosáhl IVLR 95,5 % průměrné úspěšnosti. Na nejtěžší sadě LIBERO-Long to bylo 92,4 %. Pro srovnání: metoda CoT-VLA dosáhla 69,0 % a VLA-0 87,6 %. Na SimplerEnv-WidowX, který simuluje vizuální distribuční posuny, zaznamenal IVLR 59,4 % celkové úspěšnosti, zatímco SpatialVLA pouze 42,7 %.

Nejzajímavější jsou však ablace — experimenty, kde autoři postupně odebírali jednotlivé součásti. Bez trace klesla úspěšnost na LIBERO-Long na 37,7 %. Samotný textový trace zvedl skóre na 62,0 %, čistě vizuální na 68,4 %. Teprve jejich kombinace přinesla oněch 92,4 %. To jednoznačně dokazuje, že text a obraz se vzájemně doplňují a oba jsou pro dlouhé úkoly nezbytné.

Odolnost vůči chybám

Autoři provedli i stresové testy. Při náhodných perturbacích koncového efektoru o 2 cm a při maskování 30 % obsahu trace výkon sice mírně klesl, ale zůstal výrazně nad úrovní metod bez trace. To naznačuje, že reprezentace je robustní vůči lokálním chybám a drobným odchylkám během provádění. Omezení se projevují hlavně při zastaralých nebo nesprávných globálních plánech — pokud robot špatně odhadne celkový scénář na začátku, trace mu již nepomůže.

Co to znamená pro Česko a Evropu

Tento výzkum přichází z Číny, kde spolupráce přední akademické instituce (Tsinghua) s technologickým gigantem (Xiaomi) ilustruje, jak rychle se posouvají výzkumné i komerční aplikace robotiky. Xiaomi působí aktivně i na českém trhu, ačkoli jejich humanoidní či manipulační roboti zatím nejsou v ČR běžně dostupní. Pro evropskou scénu je podstatné, že podobné technologie spadají pod budoucí regulaci EU AI Act, který klade důraz na transparentnost a bezpečnost autonomních systémů. IVLR svým explicitním trace přirozeně nabízí vysvětlitelnost — plán robota je čitelný, kontrolovatelný a oddebuggovatelný, což může usnadnit certifikaci v evropském prostředí.

Zatímco v Evropě se rozvíjejí iniciativy jako Robotics4EU nebo projekty v rámci Horizontu Evropa, čínský přístup ukazuje, že klíčem k praktickým robotům není jen více dat, ale lepší reprezentace uvažování. České firmy a výzkumné týmy by se mohly inspirovat právě směrem propojení jazykových modelů s vizuální predikcí, kde v ČR působí řada špičkových pracovišť v oblasti počítačového vidění a AI.

Závěr

Metoda IVLR představuje významný krok vpřed v oblasti dlouhých horizontů robotické manipulace. Ukazuje, že spojení textu a obrazu do jedné explicitní stopy umožňuje robotům nejen lépe plánovat, ale také odolávat běžným provozním chybám. S úspěšností přes 92 % na náročných úkolech se otevírá cesta k robotům, kteří skutečně zvládnou složité domácí či průmyslové operace — a budou při tom schopni vysvětlit, co dělají.

Je metoda IVLR dostupná jako open source?

Autoři zatím nezveřejnili kompletní kód ani předtrénované modely. Vzhledem k tomu, že paper vyšel 1. května 2026, lze očekávat, že implementace bude následovat v nejbližších týdnech či měsících, jak je v oboru běžné.

Jaký je rozdíl mezi IVLR a běžnými jazykovými modely jako GPT?

Zatímco GPT pracuje primárně s textem, IVLR je specializovaná robotická politika, která kombinuje textové plánování s vizuálními klíčovými snímky a přímo generuje motorické akce. Jedná se tedy o model typu Vision-Language-Action, nikoli čistý konverzační systém.

Kdy bychom mohli podobné roboty vidět v českých domácnostech?

Výsledky pocházejí ze simulace, nikoli z reálného světa. Přenos do praxe obvykle trvá několik let. Vzhledem k zapojení Xiaomi však můžeme očekávat, že komerční aplikace se objeví dříve než v čistě akademických projektech.

Zdroje: Liu et al., arXiv:2605.00438 (2026); LIBERO Benchmark, arXiv:2306.03310

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.