Qwen-AgentWorld: První jazykový světový model, který simuluje sedm agentních prostředí v jednom modelu

24. 6. 2026 Daniel Česák

Představte si AI model, který nerozumí jen textu — rozumí tomu, co se stane, když agent stiskne klávesu, spustí příkaz v terminálu nebo klikne na tlačítko ve webovém prohlížeči. Přesně tohle přináší Qwen-AgentWorld: první nativní jazykový světový model (Language World Model), který simuluje sedm různých agentních prostředí v jediném modelu. Od prostředí MCP přes webový prohlížeč až po Android — a to všechno s jediným cílem: naučit AI agenty lépe přemýšlet o důsledcích svých akcí dřív, než je provedou.

Co je jazykový světový model a proč na něm záleží

Tým Qwen — výzkumná skupina Alibaby stojící za populární open-source řadou modelů Qwen — vydal 23. června 2026 Qwen-AgentWorld. Jde o zásadně odlišný přístup k vývoji AI agentů. Zatímco dosavadní modely jako GPT-5.4, Claude Opus 4.8 nebo Gemini 3.1 Pro jsou trénované jako obecné jazykové modely a schopnosti agenta získávají až dodatečným dolaďováním, Qwen-AgentWorld má modelování prostředí jako hlavní tréninkový cíl od prvního dne.

V tradičním agentním workflow máme dvě komponenty: policy model („co udělat") a prostředí („co se stane"). Doposud nikdo netrénoval jazykový model přímo na to, aby předpovídal, co prostředí vrátí. Qwen-AgentWorld to dělá — na základě historie interakcí a akce agenta predikuje výstup terminálu, odpověď API, změnu DOMu webové stránky nebo stav Android UI. A dělá to napříč sedmi doménami v jediném modelu.

Sedm domén, jeden model

Qwen-AgentWorld pokrývá následující prostředí:

Textová prostředí:

Terminal — simulace shellového výstupu, souborového systému a chování procesů
Search — výsledky vyhledávače včetně realistických URL, snippetů a řazení
MCP — odpovědi API serverů, stav databází a servisní protokoly
SWE — vývojářské prostředí: git diff, výsledky testů, chyby kompilace

GUI prostředí:

Web — změny DOMu a accessibility stromu po uživatelských interakcích
Android — změny UI hierarchie po dotykových gestech
OS — stav desktopového systému: souborový systém, okna, chování aplikací

Pro GUI prostředí model nepracuje s pixely, ale s renderovatelným kódem (XML accessibility stromu, HTML, UI hierarchie), což umožňuje textové modelování i vizuálních prostředí.

Třífázový trénink: CPT → SFT → RL

Model prošel třífázovým tréninkovým procesem na více než 10 milionech reálných interakčních trajektorií:

Continual Pre-Training (CPT) — vstřikuje znalosti prostředí. Data pocházejí z dedikované infrastruktury (kontejnerizované sandboxy, MCP servery, Android/web/OS emulátory), otevřených interakčních stop a interních agentních trajektorií. Nad rámec dat z prostředí model absorboval i specializované korpusy z průmyslového řízení, kyberbezpečnosti, práva, medicíny, financí a aktuálního dění.
Supervised Fine-Tuning (SFT) — aktivuje predikci dalšího stavu jako explicitní vzorec uvažování pomocí <think> bloků. Po rejection samplingu vzniklo 7 094 tréninkových vzorků.
Reinforcement Learning (RL) — vybrušuje simulační věrnost pomocí hybridních odměn kombinujících rubric-based LLM judge a rule-based verifikátory.

Klíčovou inovací v CPT fázi je turn-level information-theoretic loss masking: čtyři povrchové statistiky na každý pár (akce, pozorování) identifikují tahy nesoucí skutečnou informaci o prostředí a maskují zbytek z loss funkce. To umožňuje modelu učit se pouze z informačně hodnotných interakcí.

AgentWorldBench: nový benchmark pro světové modely

Spolu s modelem tým vydal AgentWorldBench — komplexní benchmark postavený na reálných pozorováních z trajektorií pěti frontier modelů na devíti zavedených benchmarcích (např. Tool Decathlon, Terminal-Bench 1.0 a 2.0, OSWorld-Verified). Každý vzorek obsahuje ground-truth pozorování z reálného prostředí, což umožňuje referenční skórování napříč pěti dimenzemi: formát, faktičnost, konzistence, realističnost a kvalita.

Výkon: překonává GPT-5.4 i Claude Opus 4.8

Na AgentWorldBench dosahuje Qwen-AgentWorld-397B-A17B nejvyššího celkového skóre 58,71, čímž překonává GPT-5.4 (58,25), Claude Opus 4.8 (56,87) a Gemini 3.1 Pro (56,12). Nejvýraznější náskok má v doménách Terminal a SWE — tedy přesně tam, kde predikce vyžaduje přesné modelování stavu exekuce kódu a chování API.

Menší varianta Qwen-AgentWorld-35B-A3B (MoE architektura s 35B celkovými a 3B aktivními parametry) dosahuje skóre 56,39 — nad Claude Sonnet 4.6 (56,04). Třífázový tréninkový pipeline zvedl její skóre o +8,66 bodu oproti výchozímu stavu.

Jak světový model přemýšlí

Analýza 129 thinking traces odhalila tři emergentní vzorce uvažování:

Deliberativní sebeoprava. Model používá „Wait!" jako kognitivní přerušení pro revizi průběžných predikcí. Napříč 129 tahy napočítali výzkumníci 1 347 takových přerušení (10,4 na tah) — od oprav faktických chyb přes epistemologické limity („I cannot actually execute np.random.seed(42)") až po přebírání perspektivy.

Prevence úniku informací. V Search doméně model drží referenční odpověď, kterou se agent snaží najít. Když je dotaz nesouvisející, model zabraňuje úniku tím, že zajišťuje, aby snippety náhodně neodhalily cíl — ekvivalent teorie mysli ve světovém modelování.

Vícekrokové kauzální uvažování. Predikce výstupu curl -s localhost:3000 | python3 -m json.tool vyžaduje šestikrokový řetězec: Node.js chybí → server nikdy neběžel → žádný listener na portu 3000 → curl selže → prázdná roura → json.tool vyhodí JSONDecodeError.

Dva způsoby, jak světový model posiluje agenty

Tým Qwen zkoumá dvě komplementární paradigmata:

1. Oddělený simulátor (Sim RL)

V tomto režimu světový model nahrazuje reálné prostředí během RL tréninku agenta. Klíčové výsledky:

Zero-shot generalizace: Qwen-AgentWorld simuloval 4 000 OpenClaw prostředí, která vůbec nebyla v tréninku, a přinesl zisky +4,3 na Claw-Eval a +7,1 na QwenClawBench.
Řiditelná simulace: Bez kontrolních instrukcí je Sim RL téměř bez přínosu. S kontrolovanými perturbacemi (cílené API chyby, stránkované odpovědi, nekompletní mezivýsledky) stoupá MCPMark o +12,3 a WideSearch o +16,3.
Překonání reálného prostředí: Kontrolovaný Sim RL dosahuje 50,3 % F1 oproti 45,6 % u Real RL trénovaného na živém vyhledávači. Simulovaní agenti se navíc naučili jiné, efektivnější chování — častěji používají extrakci celých stránek, protože simulované snippety záměrně nezobrazují kompletní obsah.

2. Agentní foundation model (LWM warm-up)

Zde je světové modelování internalizováno přímo do agenta. LWM RL trénink na single-turn úloze (bez tool calls) se přenáší na multi-turn agentní úlohy napříč sedmi benchmarky. Výsledky jsou pozoruhodné zejména u out-of-domain úloh:

Claw-Eval: +11,3
QwenClawBench: +9,7
BFCL v4: +9,0

Tréninková pipeline neobsahovala žádná Claw ani function-calling data — přesto se schopnosti přenesly.

Open source a praktická dostupnost

Qwen-AgentWorld-35B-A3B je plně open-source a dostupný na Hugging Face, ModelScope a GitHubu. Model podporuje 256K kontextové okno a lze jej nasadit přes SGLang i vLLM. Větší varianta 397B-A17B zatím není veřejně dostupná, ale benchmarkové výsledky ukazují, kam vývoj směřuje.

Pro české firmy a vývojáře je open-source povaha zásadní: model lze provozovat na vlastní infrastruktuře bez závislosti na cloudových API, což odpovídá evropským požadavkům na datovou suverenitu. S 3B aktivními parametry (MoE architektura) je 35B varianta provozovatelná i na méně výkonném hardwaru.

Co to znamená pro budoucnost AI agentů

Qwen-AgentWorld představuje koncepční posun. Místo abychom agentům dávali stále větší modely a doufali, že se naučí interagovat s prostředím, explicitně trénujeme model, aby prostředí rozuměl. Důsledky sahají daleko za akademický výzkum:

Bezpečnější agenti: Agent, který si před akcí „v hlavě" nasimuluje její důsledky, je méně náchylný ke katastrofickým chybám v produkčním prostředí.
Škálovatelný trénink: Tisíce simulovaných prostředí bez dedikované infrastruktury znamenají rychlejší a levnější vývoj agentů.
Kontrolované vystavení slabinám: Cílené perturbace systematicky odhalují slabiny agenta, které by v reálném prostředí nemusely nikdy nastat — ale v produkci by mohly.
Český kontext: Ačkoli model sám o sobě nemá specifickou českou lokalizaci, open-source povaha umožňuje jeho adaptaci pro české jazykové prostředí a nasazení v souladu s EU AI Act.

Výzkumný článek je dostupný na arXiv:2606.24597.

Jaký je rozdíl mezi jazykovým světovým modelem (LWM) a běžným LLM?

Běžný LLM (jako GPT nebo Claude) je trénovaný primárně na predikci textu. Když z něj uděláte agenta, schopnost interagovat s prostředím se přidává dodatečně přes tool calling nebo fine-tuning. LWM má modelování prostředí jako hlavní tréninkový cíl od začátku — učí se předpovídat, co se stane po každé akci agenta (výstup terminálu, API odpověď, změna webové stránky). Díky tomu rozumí kauzálním vztahům v prostředí hlouběji než běžný model.

Mohu Qwen-AgentWorld provozovat na vlastním serveru?

Ano. Varianta 35B-A3B je open-source a díky MoE architektuře (3B aktivních parametrů) ji lze provozovat na jednom GPU s ~24 GB VRAM (např. RTX 4090). Model podporuje nasazení přes SGLang i vLLM s 256K kontextovým oknem. To je zásadní výhoda pro evropské firmy, které potřebují dodržet GDPR a požadavky na datovou suverenitu.

Nahradí světové modely reálná prostředí pro trénink agentů?

Ne — a autoři to explicitně zdůrazňují. Reálná interakce s prostředím zůstává zlatým standardem. Světové modely jsou komplementární osou: umožňují škálování do prostředí, která by bylo drahé nebo nemožné provozovat (např. simulace kritické infrastruktury), a hlavně nabízejí kontrolované perturbace, které systematicky odhalují slabiny agentů způsobem, jaký reálné prostředí neumožňuje.