Co je jazykový světový model a proč na něm záleží
Tým Qwen — výzkumná skupina Alibaby stojící za populární open-source řadou modelů Qwen — vydal 23. června 2026 Qwen-AgentWorld. Jde o zásadně odlišný přístup k vývoji AI agentů. Zatímco dosavadní modely jako GPT-5.4, Claude Opus 4.8 nebo Gemini 3.1 Pro jsou trénované jako obecné jazykové modely a schopnosti agenta získávají až dodatečným dolaďováním, Qwen-AgentWorld má modelování prostředí jako hlavní tréninkový cíl od prvního dne.
V tradičním agentním workflow máme dvě komponenty: policy model („co udělat") a prostředí („co se stane"). Doposud nikdo netrénoval jazykový model přímo na to, aby předpovídal, co prostředí vrátí. Qwen-AgentWorld to dělá — na základě historie interakcí a akce agenta predikuje výstup terminálu, odpověď API, změnu DOMu webové stránky nebo stav Android UI. A dělá to napříč sedmi doménami v jediném modelu.
Sedm domén, jeden model
Qwen-AgentWorld pokrývá následující prostředí:
Textová prostředí:
- Terminal — simulace shellového výstupu, souborového systému a chování procesů
- Search — výsledky vyhledávače včetně realistických URL, snippetů a řazení
- MCP — odpovědi API serverů, stav databází a servisní protokoly
- SWE — vývojářské prostředí: git diff, výsledky testů, chyby kompilace
GUI prostředí:
- Web — změny DOMu a accessibility stromu po uživatelských interakcích
- Android — změny UI hierarchie po dotykových gestech
- OS — stav desktopového systému: souborový systém, okna, chování aplikací
Pro GUI prostředí model nepracuje s pixely, ale s renderovatelným kódem (XML accessibility stromu, HTML, UI hierarchie), což umožňuje textové modelování i vizuálních prostředí.
Třífázový trénink: CPT → SFT → RL
Model prošel třífázovým tréninkovým procesem na více než 10 milionech reálných interakčních trajektorií:
- Continual Pre-Training (CPT) — vstřikuje znalosti prostředí. Data pocházejí z dedikované infrastruktury (kontejnerizované sandboxy, MCP servery, Android/web/OS emulátory), otevřených interakčních stop a interních agentních trajektorií. Nad rámec dat z prostředí model absorboval i specializované korpusy z průmyslového řízení, kyberbezpečnosti, práva, medicíny, financí a aktuálního dění.
- Supervised Fine-Tuning (SFT) — aktivuje predikci dalšího stavu jako explicitní vzorec uvažování pomocí
<think>bloků. Po rejection samplingu vzniklo 7 094 tréninkových vzorků. - Reinforcement Learning (RL) — vybrušuje simulační věrnost pomocí hybridních odměn kombinujících rubric-based LLM judge a rule-based verifikátory.
Klíčovou inovací v CPT fázi je turn-level information-theoretic loss masking: čtyři povrchové statistiky na každý pár (akce, pozorování) identifikují tahy nesoucí skutečnou informaci o prostředí a maskují zbytek z loss funkce. To umožňuje modelu učit se pouze z informačně hodnotných interakcí.
AgentWorldBench: nový benchmark pro světové modely
Spolu s modelem tým vydal AgentWorldBench — komplexní benchmark postavený na reálných pozorováních z trajektorií pěti frontier modelů na devíti zavedených benchmarcích (např. Tool Decathlon, Terminal-Bench 1.0 a 2.0, OSWorld-Verified). Každý vzorek obsahuje ground-truth pozorování z reálného prostředí, což umožňuje referenční skórování napříč pěti dimenzemi: formát, faktičnost, konzistence, realističnost a kvalita.
Výkon: překonává GPT-5.4 i Claude Opus 4.8
Na AgentWorldBench dosahuje Qwen-AgentWorld-397B-A17B nejvyššího celkového skóre 58,71, čímž překonává GPT-5.4 (58,25), Claude Opus 4.8 (56,87) a Gemini 3.1 Pro (56,12). Nejvýraznější náskok má v doménách Terminal a SWE — tedy přesně tam, kde predikce vyžaduje přesné modelování stavu exekuce kódu a chování API.
Menší varianta Qwen-AgentWorld-35B-A3B (MoE architektura s 35B celkovými a 3B aktivními parametry) dosahuje skóre 56,39 — nad Claude Sonnet 4.6 (56,04). Třífázový tréninkový pipeline zvedl její skóre o +8,66 bodu oproti výchozímu stavu.
Jak světový model přemýšlí
Analýza 129 thinking traces odhalila tři emergentní vzorce uvažování:
Deliberativní sebeoprava. Model používá „Wait!" jako kognitivní přerušení pro revizi průběžných predikcí. Napříč 129 tahy napočítali výzkumníci 1 347 takových přerušení (10,4 na tah) — od oprav faktických chyb přes epistemologické limity („I cannot actually execute np.random.seed(42)") až po přebírání perspektivy.
Prevence úniku informací. V Search doméně model drží referenční odpověď, kterou se agent snaží najít. Když je dotaz nesouvisející, model zabraňuje úniku tím, že zajišťuje, aby snippety náhodně neodhalily cíl — ekvivalent teorie mysli ve světovém modelování.
Vícekrokové kauzální uvažování. Predikce výstupu curl -s localhost:3000 | python3 -m json.tool vyžaduje šestikrokový řetězec: Node.js chybí → server nikdy neběžel → žádný listener na portu 3000 → curl selže → prázdná roura → json.tool vyhodí JSONDecodeError.
Dva způsoby, jak světový model posiluje agenty
Tým Qwen zkoumá dvě komplementární paradigmata:
1. Oddělený simulátor (Sim RL)
V tomto režimu světový model nahrazuje reálné prostředí během RL tréninku agenta. Klíčové výsledky:
- Zero-shot generalizace: Qwen-AgentWorld simuloval 4 000 OpenClaw prostředí, která vůbec nebyla v tréninku, a přinesl zisky +4,3 na Claw-Eval a +7,1 na QwenClawBench.
- Řiditelná simulace: Bez kontrolních instrukcí je Sim RL téměř bez přínosu. S kontrolovanými perturbacemi (cílené API chyby, stránkované odpovědi, nekompletní mezivýsledky) stoupá MCPMark o +12,3 a WideSearch o +16,3.
- Překonání reálného prostředí: Kontrolovaný Sim RL dosahuje 50,3 % F1 oproti 45,6 % u Real RL trénovaného na živém vyhledávači. Simulovaní agenti se navíc naučili jiné, efektivnější chování — častěji používají extrakci celých stránek, protože simulované snippety záměrně nezobrazují kompletní obsah.
2. Agentní foundation model (LWM warm-up)
Zde je světové modelování internalizováno přímo do agenta. LWM RL trénink na single-turn úloze (bez tool calls) se přenáší na multi-turn agentní úlohy napříč sedmi benchmarky. Výsledky jsou pozoruhodné zejména u out-of-domain úloh:
- Claw-Eval: +11,3
- QwenClawBench: +9,7
- BFCL v4: +9,0
Tréninková pipeline neobsahovala žádná Claw ani function-calling data — přesto se schopnosti přenesly.
Open source a praktická dostupnost
Qwen-AgentWorld-35B-A3B je plně open-source a dostupný na Hugging Face, ModelScope a GitHubu. Model podporuje 256K kontextové okno a lze jej nasadit přes SGLang i vLLM. Větší varianta 397B-A17B zatím není veřejně dostupná, ale benchmarkové výsledky ukazují, kam vývoj směřuje.
Pro české firmy a vývojáře je open-source povaha zásadní: model lze provozovat na vlastní infrastruktuře bez závislosti na cloudových API, což odpovídá evropským požadavkům na datovou suverenitu. S 3B aktivními parametry (MoE architektura) je 35B varianta provozovatelná i na méně výkonném hardwaru.
Co to znamená pro budoucnost AI agentů
Qwen-AgentWorld představuje koncepční posun. Místo abychom agentům dávali stále větší modely a doufali, že se naučí interagovat s prostředím, explicitně trénujeme model, aby prostředí rozuměl. Důsledky sahají daleko za akademický výzkum:
- Bezpečnější agenti: Agent, který si před akcí „v hlavě" nasimuluje její důsledky, je méně náchylný ke katastrofickým chybám v produkčním prostředí.
- Škálovatelný trénink: Tisíce simulovaných prostředí bez dedikované infrastruktury znamenají rychlejší a levnější vývoj agentů.
- Kontrolované vystavení slabinám: Cílené perturbace systematicky odhalují slabiny agenta, které by v reálném prostředí nemusely nikdy nastat — ale v produkci by mohly.
- Český kontext: Ačkoli model sám o sobě nemá specifickou českou lokalizaci, open-source povaha umožňuje jeho adaptaci pro české jazykové prostředí a nasazení v souladu s EU AI Act.
Výzkumný článek je dostupný na arXiv:2606.24597.
Jaký je rozdíl mezi jazykovým světovým modelem (LWM) a běžným LLM?
Běžný LLM (jako GPT nebo Claude) je trénovaný primárně na predikci textu. Když z něj uděláte agenta, schopnost interagovat s prostředím se přidává dodatečně přes tool calling nebo fine-tuning. LWM má modelování prostředí jako hlavní tréninkový cíl od začátku — učí se předpovídat, co se stane po každé akci agenta (výstup terminálu, API odpověď, změna webové stránky). Díky tomu rozumí kauzálním vztahům v prostředí hlouběji než běžný model.
Mohu Qwen-AgentWorld provozovat na vlastním serveru?
Ano. Varianta 35B-A3B je open-source a díky MoE architektuře (3B aktivních parametrů) ji lze provozovat na jednom GPU s ~24 GB VRAM (např. RTX 4090). Model podporuje nasazení přes SGLang i vLLM s 256K kontextovým oknem. To je zásadní výhoda pro evropské firmy, které potřebují dodržet GDPR a požadavky na datovou suverenitu.
Nahradí světové modely reálná prostředí pro trénink agentů?
Ne — a autoři to explicitně zdůrazňují. Reálná interakce s prostředím zůstává zlatým standardem. Světové modely jsou komplementární osou: umožňují škálování do prostředí, která by bylo drahé nebo nemožné provozovat (např. simulace kritické infrastruktury), a hlavně nabízejí kontrolované perturbace, které systematicky odhalují slabiny agentů způsobem, jaký reálné prostředí neumožňuje.