Proč klasické benchmarky nestačí
Ještě donedávna se schopnosti velkých jazykových modelů měřily především pomocí testů jako MMLU nebo HumanEval. Ty však hodnotí izolované znalosti či krátké úryvky kódu. S příchodem agentní AI — systémů, které samostatně plánují, používají nástroje a interagují s reálným světem — přestaly tyto metriky stačit.
Agentní benchmarky přinášejí zásadní posun: místo otázek a odpovědí testují modely v dlouhých, vícekrokových scénářích. Musí pochopit zadání, vyhledat informace, spustit kód, kliknout na webu nebo komunikovat s uživatelem. A co je klíčové — výsledek se ověřuje automaticky, nikoli subjektivně.
„Skóre agentních benchmarků jsou však silně závislá na nastavení testu,“ varuje analytik portálu MarkTechPost. Model, prompt, přístup k nástrojům, počet pokusů i verze evaluatoru mohou výsledky výrazně změnit. Žádné číslo by proto nemělo být čteno izolovaně.
1. SWE-bench Verified — když AI opravuje skutečný kód
První a nejsledovanější benchmark testuje, zda dokáže agent vyřešit reálné problémy z GitHubu. SWE-bench Verified obsahuje 500 ověřených úloh z dvanácti populárních pythonových repozitářů. Agent musí vyrobit funkční záplatu — nikoli jen popsat řešení, ale skutečný kód, který projde unit testy.
Když benchmark startoval v roce 2023, model Claude 2 zvládl pouhých 1,96 % úloh. Výsledky z přelomu let 2025 a 2026 ukazují, že špičkové modely se pohybují nad 80 % na SWE-bench Verified — přesné hodnoty se však liší podle nastavení agentního rámu a nástrojů. Obecně platí, že uzavřené modely vedou nad opensourcovými, a že samotný model je jen jednou součástí úspěchu.
Pro české vývojáře a firmy je tento benchmark klíčovým ukazatelem: model, který dobře zvládá SWE-bench, může výrazně zrychlit údržbu kódu, refaktoring nebo opravy chyb v interních systémech.
2. GAIA — pomocník, který nepodvádí
GAIA testuje obecné schopnosti asistenta: vícekrokové reasoning, prohlížení webu, používání nástrojů a základní multimodální porozumění. Úlohy jsou formulovány jednoduše, ale jejich vyřešení vyžaduje řetězec netriviálních operací — přesně to, s čím se setkává reálný digitální asistent.
GAIA je široce používaná ve výzkumu a udržuje aktivní žebříček na Hugging Face. Její design odolává zkratkám: agent si nemůže „tipnout“ cestu k výsledku. Pro týmy, které vyvíjejí univerzální asistenty, je GAIA jedním z nejspolehlivějších zdrojů zpětné vazby.
3. WebArena — autonomie na reálném webu
WebArena vytváří funkční webové stránky napříč čtyřmi doménami: e-commerce, sociální fóra, vývojářské nástroje a správa obsahu. Agent dostává přirozené jazykové pokyny a musí je provést výhradně prostřednictvím živého prohlížeče. Benchmark obsahuje 812 dlouhých úloh. Původní nejlepší GPT-4 agent dosáhl pouhých 14,41 % úspěšnosti, zatímco lidský baseline činí 78,24 %.
Do začátku roku 2025 se situace zlepšila: specializovaný systém IBM CUGA dosáhl 61,7 % a OpenAI Computer-Using Agent reportovalo 58,1 %. Tento pokrok reflektuje silnější plánování, specializované moduly pro akce a sledování stavu. WebArena je dnes standardem pro testování pravé webové autonomie, nikoli jen skriptované automatizace.
4. τ-bench — když spolehlivost selhává
Zatímco mnoho benchmarků hodnotí jednorázový úspěch, τ-bench (Tau-bench) testuje něco daleko praktičtějšího: konzistenci. Simuluje vícekolové konverzace mezi uživatelem a agentem vybaveným doménovými API a pravidly. Zároveň hodnotí tři věci — schopnost získat informace, dodržení pravidel a opakovatelnost výsledků.
Výsledky jsou varovné: i špičkoví agenti jako GPT-4o úspěšně zvládnou méně než 50 % úloh. A jejich konzistence je ještě horší — metrika pass^8 v maloobchodní doméně klesá pod 25 %. To znamená, že agent, který úkol zvládne jednou, jej nedokáže spolehlivě zopakovat osmkrát za sebou. Pro reálné nasazení v call centrech nebo zákaznické podpoře, kde probíhají miliony interakcí, je tato nespolehlivost kritická.
5. ARC-AGI-2 a ARC-AGI-3 — měření skutečné inteligence
ARC-AGI, vytvořený François Cholletem, testuje fluidní inteligenci: schopnost generalizovat na zcela nové vizuální úlohy, které odolávají memorování. ARC-AGI-1 byl do roku 2025 prakticky nasycen — špičkové modely dosáhly přes 90 %. ARC-AGI-2, vydaný v březnu 2025, tyto mezery zacelil.
Soutěž ARC Prize 2025 na Kaggle přilákala 1 455 týmů. Nejlepší soutěžní skóre dosáhlo 24 % pomocí specializovaného systému NVIDIA NVARC. Mezi komerčními modely se situace rychle vyvíjí: GPT-5.2 dosáhl 52,9 %, Claude Opus 4.6 68,8 % a Gemini 3.1 Pro po únorové verzi 2026 77,1 % — více než dvojnásobek svého předchůdce.
Největší výzvu představuje ARC-AGI-3, spuštěný v březnu 2026. Jedná se o interaktivní videohru, kde agent musí zkoumat nové prostředí, odvodit cíle a plánovat akce bez explicitních instrukcí. Technická zpráva uvádí: lidé zvládnou 100 % prostředí, zatímco špičkové AI systémy v březnu 2026 dosahují pod 1 %. Čtyři velké laboratoře — Anthropic, Google DeepMind, OpenAI a xAI — ARC-AGI zahrnuly do svých oficiálních model cards.
6. OSWorld — ovládání skutečného počítače
OSWorld nabízí 369 úloh napříč webovými i desktopovými aplikacemi, souborovým systémem a meziaplikacními pracovními postupy na Ubuntu, Windows a macOS. Agent musí interagovat prostřednictvím skutečného grafického rozhraní — klávesnice a myši, nikoli čistých API.
V době publikace na NeurIPS 2024 lidé zvládli přes 72 % úloh, zatímco nejlepší model dosáhl pouhých 12,24 %. Od té doby byl benchmark upgradován na OSWorld-Verified, který opravuje stovky nahlášených problémů a zlepšuje spolehlivost evaluace. Multimodální nároky — kombinace vizuálního vnímání, operačních znalostí a plánování — činí OSWorld podstatně náročnějším než čistě textové benchmarky.
7. AgentBench — diagnostika napříč světy
Jako poslední AgentBench testuje šířku. Hodnotí modely v osmi různých prostředích: interakce s OS, databázové dotazy, navigace znalostních grafů, karetní hry, hlavolamy, plánování domácích úkolů, nakupování na webu a prohlížení webu. Místo hloubky v jedné doméně zkoumá, jak dobře se model adaptuje napříč zcela odlišnými úlohami.
AgentBench je nejlepší pro srovnání architektur a odhalení, kde přestává fungovat přenos dovedností. Model, který exceluje na SWE-bench, může totiž zcela selhat v databázovém prostředí. Tento přehled napříč doménami nemá v této sedmičce obdoby.
Co to znamená pro Česko a Evropu
Pro české firmy a vývojáře jsou tyto benchmarky praktickým kompasem při výběru modelů pro automatizaci. Zatímco uzavřené modely obecně vedou, opensourcové alternativy rychle dohánějí zejména v úzkých doménách — a právě ty mohou být pro české podniky cenově dostupnější a lépe přizpůsobitelné.
Z evropského pohledu je zde i regulační rozměr: AI Act vyžaduje, aby systémy s vysokým dopadem byly transparentní a ověřitelné. Agentní benchmarky poskytují právě takovou objektivní metriku. Pro české vývojářské týmy, které chtějí agentní systémy nasadit v produkci, je klíčové chápat, že žádný jednotlivý test neříká celou pravdu — a že spolehlivost je často větší problém než špičkový výkon v jednom pokusu.
Žádný z uvedených benchmarků není lokalizován do češtiny, ale jejich metodiku a některé open-source implementace mohou čeští výzkumníci a firmy volně využít pro vlastní evaluace. V kombinaci s českými datovými sadami by mohly vzniknout lokální varianty testů relevantních pro český jazyk a trh.
Proč agentní benchmarky často uvádějí rozdílné skóre pro stejný model?
Výsledek závisí na tzv. scaffoldu — tedy promptu, dostupných nástrojích, počtu pokusů, verzi evaluatoru a dalších nastaveních. Dva týmy mohou testovat stejný model a dospět k výrazně odlišným číslům. Proto je důležité číst nejen skóre, ale i podmínky testu.
Může si česká firma tyto benchmarky spustit sama?
Ano. Většina benchmarků, včetně GAIA, WebArena, OSWorld a AgentBench, je open-source a dostupná na GitHubu. Vyžadují však technickou znalost Pythonu a často přístup k výkonným GPU. Pro firmy bez vlastní infrastruktury může být praktičtější sledovat veřejné žebříčky nebo využít služby třetích stran.
Proč je ARC-AGI-3 tak těžký, když modely dosahují vysokých skóre jinde?
ARC-AGI-3 testuje interaktivní adaptaci v neznámém prostředí bez explicitních instrukcí. Zatímco ostatní benchmarky hodnotí provedení známého úkolu, ARC-AGI-3 měří schopnost samostatně objevovat pravidla a cíle. To je pro současné modely fundamentálně odlišná výzva — a právě proto je považován za nejčistější měřítko generalizace.