Přejít k hlavnímu obsahu

7 benchmarků, které odhalují skutečné schopnosti AI agentů: Od opravy kódu po ovládání počítače

AI a robotika
Jak poznáte, že umělá inteligence skutečně umí pracovat sama? Perplexity a MMLU vám to neřeknou. Odborníci se proto obrací k nové generaci benchmarků, které testují AI agenty v reálných úkolech — od opravy softwaru přes surfování webem až po ovládání celého počítače. Představujeme sedm testů, které dnes nejlépe odhalují, co agenti skutečně zvládnou.

Proč klasické benchmarky nestačí

Ještě donedávna se schopnosti velkých jazykových modelů měřily především pomocí testů jako MMLU nebo HumanEval. Ty však hodnotí izolované znalosti či krátké úryvky kódu. S příchodem agentní AI — systémů, které samostatně plánují, používají nástroje a interagují s reálným světem — přestaly tyto metriky stačit.

Agentní benchmarky přinášejí zásadní posun: místo otázek a odpovědí testují modely v dlouhých, vícekrokových scénářích. Musí pochopit zadání, vyhledat informace, spustit kód, kliknout na webu nebo komunikovat s uživatelem. A co je klíčové — výsledek se ověřuje automaticky, nikoli subjektivně.

„Skóre agentních benchmarků jsou však silně závislá na nastavení testu,“ varuje analytik portálu MarkTechPost. Model, prompt, přístup k nástrojům, počet pokusů i verze evaluatoru mohou výsledky výrazně změnit. Žádné číslo by proto nemělo být čteno izolovaně.

1. SWE-bench Verified — když AI opravuje skutečný kód

První a nejsledovanější benchmark testuje, zda dokáže agent vyřešit reálné problémy z GitHubu. SWE-bench Verified obsahuje 500 ověřených úloh z dvanácti populárních pythonových repozitářů. Agent musí vyrobit funkční záplatu — nikoli jen popsat řešení, ale skutečný kód, který projde unit testy.

Když benchmark startoval v roce 2023, model Claude 2 zvládl pouhých 1,96 % úloh. Výsledky z přelomu let 2025 a 2026 ukazují, že špičkové modely se pohybují nad 80 % na SWE-bench Verified — přesné hodnoty se však liší podle nastavení agentního rámu a nástrojů. Obecně platí, že uzavřené modely vedou nad opensourcovými, a že samotný model je jen jednou součástí úspěchu.

Pro české vývojáře a firmy je tento benchmark klíčovým ukazatelem: model, který dobře zvládá SWE-bench, může výrazně zrychlit údržbu kódu, refaktoring nebo opravy chyb v interních systémech.

2. GAIA — pomocník, který nepodvádí

GAIA testuje obecné schopnosti asistenta: vícekrokové reasoning, prohlížení webu, používání nástrojů a základní multimodální porozumění. Úlohy jsou formulovány jednoduše, ale jejich vyřešení vyžaduje řetězec netriviálních operací — přesně to, s čím se setkává reálný digitální asistent.

GAIA je široce používaná ve výzkumu a udržuje aktivní žebříček na Hugging Face. Její design odolává zkratkám: agent si nemůže „tipnout“ cestu k výsledku. Pro týmy, které vyvíjejí univerzální asistenty, je GAIA jedním z nejspolehlivějších zdrojů zpětné vazby.

3. WebArena — autonomie na reálném webu

WebArena vytváří funkční webové stránky napříč čtyřmi doménami: e-commerce, sociální fóra, vývojářské nástroje a správa obsahu. Agent dostává přirozené jazykové pokyny a musí je provést výhradně prostřednictvím živého prohlížeče. Benchmark obsahuje 812 dlouhých úloh. Původní nejlepší GPT-4 agent dosáhl pouhých 14,41 % úspěšnosti, zatímco lidský baseline činí 78,24 %.

Do začátku roku 2025 se situace zlepšila: specializovaný systém IBM CUGA dosáhl 61,7 % a OpenAI Computer-Using Agent reportovalo 58,1 %. Tento pokrok reflektuje silnější plánování, specializované moduly pro akce a sledování stavu. WebArena je dnes standardem pro testování pravé webové autonomie, nikoli jen skriptované automatizace.

4. τ-bench — když spolehlivost selhává

Zatímco mnoho benchmarků hodnotí jednorázový úspěch, τ-bench (Tau-bench) testuje něco daleko praktičtějšího: konzistenci. Simuluje vícekolové konverzace mezi uživatelem a agentem vybaveným doménovými API a pravidly. Zároveň hodnotí tři věci — schopnost získat informace, dodržení pravidel a opakovatelnost výsledků.

Výsledky jsou varovné: i špičkoví agenti jako GPT-4o úspěšně zvládnou méně než 50 % úloh. A jejich konzistence je ještě horší — metrika pass^8 v maloobchodní doméně klesá pod 25 %. To znamená, že agent, který úkol zvládne jednou, jej nedokáže spolehlivě zopakovat osmkrát za sebou. Pro reálné nasazení v call centrech nebo zákaznické podpoře, kde probíhají miliony interakcí, je tato nespolehlivost kritická.

5. ARC-AGI-2 a ARC-AGI-3 — měření skutečné inteligence

ARC-AGI, vytvořený François Cholletem, testuje fluidní inteligenci: schopnost generalizovat na zcela nové vizuální úlohy, které odolávají memorování. ARC-AGI-1 byl do roku 2025 prakticky nasycen — špičkové modely dosáhly přes 90 %. ARC-AGI-2, vydaný v březnu 2025, tyto mezery zacelil.

Soutěž ARC Prize 2025 na Kaggle přilákala 1 455 týmů. Nejlepší soutěžní skóre dosáhlo 24 % pomocí specializovaného systému NVIDIA NVARC. Mezi komerčními modely se situace rychle vyvíjí: GPT-5.2 dosáhl 52,9 %, Claude Opus 4.6 68,8 % a Gemini 3.1 Pro po únorové verzi 2026 77,1 % — více než dvojnásobek svého předchůdce.

Největší výzvu představuje ARC-AGI-3, spuštěný v březnu 2026. Jedná se o interaktivní videohru, kde agent musí zkoumat nové prostředí, odvodit cíle a plánovat akce bez explicitních instrukcí. Technická zpráva uvádí: lidé zvládnou 100 % prostředí, zatímco špičkové AI systémy v březnu 2026 dosahují pod 1 %. Čtyři velké laboratoře — Anthropic, Google DeepMind, OpenAI a xAI — ARC-AGI zahrnuly do svých oficiálních model cards.

6. OSWorld — ovládání skutečného počítače

OSWorld nabízí 369 úloh napříč webovými i desktopovými aplikacemi, souborovým systémem a meziaplikacními pracovními postupy na Ubuntu, Windows a macOS. Agent musí interagovat prostřednictvím skutečného grafického rozhraní — klávesnice a myši, nikoli čistých API.

V době publikace na NeurIPS 2024 lidé zvládli přes 72 % úloh, zatímco nejlepší model dosáhl pouhých 12,24 %. Od té doby byl benchmark upgradován na OSWorld-Verified, který opravuje stovky nahlášených problémů a zlepšuje spolehlivost evaluace. Multimodální nároky — kombinace vizuálního vnímání, operačních znalostí a plánování — činí OSWorld podstatně náročnějším než čistě textové benchmarky.

7. AgentBench — diagnostika napříč světy

Jako poslední AgentBench testuje šířku. Hodnotí modely v osmi různých prostředích: interakce s OS, databázové dotazy, navigace znalostních grafů, karetní hry, hlavolamy, plánování domácích úkolů, nakupování na webu a prohlížení webu. Místo hloubky v jedné doméně zkoumá, jak dobře se model adaptuje napříč zcela odlišnými úlohami.

AgentBench je nejlepší pro srovnání architektur a odhalení, kde přestává fungovat přenos dovedností. Model, který exceluje na SWE-bench, může totiž zcela selhat v databázovém prostředí. Tento přehled napříč doménami nemá v této sedmičce obdoby.

Co to znamená pro Česko a Evropu

Pro české firmy a vývojáře jsou tyto benchmarky praktickým kompasem při výběru modelů pro automatizaci. Zatímco uzavřené modely obecně vedou, opensourcové alternativy rychle dohánějí zejména v úzkých doménách — a právě ty mohou být pro české podniky cenově dostupnější a lépe přizpůsobitelné.

Z evropského pohledu je zde i regulační rozměr: AI Act vyžaduje, aby systémy s vysokým dopadem byly transparentní a ověřitelné. Agentní benchmarky poskytují právě takovou objektivní metriku. Pro české vývojářské týmy, které chtějí agentní systémy nasadit v produkci, je klíčové chápat, že žádný jednotlivý test neříká celou pravdu — a že spolehlivost je často větší problém než špičkový výkon v jednom pokusu.

Žádný z uvedených benchmarků není lokalizován do češtiny, ale jejich metodiku a některé open-source implementace mohou čeští výzkumníci a firmy volně využít pro vlastní evaluace. V kombinaci s českými datovými sadami by mohly vzniknout lokální varianty testů relevantních pro český jazyk a trh.

Proč agentní benchmarky často uvádějí rozdílné skóre pro stejný model?

Výsledek závisí na tzv. scaffoldu — tedy promptu, dostupných nástrojích, počtu pokusů, verzi evaluatoru a dalších nastaveních. Dva týmy mohou testovat stejný model a dospět k výrazně odlišným číslům. Proto je důležité číst nejen skóre, ale i podmínky testu.

Může si česká firma tyto benchmarky spustit sama?

Ano. Většina benchmarků, včetně GAIA, WebArena, OSWorld a AgentBench, je open-source a dostupná na GitHubu. Vyžadují však technickou znalost Pythonu a často přístup k výkonným GPU. Pro firmy bez vlastní infrastruktury může být praktičtější sledovat veřejné žebříčky nebo využít služby třetích stran.

Proč je ARC-AGI-3 tak těžký, když modely dosahují vysokých skóre jinde?

ARC-AGI-3 testuje interaktivní adaptaci v neznámém prostředí bez explicitních instrukcí. Zatímco ostatní benchmarky hodnotí provedení známého úkolu, ARC-AGI-3 měří schopnost samostatně objevovat pravidla a cíle. To je pro současné modely fundamentálně odlišná výzva — a právě proto je považován za nejčistější měřítko generalizace.