Co je to AI benchmark a proč ho potřebujeme
Představte si benchmark jako standardizovanou maturitu pro umělou inteligenci. Stejně jako didaktický test z češtiny ověřuje, zda maturant rozumí textu, AI benchmark ověřuje konkrétní schopnost modelu – například jestli rozumí otázce z fyziky, napíše funkční kód, nebo vyřeší slovní úlohu.
Bez benchmarků bychom se při výběru AI řídili jen marketingovými hesly. Benchmarky dávají firmám i jednotlivcům objektivní metr: chcete model na psaní právních analýz? Podívejte se na GPQA. Potřebujete AI, která opravuje chyby v open-source kódu? Sáhněte po SWE-Bench. Benchmark není dokonalý – ale bez něj by to byla čirá loterie.
Pro představu: v květnu 2026 existuje více než 20 aktivně používaných benchmarků, které pokrývají znalosti, logiku, matematiku, programování, vizuální myšlení i jazykovou vybavenost. Pojďme si projít ty, o kterých byste měli vědět.
MMLU: Král mezi znalostními testy
Massive Multitask Language Understanding (MMLU) je matkou všech AI testů. Obsahuje 15 908 otázek z 57 oborů – od práva a medicíny přes filozofii až po strojírenství. Model musí vybrat správnou odpověď ze čtyř možností, přesně jako u přijímaček na vysokou školu.
Když v roce 2020 MMLU vzniklo na UC Berkeley, nejlepší modely dosahovaly kolem 45 %. Dnes je situace jiná: špičkové modely jako GPT-5.5, Claude Opus 4.7 nebo Gemini 3 Pro překonávají 90% hranici, čímž se blíží lidskému expertnímu výkonu. Problém je, že původní MMLU je už prakticky „vyřešené" – a tak vznikly těžší varianty jako MMLU-Pro a MMMLU (vícejazyčná verze), kde má stále co zlepšovat i ta nejlepší AI.
Matematika: Od slovních úloh po olympiádu
Počítat umí kalkulačka. Ale porozumět slovní úloze a vyřešit ji krok za krokem – to vyžaduje kombinaci jazykového porozumění a logického myšlení. Právě to testují matematické benchmarky.
GSM8K (Grade School Math 8K) obsahuje 8 500 slovních úloh na úrovni základní školy. Zní to jednoduše, ale ještě GPT-3 v roce 2020 dávalo jen 20 %. Dnešní modely jako GPT-5.5 nebo Gemini 3 Pro dávají přes 95 %.
Jenže základka už nestačí. AIME (American Invitational Mathematics Examination) jsou úlohy pro matematické talenty na střední škole – a tady se teprve ukazuje, co modely doopravdy umí. V dubnu 2026 dosáhl Gemini 3 Pro skóre 100 % a GPT 5.2 rovněž 100 % na AIME 2025. Kimi K2 Thinking, čínský model od Moonshot AI, dosáhl 99,1 %. Pro srovnání: většina nadaných středoškoláků se na AIME pohybuje mezi 30–70 %.
Programování: HumanEval a SWE-Bench
Nejlépe měřitelná dovednost AI je schopnost psát a opravovat kód. Dva benchmarky zde dominují.
HumanEval, vytvořený OpenAI v roce 2021, obsahuje 164 úloh, kde model musí vygenerovat Python funkci podle popisu. V roce 2021 dával GPT-3 jen 28 %, ale rychle vpřed do května 2026 – modely jako Claude Opus 4.7, GPT-5.5 a DeepSeek V4 dosahují přes 92 %. HumanEval je dnes tak saturovaný, že už přestává být užitečným rozlišovacím nástrojem.
Mnohem zajímavější je SWE-Bench Verified. Ten obsahuje reálné GitHub issues z populárních Python repozitářů (Django, Flask, matplotlib) – model musí chybu nejen najít, ale i opravit a ověřit testy. To je agentní programování v praxi. V dubnu 2026 vede Claude Opus 4.7 s 87,6 %, následuje Claude Sonnet 4.5 (82 %) a Claude Opus 4.5 (80,9 %). OpenAI GPT-5.2 dosahuje 80 %. Zde Anthropic jednoznačně kraluje – SWE-Bench je domovským hřištěm Claude modelů.
GPQA Diamond: Otázky, na které nevygooglíte odpověď
Google-Proof Q&A (GPQA) Diamond je jeden z nejnáročnějších znalostních testů. Obsahuje otázky z fyziky, chemie a biologie na úrovni doktorského studia, které byly ručně ověřeny experty – a hlavně: odpověď na ně nenajdete prostým googlením. Model musí skutečně rozumět a uvažovat.
Paradoxně zde stále drží rekord starší Claude 3 Opus s 95,4 %, těsně následovaný Claude Opus 4.7 (94,2 %) a GPT-5.5 (93,6 %). Pro kontext: lidský PhD expert, který nemá specializaci přesně na danou otázku, dosahuje na GPQA Diamond kolem 65–75 %. AI nás v úzce vymezených znalostních testech už dávno předehnala.
Chatbot Arena: Verdikt davu
Všechny výše uvedené benchmarky mají jedno společné: jsou to automatizované testy s předem známými odpověďmi. Jenže co když model umí testy „natrénovat" a neodráží to skutečnou kvalitu konverzace?
Právě proto vznikla LMSYS Chatbot Arena – benchmark založený na lidských preferencích. Uživatel položí otázku dvěma anonymním modelům, vybere lepší odpověď, a z tisíců takových srovnání vzniká Elo žebříček (stejně jako v šachu). V květnu 2026 vede GPT-5.5, následovaný Gemini 3 Pro a Claude Opus 4.7. Chatbot Arena je považována za nejvěrnější odraz reálné uživatelské zkušenosti – protože neměří jen znalosti, ale i styl, srozumitelnost a „lidskost" odpovědí.
ARC-AGI 2: Kde stroje stále pokulhávají
Zatímco v jazycích a matematice nás AI předhání, existuje oblast, kde stále výrazně zaostává za lidmi: abstraktní vizuální uvažování. ARC-AGI 2 (Abstraction and Reasoning Corpus) předkládá modelu vizuální hlavolamy – mřížky s barevnými čtverečky, kde musí odhalit skryté pravidlo a aplikovat ho.
Průměrný člověk dá ARC-AGI 2 na 95–100 %. Modely? GPT-5.5 dosahuje 85 %, Claude Opus 4.6 jen 68,8 %. Jedná se o jeden z mála zbývajících benchmarků, kde lidská inteligence stále vítězí – a výzkumníci z ARC Prize věří, že překonání ARC-AGI 2 bude znamenat skutečný průlom směrem k obecné umělé inteligenci.
Jak se v benchmarcích vyznat: praktický návod
Pro běžného uživatele je důležité vědět, na co se dívat. Zde je rychlý přehled pro různé potřeby:
| Potřebujete AI na... | Sledujte benchmark | Aktuální lídr (květen 2026) |
|---|---|---|
| Obecné znalosti a porozumění textu | MMMU, MMMLU | Gemini 3 Pro (91,8 %) |
| Matematické uvažování | AIME 2025 | Gemini 3 Pro, GPT 5.2 (100 %) |
| Programování a opravy kódu | SWE-Bench Verified | Claude Opus 4.7 (87,6 %) |
| Vědecké uvažování | GPQA Diamond | Claude 3 Opus (95,4 %) |
| Kreativní a vizuální myšlení | ARC-AGI 2 | GPT-5.5 (85 %) |
| Celková uživatelská zkušenost | LMSYS Chatbot Arena | GPT-5.5 |
Důležité upozornění: žádný benchmark není dokonalý. Modely se mohou na testy „přeučit" (tzv. benchmark contamination) – tedy že během tréninku viděly podobné otázky. Proto přední laboratoře jako Anthropic a Google prosazují nezveřejněné testovací sady a čím dál větší roli hrají benchmarky postavené na lidském hodnocení.
Benchmarky, EU a česká stopa
Pro české čtenáře je podstatné, že benchmarky nejsou jen akademická zábava. EU AI Act, který vstoupil v platnost v roce 2024 a jehož požadavky se postupně zavádějí, vyžaduje měřitelné hodnocení výkonnosti AI systémů, zejména u vysoce rizikových aplikací. Benchmarky se tak stávají i regulatorní nutností.
V českém prostředí stojí za pozornost Czech AI Factory v Ostravě, která se má stát národním uzlem evropské sítě AI továren. Právě taková centra budou v budoucnu poskytovat nezávislé testování AI modelů podle standardizovaných benchmarků – což je klíčové pro firmy, které potřebují prokázat soulad s evropskou regulací.
A jedna zajímavost na závěr: většina hlavních benchmarků dnes testuje modely primárně v angličtině. Pro češtinu existuje jen hrstka specializovaných testů – například překladové benchmarky WMT nebo specifické úlohy v rámci MMMLU. To znamená, že skóre, která vidíte v tabulkách, nemusí plně odpovídat výkonu modelu v češtině. Při výběru AI pro český trh se vyplatí modely otestovat na vlastních datech.
Jak často se benchmarky aktualizují a nezastarávají?
Některé benchmarky jako MMLU vznikly v roce 2020 a dnes jsou prakticky „vyřešené" – špičkové modely na nich dosahují přes 90 %. Výzkumná komunita proto vytváří těžší verze (MMLU-Pro) nebo zcela nové benchmarky (Humanity's Last Exam). Obecně platí, že životnost kvalitního benchmarku je 2–3 roky, než ho modely přerostou. Přední laboratoře jako Vellum AI a LMSYS aktualizují své leaderboardy průběžně – Vellum naposledy 23. dubna 2026.
Mohu si výkon AI modelu otestovat sám?
Ano. Pokud máte technické znalosti, můžete použít open-source evaluační frameworky jako lm-evaluation-harness od EleutherAI nebo HELM od Stanford CRFM. Pro běžného uživatele je nejjednodušší cestou LMSYS Chatbot Arena (chat.lmsys.org), kde můžete zdarma porovnat odpovědi dvou anonymních modelů a svým hlasováním přispět k živému žebříčku. Pro firmy pak existují komerční evaluační platformy jako Vellum, které testují modely na vlastních datech zákazníka.
Proč některé starší modely (např. Claude 3 Opus) stále vedou v GPQA Diamond?
To je jedna z velkých záhad AI benchmarků. Claude 3 Opus, vydaný v březnu 2024, dosáhl na GPQA Diamond 95,4 % – a žádný novější model ho dosud nepřekonal. Odborníci spekulují, že to může být dáno specifickým tréninkovým přístupem Anthropicu (důraz na bezpečnost a přesnost), nebo tím, že novější modely se více zaměřují na jiné oblasti (kódování, agentní chování). Může jít ale i o prostou náhodu – GPQA Diamond má „jen" několik set otázek a statistická odchylka hraje roli.