Přejít k hlavnímu obsahu

Nejznámější AI benchmarky – jaké to jsou a k čemu je potřebujeme?

Ilustrační obrázek
Když OpenAI, Anthropic nebo Google vydají nový model, první věc, kterou ukazují, jsou grafy. Sloupce sahající výš než ty konkurenční. Čísla, která mají dokázat, že právě jejich AI je ta nejlepší. Ale co tahle čísla vlastně znamenají? A proč by vás – ať už jste vývojář, manažer, nebo jen zvědavý uživatel – měla zajímat? Vítejte ve světě AI benchmarků, kde se měří inteligence strojů.

Co je to AI benchmark a proč ho potřebujeme

Představte si benchmark jako standardizovanou maturitu pro umělou inteligenci. Stejně jako didaktický test z češtiny ověřuje, zda maturant rozumí textu, AI benchmark ověřuje konkrétní schopnost modelu – například jestli rozumí otázce z fyziky, napíše funkční kód, nebo vyřeší slovní úlohu.

Bez benchmarků bychom se při výběru AI řídili jen marketingovými hesly. Benchmarky dávají firmám i jednotlivcům objektivní metr: chcete model na psaní právních analýz? Podívejte se na GPQA. Potřebujete AI, která opravuje chyby v open-source kódu? Sáhněte po SWE-Bench. Benchmark není dokonalý – ale bez něj by to byla čirá loterie.

Pro představu: v květnu 2026 existuje více než 20 aktivně používaných benchmarků, které pokrývají znalosti, logiku, matematiku, programování, vizuální myšlení i jazykovou vybavenost. Pojďme si projít ty, o kterých byste měli vědět.

MMLU: Král mezi znalostními testy

Massive Multitask Language Understanding (MMLU) je matkou všech AI testů. Obsahuje 15 908 otázek z 57 oborů – od práva a medicíny přes filozofii až po strojírenství. Model musí vybrat správnou odpověď ze čtyř možností, přesně jako u přijímaček na vysokou školu.

Když v roce 2020 MMLU vzniklo na UC Berkeley, nejlepší modely dosahovaly kolem 45 %. Dnes je situace jiná: špičkové modely jako GPT-5.5, Claude Opus 4.7 nebo Gemini 3 Pro překonávají 90% hranici, čímž se blíží lidskému expertnímu výkonu. Problém je, že původní MMLU je už prakticky „vyřešené" – a tak vznikly těžší varianty jako MMLU-Pro a MMMLU (vícejazyčná verze), kde má stále co zlepšovat i ta nejlepší AI.

Matematika: Od slovních úloh po olympiádu

Počítat umí kalkulačka. Ale porozumět slovní úloze a vyřešit ji krok za krokem – to vyžaduje kombinaci jazykového porozumění a logického myšlení. Právě to testují matematické benchmarky.

GSM8K (Grade School Math 8K) obsahuje 8 500 slovních úloh na úrovni základní školy. Zní to jednoduše, ale ještě GPT-3 v roce 2020 dávalo jen 20 %. Dnešní modely jako GPT-5.5 nebo Gemini 3 Pro dávají přes 95 %.

Jenže základka už nestačí. AIME (American Invitational Mathematics Examination) jsou úlohy pro matematické talenty na střední škole – a tady se teprve ukazuje, co modely doopravdy umí. V dubnu 2026 dosáhl Gemini 3 Pro skóre 100 % a GPT 5.2 rovněž 100 % na AIME 2025. Kimi K2 Thinking, čínský model od Moonshot AI, dosáhl 99,1 %. Pro srovnání: většina nadaných středoškoláků se na AIME pohybuje mezi 30–70 %.

Programování: HumanEval a SWE-Bench

Nejlépe měřitelná dovednost AI je schopnost psát a opravovat kód. Dva benchmarky zde dominují.

HumanEval, vytvořený OpenAI v roce 2021, obsahuje 164 úloh, kde model musí vygenerovat Python funkci podle popisu. V roce 2021 dával GPT-3 jen 28 %, ale rychle vpřed do května 2026 – modely jako Claude Opus 4.7, GPT-5.5 a DeepSeek V4 dosahují přes 92 %. HumanEval je dnes tak saturovaný, že už přestává být užitečným rozlišovacím nástrojem.

Mnohem zajímavější je SWE-Bench Verified. Ten obsahuje reálné GitHub issues z populárních Python repozitářů (Django, Flask, matplotlib) – model musí chybu nejen najít, ale i opravit a ověřit testy. To je agentní programování v praxi. V dubnu 2026 vede Claude Opus 4.7 s 87,6 %, následuje Claude Sonnet 4.5 (82 %) a Claude Opus 4.5 (80,9 %). OpenAI GPT-5.2 dosahuje 80 %. Zde Anthropic jednoznačně kraluje – SWE-Bench je domovským hřištěm Claude modelů.

GPQA Diamond: Otázky, na které nevygooglíte odpověď

Google-Proof Q&A (GPQA) Diamond je jeden z nejnáročnějších znalostních testů. Obsahuje otázky z fyziky, chemie a biologie na úrovni doktorského studia, které byly ručně ověřeny experty – a hlavně: odpověď na ně nenajdete prostým googlením. Model musí skutečně rozumět a uvažovat.

Paradoxně zde stále drží rekord starší Claude 3 Opus s 95,4 %, těsně následovaný Claude Opus 4.7 (94,2 %) a GPT-5.5 (93,6 %). Pro kontext: lidský PhD expert, který nemá specializaci přesně na danou otázku, dosahuje na GPQA Diamond kolem 65–75 %. AI nás v úzce vymezených znalostních testech už dávno předehnala.

Chatbot Arena: Verdikt davu

Všechny výše uvedené benchmarky mají jedno společné: jsou to automatizované testy s předem známými odpověďmi. Jenže co když model umí testy „natrénovat" a neodráží to skutečnou kvalitu konverzace?

Právě proto vznikla LMSYS Chatbot Arena – benchmark založený na lidských preferencích. Uživatel položí otázku dvěma anonymním modelům, vybere lepší odpověď, a z tisíců takových srovnání vzniká Elo žebříček (stejně jako v šachu). V květnu 2026 vede GPT-5.5, následovaný Gemini 3 Pro a Claude Opus 4.7. Chatbot Arena je považována za nejvěrnější odraz reálné uživatelské zkušenosti – protože neměří jen znalosti, ale i styl, srozumitelnost a „lidskost" odpovědí.

ARC-AGI 2: Kde stroje stále pokulhávají

Zatímco v jazycích a matematice nás AI předhání, existuje oblast, kde stále výrazně zaostává za lidmi: abstraktní vizuální uvažování. ARC-AGI 2 (Abstraction and Reasoning Corpus) předkládá modelu vizuální hlavolamy – mřížky s barevnými čtverečky, kde musí odhalit skryté pravidlo a aplikovat ho.

Průměrný člověk dá ARC-AGI 2 na 95–100 %. Modely? GPT-5.5 dosahuje 85 %, Claude Opus 4.6 jen 68,8 %. Jedná se o jeden z mála zbývajících benchmarků, kde lidská inteligence stále vítězí – a výzkumníci z ARC Prize věří, že překonání ARC-AGI 2 bude znamenat skutečný průlom směrem k obecné umělé inteligenci.

Jak se v benchmarcích vyznat: praktický návod

Pro běžného uživatele je důležité vědět, na co se dívat. Zde je rychlý přehled pro různé potřeby:

Potřebujete AI na... Sledujte benchmark Aktuální lídr (květen 2026)
Obecné znalosti a porozumění textu MMMU, MMMLU Gemini 3 Pro (91,8 %)
Matematické uvažování AIME 2025 Gemini 3 Pro, GPT 5.2 (100 %)
Programování a opravy kódu SWE-Bench Verified Claude Opus 4.7 (87,6 %)
Vědecké uvažování GPQA Diamond Claude 3 Opus (95,4 %)
Kreativní a vizuální myšlení ARC-AGI 2 GPT-5.5 (85 %)
Celková uživatelská zkušenost LMSYS Chatbot Arena GPT-5.5

Důležité upozornění: žádný benchmark není dokonalý. Modely se mohou na testy „přeučit" (tzv. benchmark contamination) – tedy že během tréninku viděly podobné otázky. Proto přední laboratoře jako Anthropic a Google prosazují nezveřejněné testovací sady a čím dál větší roli hrají benchmarky postavené na lidském hodnocení.

Benchmarky, EU a česká stopa

Pro české čtenáře je podstatné, že benchmarky nejsou jen akademická zábava. EU AI Act, který vstoupil v platnost v roce 2024 a jehož požadavky se postupně zavádějí, vyžaduje měřitelné hodnocení výkonnosti AI systémů, zejména u vysoce rizikových aplikací. Benchmarky se tak stávají i regulatorní nutností.

V českém prostředí stojí za pozornost Czech AI Factory v Ostravě, která se má stát národním uzlem evropské sítě AI továren. Právě taková centra budou v budoucnu poskytovat nezávislé testování AI modelů podle standardizovaných benchmarků – což je klíčové pro firmy, které potřebují prokázat soulad s evropskou regulací.

A jedna zajímavost na závěr: většina hlavních benchmarků dnes testuje modely primárně v angličtině. Pro češtinu existuje jen hrstka specializovaných testů – například překladové benchmarky WMT nebo specifické úlohy v rámci MMMLU. To znamená, že skóre, která vidíte v tabulkách, nemusí plně odpovídat výkonu modelu v češtině. Při výběru AI pro český trh se vyplatí modely otestovat na vlastních datech.

Jak často se benchmarky aktualizují a nezastarávají?

Některé benchmarky jako MMLU vznikly v roce 2020 a dnes jsou prakticky „vyřešené" – špičkové modely na nich dosahují přes 90 %. Výzkumná komunita proto vytváří těžší verze (MMLU-Pro) nebo zcela nové benchmarky (Humanity's Last Exam). Obecně platí, že životnost kvalitního benchmarku je 2–3 roky, než ho modely přerostou. Přední laboratoře jako Vellum AI a LMSYS aktualizují své leaderboardy průběžně – Vellum naposledy 23. dubna 2026.

Mohu si výkon AI modelu otestovat sám?

Ano. Pokud máte technické znalosti, můžete použít open-source evaluační frameworky jako lm-evaluation-harness od EleutherAI nebo HELM od Stanford CRFM. Pro běžného uživatele je nejjednodušší cestou LMSYS Chatbot Arena (chat.lmsys.org), kde můžete zdarma porovnat odpovědi dvou anonymních modelů a svým hlasováním přispět k živému žebříčku. Pro firmy pak existují komerční evaluační platformy jako Vellum, které testují modely na vlastních datech zákazníka.

Proč některé starší modely (např. Claude 3 Opus) stále vedou v GPQA Diamond?

To je jedna z velkých záhad AI benchmarků. Claude 3 Opus, vydaný v březnu 2024, dosáhl na GPQA Diamond 95,4 % – a žádný novější model ho dosud nepřekonal. Odborníci spekulují, že to může být dáno specifickým tréninkovým přístupem Anthropicu (důraz na bezpečnost a přesnost), nebo tím, že novější modely se více zaměřují na jiné oblasti (kódování, agentní chování). Může jít ale i o prostou náhodu – GPQA Diamond má „jen" několik set otázek a statistická odchylka hraje roli.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.