Claude Opus 4.8 od Anthropicu poráží GPT-5.5 na benchmarcích: Zvládá agenty a umí přiznat chybu

2. 6. 2026 Daniel Česák

  Anthropic právě vydal Claude Opus 4.8 — další iteraci svého nejsilnějšího modelu — a poprvé ho staví do pozice lídra napříč benchmarcky, kde systematicky poráží GPT-5.5 od OpenAI. Novinka ale není jen o syrovém výkonu. Opus 4.8 přináší posun, který vývojáři i firmy ocení možná ještě víc: umí přiznat, že si něčím není jistý. A v éře agentní AI, kdy modely rozhodují samostatně, je právě tahle vlastnost zásadnější než další procento v benchmarku.

Co Claude Opus 4.8 umí — a kde poráží GPT-5.5

Anthropic model představil 28. května 2026 jako přímou odpověď na květnové vydání GPT-5.5 od OpenAI. Podle oficiálního oznámení na webu Anthropicu jde o hybridní reasoning model s miliontokenovým kontextovým oknem, který staví na architektuře Opus 4.7, ale přidává znatelně lepší výkon v programování, agentních úlohách a profesionální znalostní práci.

Klíčová čísla z benchmarků mluví jasně. V Terminal-Bench 2.1 dosahuje Opus 4.8 skóre 80,6 %, při použití standardního testovacího prostředí Terminus-2. GPT-5.5 zde při stejném nastavení dosahuje nižší hodnoty (OpenAI reportuje 83,4 %, ale pouze s vlastním prostředím Codex CLI). V OSWorld-Verified, testu simulujícím práci s operačním systémem, získává Opus 4.8 84,3 % — skok oproti 82,3 % u Opus 4.7.

V testu Online-Mind2Web, který měří schopnost modelu ovládat prohlížeč a webové aplikace, získal Opus 4.8 84 % — podle slov Miguela Gonzaleze, tech leada v Browserbase, jde o „největší skok“ oproti Opus 4.7 i GPT-5.5. V Finance Agent v2 pak Claude dosáhl 83,6 % (pro srovnání: Gemini 3.5 Flash má 57,9 %).

Srovnání s předchozí generací

Oproti Opus 4.7, který přišel v dubnu 2026, je posun znatelný především v konzistenci. Zatímco Opus 4.7 trpěl občasnou „upovídaností“ v komentářích ke kódu a nepřesným voláním nástrojů, verze 4.8 tyto problémy podle svědectví Scotta Wu ze startupu Cognition (tvůrce Devin) odstraňuje. „Opus 4.8 používá nástroje čistě a řídí se instrukcemi s konzistencí, kterou naše autonomní inženýrské workflow potřebují,“ uvedl Wu.

Agentní AI s lepším úsudkem: Proč na tom záleží

Největší kvalitativní posun u Opus 4.8 nespočívá v syrovém výkonu, ale v tom, jak model komunikuje vlastní nejistotu. Anthropic uvádí, že Opus 4.8 je přibližně čtyřikrát méně pravděpodobné, že nechá projít chybu v kódu bez komentáře. Tým pro bezpečnost (Alignment) konstatoval, že model „dosahuje nových maxim v prosociálních rysech, jako je podpora autonomie uživatele a jednání v jeho nejlepším zájmu“.

V praxi to znamená, že když si Claude není jistý řešením, řekne to — místo aby „halucinoval“ sebevědomou, ale chybnou odpovědí. Pro firmy nasazující AI agenty do produkce jde o zásadní parametr. „Největším rozdílem byla tendence Opus 4.8 proaktivně upozorňovat na problémy se vstupy a výstupy analýzy — něco, co jiné modely rutinně přehlížely,“ popsal Michael Ran z investiční společnosti, která model testovala na dlouhých analytických úlohách.

Tom Pritchard, staff engineer v Anthropicu, to shrnul: „V Claude Code klade ty správné otázky, zachytí vlastní chyby a umí říct ne, když plán nedává smysl.“

Nové funkce: Dynamické workflow a kontrola úsilí

Spolu s modelem Anthropic spouští několik novinek. Tou nejzajímavější je Dynamic Workflows v Claude Code — funkce, která umožňuje modelu rozplánovat velký úkol a následně spustit stovky paralelních sub-agentů v jediné relaci. Ti pak pracují samostatně, Claude jejich výstupy ověří a reportuje výsledek. V praxi to znamená, že Claude Code s Opus 4.8 zvládne například migraci kódové báze napříč stovkami tisíc řádků od začátku až po merge.

Druhou novinkou je kontrola „úsilí“ (effort control) přímo v rozhraní claude.ai a Claude Cowork. Uživatel si může zvolit, kolik výpočetního času a tokenů chce modelu věnovat. Na vyšší nastavení Claude déle přemýšlí a vrací propracovanější odpovědi, na nižší zase odpovídá rychleji a šetří limity. Pro běžné uživatele je to praktické: na jednoduchý dotaz stačí základní úroveň, na složitou analýzu přepnete na „extra“ nebo „max“.

Pro vývojáře přibyla i možnost vkládat systémové instrukce přímo do message pole API, což umožňuje upravovat instrukce modelu za běhu bez narušení prompt cache.

Cena a dostupnost: Kolik to stojí a jak je na tom Česko

Anthropic drží cenu beze změny oproti Opus 4.7: 5 dolarů za milion vstupních tokenů a 25 dolarů za milion výstupních. Rychlý režim (fast mode), kdy model běží 2,5× rychleji, nově stojí 10 dolarů za milion vstupních a 50 za milion výstupních tokenů — to je oproti předchozím modelům třikrát levnější.

Pro koncové uživatele je Opus 4.8 k dispozici v předplatném Pro za 20 dolarů měsíčně (při roční platbě 17 dolarů), v Max plánu od 100 dolarů a ve firemních tarifech Team a Enterprise. Česká republika je na oficiálním seznamu podporovaných zemí — Claude je u nás dostupný jak přes API, tak přes webové rozhraní claude.ai.

Anthropic zároveň potvrdil, že pracuje na levnějších modelech se schopnostmi blízkými Opus — a také na vydání Mythos-class modelů, které představují další výkonnostní úroveň. Tyto modely už nyní testuje několik organizací v rámci Project Glasswing a podle vyjádření firmy by se k širší veřejnosti měly dostat „v následujících týdnech“.

Co to znamená: Souboj Anthropic vs. OpenAI se vyostřuje

Vydání Opus 4.8 přichází v době, kdy Anthropic předběhl OpenAI v tržní valuaci — s 965 miliardami dolarů po posledním kole financování Series H je aktuálně nejhodnotnějším AI startupem na světě. Zároveň firma podala důvěrnou žádost o IPO (draft S-1), což naznačuje brzký vstup na burzu.

Pro české vývojáře a firmy tahle rivalita znamená jediné: tlak na kvalitu i cenu. Jestliže ještě před rokem byl souboj GPT vs. Claude spíše akademickou debatou, dnes jde o praktické rozhodování — který model použít pro firemní agenty, který pro vývoj kódu a který pro komunikaci se zákazníky.

Opus 4.8 ukazuje, že Anthropic sází na kvalitu rozhodování, ne jen na syrovou inteligenci. Model, který sám odhalí vlastní chybu, je pro agentní workflow — kde AI pracuje hodiny bez lidského dohledu — mnohem cennější než model, který je o procento lepší v testu, ale mlčky selže.

A právě tady leží hlavní příběh Opus 4.8. Není to jen další iterace. Je to model, který poprvé staví poctivost na úroveň výkonu — a tím mění pravidla hry.

Musím kvůli Opus 4.8 platit víc? Zdražilo se předplatné?

Ne, ceny zůstávají stejné jako u Opus 4.7. API stojí 5 USD za milion vstupních a 25 USD za milion výstupních tokenů. Předplatné Pro zůstává na 20 dolarech měsíčně, Max od 100 dolarů. Fast mode je dokonce třikrát levnější než dřív.

Podporuje Claude Opus 4.8 češtinu a jak dobře ji zvládá?

Ano, Claude modely dlouhodobě podporují češtinu na velmi dobré úrovni. Anthropic češtinu oficiálně neuvádí mezi primárními jazyky, ale v praxi model komunikuje česky plynule, rozumí českým reáliím a zvládá i odbornou terminologii. Česká republika je navíc na oficiálním seznamu podporovaných zemí.

Kdy bude dostupný Claude Mythos pro běžné uživatele?

Anthropic uvádí, že Mythos-class modely by se měly dostat k širší veřejnosti „v následujících týdnech“. Aktuálně je testuje několik desítek organizací v rámci Project Glasswing, především na kyberbezpečnostní úlohy. Přesné datum veřejného vydání zatím nebylo oznámeno.