Přejít k hlavnímu obsahu

Claude Opus 4.8 neprošel testem právní upřímnosti. V programování exceluje, v právu selhává

Ilustrační obrázek pro jarvis-ai.cz
Anthropic vydal Claude Opus 4.8 s velkými sliby o „upřímnosti“ — model měl lépe přiznávat vlastní nejistotu a méně si vymýšlet. Nezávislý test ale ukázal pravý opak: v právních scénářích nový model selhává víc než jeho předchůdce. Zatímco v programování a medicíně si polepšil, u právnických dotazů narazil na zeď. Pro firmy, které chtějí AI nasadit na smlouvy a compliance, je to varovný signál.

Desetikolový test odhalil Achillovu patu

Nezávislé testování zveřejněné 3. června 2026 podrobilo modely Claude Opus 4.8 a 4.7 identickým scénářům napříč čtyřmi profesními oblastmi: programování, medicína, finance a právo. Cílem bylo zjistit, jak často si modely vymýšlejí informace (halucinují) a zda přiznají vlastní limity, když odpověď neznají.

Výsledek? V kódování a zdravotnických dotazech si Opus 4.8 vedl stejně dobře nebo lépe než verze 4.7. Jenže u právnických otázek přišel zlom — novější model vykazoval více chyb a méně často signalizoval nejistotu. Jinými slovy: tam, kde by měl říct „tím si nejsem jistý“, raději odpověděl — a často špatně.

Testovací metodika výsledky křížově ověřovala s výstupy dalších AI systémů, aby odlišila chyby specifické pro Claude od obecných limitů jazykových modelů. Selhání se tedy týkají přímo architektury Opus 4.8, nikoliv celého oboru.

Paradox upřímnosti: Anthropic sliboval opak

Když Anthropic 28. května 2026 Claude Opus 4.8 uváděl, „upřímnost“ byla hlavním marketingovým tahákem. Firma tvrdila, že model je „přibližně 4× méně pravděpodobné, že nechá projít chyby v kódu bez povšimnutí“ a že „častěji upozorní na nejistoty ve své práci“. CEO Dario Amodei opakovaně zdůrazňoval, že Claude je bezpečnější alternativou ke konkurenčním modelům od OpenAI a Googlu.

Jenže výsledky právního testu vykreslují jiný obrázek. Model, který má být upřímnější, v právu selhává víc než jeho předchůdce. To je problém nejen technický, ale i reputační — Anthropic postavil svou značku na principu „constitutional AI“ a bezpečnosti. Pokud nezávislé testy ukazují regresi v oblasti, kde je přesnost kritická, důvěryhodnost celé mise dostává trhliny.

Proč zrovna právo? Specifika právního uvažování

Právní doména je pro jazykové modely mimořádně náročná. Zatímco u programování je chyba binární (kód buď funguje, nebo ne) a u medicíny existují relativně pevné diagnostické stromy, právní analýza vyžaduje vážení precedentů, jurisdikčně specifických pravidel a kontextové interpretace. Nejde o to znát paragraf — jde o to chápat, který paragraf použít v konkrétní situaci a jak interaguje s dalšími normami.

Odborníci spekulují, že Claude Opus 4.8 mohl být optimalizován pro určité typy úloh (například agentní kódování, kde dosáhl na SWE-Bench Pro skóre 69,2 %), ale za cenu degradace schopností v jiných oblastech. Tento fenomén — kdy vylepšení výkonu v jedné sadě benchmarků oslabí jiné — je v LLM vývoji známým problémem. Setkala se s ním například Meta při ladění modelů Llama.

Co to znamená pro firmy a právní oddělení

Pro podniky, které zvažují nasazení AI pro due diligence, kontrolu smluv, přípravu regulatorních podání nebo analýzu doložek, představují tato zjištění zásadní komplikaci. Regrese mezi verzemi — tedy že novější model nezvládá to, co starší uměl — podkopává důvěru v konzistentní výkon napříč aktualizacemi.

Pokud verze 4.8 selhává v právních dotazech, které 4.7 zvládala, jakou záruku má firma, že verze 4.9 nepřinese další regrese? Pro právní oddělení firem z žebříčku Fortune 500, která AI postupně testují, je to zásadní otázka pro výpočet rizik.

V evropském kontextu je situace ještě citlivější. EU AI Act klasifikuje použití AI v právních a regulatorních kontextech jako vysoce rizikové. Nasazení modelu, který má zdokumentované selhání v právní doméně, by mohlo znamenat regulatorní postih. Pro české advokátní kanceláře a firemní právní týmy, které o nasazení AI uvažují, to znamená: testujte na vlastních datech, nespoléhejte na obecné benchmarky.

Anthropic zatím mlčí — a to je problém

Klíčovou neznámou zůstává, jak na výsledky nezávislého testu Anthropic zareaguje. Společnost zatím nevydala žádné oficiální vyjádření k právnímu selhání Opus 4.8. Transparentní vysvětlení, co se mezi verzemi 4.7 a 4.8 změnilo, by důvěru posílilo. Mlčení naopak vyvolává spekulace, že bezpečnostní rétorika nezabránila stejnému „ořezávání rohů“, jaké trápí konkurenci.

Pro srovnání: OpenAI u svých modelů zveřejňuje podrobné systémové karty (system cards) s výsledky nezávislých auditů. Google podobně publikuje detailní benchmarky napříč doménami. Pokud chce Anthropic zůstat lídrem v oblasti bezpečné AI, podobná transparentnost by měla být samozřejmostí.

Širší poučení: benchmarky versus realita

Případ Claude Opus 4.8 ilustruje zásadní problém celého AI průmyslu: akademické benchmarky nevypovídají o reálném nasazení. Model může excelovat v abstraktních testech uvažování, ale pokud selže v praktickém právním scénáři, skóre z benchmarků je k ničemu. Pro nákupčí v enterprise sektoru je klíčové doménově specifické testování — a právě to u Opus 4.8 odhalilo problém, který by jinak zůstal skrytý.

Není také jasné, zda se selhání týká všech typů právního uvažování, nebo jen specifických subdomén. Interpretace smluv se liší od analýzy deliktního práva a ta zase od regulatorního compliance. Detailní rozpis selhání by firmám pomohl mapovat bezpečné případy užití. Bez něj zůstáváme u obecných varování, která mohou být přehnaná — nebo naopak nedostatečná.

Je Claude Opus 4.8 bezpečný pro běžné používání, i když selhává v právních testech?

Pro většinu běžných úloh — psaní textů, analýzu dat, programování — je Opus 4.8 plně použitelný a v mnoha ohledech lepší než předchozí verze. Problém se týká specificky právní domény. Pokud nejste právník a nepoužíváte model pro právní analýzu, selhání se vás pravděpodobně netýká.

Jak si Claude Opus 4.8 stojí v ceně oproti konkurenci?

Ceny API zůstaly stejné jako u Opus 4.7: 5 dolarů za milion vstupních tokenů a 25 dolarů za milion výstupních tokenů. Pro srovnání: GPT-5.5 od OpenAI stojí 15 dolarů za milion vstupních a 75 dolarů za milion výstupních tokenů — Claude je tedy zhruba třetinový. Podle analýzy Artificial Analysis navíc Opus 4.8 potřebuje o 35 % méně výstupních tokenů než verze 4.7, takže reálné náklady mohou být ještě nižší.

Může si česká firma Claude Opus 4.8 vyzkoušet, než ho nasadí do ostrého provozu?

Ano. Claude je k dispozici přes webové rozhraní claude.ai s bezplatným tarifem (omezený počet dotazů denně) i přes API. Pro firemní testování doporučujeme tarif Team (30 USD/měsíc/uživatel) nebo Enterprise. V češtině Claude komunikuje obstojně, ale pro právní texty doporučujeme pracovat v jazyce, ve kterém jsou psány zdrojové dokumenty — typicky v angličtině nebo češtině. Pro jakékoliv právní nasazení je ale nutné výstupy vždy kontrolovat odborníkem.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.