Iracionalita v AI: Proč GPT-5.5 a DeepSeek-V4 selhávají, i když znají správnou odpověď

23. 6. 2026 Daniel Česák

  I když jazykové modely jako GPT-5.5 nebo DeepSeek-V4 „znají" správnou odpověď — je mezi jejich vygenerovanými kandidáty — často ji nevyberou. Vědci z Univerzity v Edinburghu tento jev matematicky popsali jako racionální hodnotové riziko (rational value risk) a ukázali, že jde o samostatný problém, který samotný alignment nevyřeší. Jinými slovy: iracionalita v uvažování AI existuje nezávisle na tom, jak dobře je model sladěn s lidskými hodnotami.

Co je racionální hodnotové riziko a proč na něm záleží

Výzkumníci Kejiang Qian a Fengxiang He z Univerzity v Edinburghu ve své studii In LLM Reasoning, there is Irrationality on top of Value Misalignment (publikované 26. května 2026) zavádějí pojem rational value risk (RVR) — metrika, která měří rozdíl mezi tím, jak dobře by model mohl odpovídat (kdyby vybral nejlepší ze svých vygenerovaných odpovědí), a tím, jak ve skutečnosti odpovídá.

Jde o zásadní rozlišení. Dosud se většina pozornosti věnovala value alignmentu — tedy tomu, aby model vůbec "chtěl" dávat správné a bezpečné odpovědi. Metody jako RLHF (reinforcement learning from human feedback), DPO (direct preference optimization) nebo RLVR (reinforcement learning with verifiable rewards) se soustředí na to, aby model během tréninku internalizoval správné hodnoty. Studie z Edinburghu ale ukazuje, že i perfektně sladěný model může v okamžiku uvažování selhat — prostě nevybere tu nejlepší odpověď, kterou sám vygeneroval.

Jak vědci iracionalitu měřili

Autoři testovali modely napříč velikostmi i výrobci: od open-source rodin Llama-3.1, Qwen-2.5 a Tülu-3 (7–72 miliard parametrů) až po komerční špičku včetně GPT-5.2, GPT-5.5 a DeepSeek-V4. Testování probíhalo na šesti benchmarcích — od konverzačních úloh (UltraFeedback, AlpacaEval) přes matematické uvažování (GSM8K, MATH, MathArena) až po generování kódu (HumanEval).

Princip měření je elegantní: pro každý prompt se vygeneruje K = 64 kandidátních odpovědí (při teplotě 1.0). Racionální odpověď je ta s nejvyšší užitkovou hodnotou — u matematických úloh je to prostě správná odpověď, u konverzačních úloh ta, kterou preferuje verifikátor. RVR pak měří, o kolik je skutečně nasazená strategie horší než tato "orákulární" volba.

Čtyři hypotézy, které experimenty potvrdily

H1: Racionální hodnotové riziko je všudypřítomné

Napříč všemi modely a benchmarky vědci zjistili, že RVR je systematicky větší než nula. U menších modelů (7–8B parametrů) dosahuje na konverzačních úlohách hodnot 0,30–0,49, u matematických úloh 0,08–0,48. I největší testovaný model — Qwen2.5-72B-Instruct — vykazuje RVR 0,01–0,20 v závislosti na benchmarku.

Přeloženo do lidské řeči: modely konzistentně nechávají lepší odpovědi ležet na stole. Vygenerují je, ale nevyberou.

H2: Alignment snižuje, ale neeliminuje iracionalitu

Jedno z nejzajímavějších zjištění přináší srovnání modelů Tülu-3 ve třech fázích tréninku: SFT → DPO → RLVR. Na benchmarku GSM8K kleslo RVR z 0,40 (SFT) přes 0,13 (DPO) na 0,12 (RLVR). Na AlpacaEval z 0,49 na 0,09. Alignment tedy dramaticky pomáhá — ale nikdy nedosáhne nuly.

Jinými slovy: i po nejpokročilejším alignmentu zůstává v modelu "zbytková iracionalita", kterou tréninkové metody neodstraní.

H3: Iracionalita je extrémně citlivá na inferenční strategii

Stejný zmrazený model se chová různě racionálně v závislosti na teplotě samplování, použití self-consistency (většinového hlasování) a dalších parametrech inference. To znamená, že racionalita není jen vlastností modelu — je to vlastnost celého inferenčního pipeline. Pro firmy, které nasazují LLM do produkce, z toho plyne praktická lekce: optimalizace inferenční strategie může být stejně důležitá jako výběr modelu.

H4: Delší uvažování pomáhá, ale s klesajícími výnosy

Více tokenů při generování odpovědi zlepšuje racionalitu — model má víc "času na přemýšlení". Efekt se ale po určité délce vyčerpává. To potvrzuje zkušenost mnoha vývojářů, že donekonečna prodlužovat reasoning chain nepřináší odpovídající zlepšení.

MathArena: Kde selhává i GPT-5.5

Zvláštní pozornost si zaslouží benchmark MathArena — sada obtížných matematických úloh, které byly zveřejněny až po natrénování testovaných modelů. Jde tedy o čistý test generalizace bez rizika kontaminace trénovacích dat.

Na MathAreně vědci rozložili celkovou ztrátu užitku na dvě složky: misalignment (model vůbec nevygeneruje správnou odpověď) a iracionalitu (model ji vygeneruje, ale nevybere). Výsledky jsou pozoruhodné:

GPT-5.2: 70,6 % ztráty užitku jde na vrub iracionalitě, ne misalignmentu
DeepSeek-V4-Flash: 63,7 % ztráty je iracionalita
GPT-5.5: 57,5 % ztráty je iracionalita
Qwen2.5-72B: 38,8 % ztráty je iracionalita

Tato čísla jsou klíčová: ukazují, že u nejvýkonnějších modelů už není hlavním problémem to, že by neznaly odpověď — ale to, že si ji neumějí vybrat.

Co to znamená pro praxi

Pro vývojáře a firmy, které dnes nasazují velké jazykové modely — ať už jde o české startupy používající ChatGPT API, nebo korporace hostující vlastní instance Llama nebo Qwen — z výzkumu plynou konkrétní ponaučení:

Samotný alignment nestačí. I když použijete nejlépe sladěný model na trhu, stále potřebujete mechanismy, které na úrovni inference zajistí, že model vybere tu nejlepší odpověď. Techniky jako self-consistency (generování více odpovědí a výběr většinové), best-of-N sampling nebo verifier-guided decoding se tak stávají nezbytnou součástí produkčního nasazení.

Větší modely jsou racionálnější. Data jasně ukazují, že s rostoucí velikostí modelu klesá RVR. Qwen2.5-72B má na většině benchmarků výrazně nižší RVR než jeho 7B varianta. To je argument pro nasazování větších modelů tam, kde na kvalitě uvažování záleží nejvíc — například v právních, medicínských nebo finančních aplikacích.

Evropský kontext. Výzkum z Univerzity v Edinburghu je evropskou stopou v debatě, které dominují americké a čínské laboratoře. Kód je navíc open-source na GitHubu, takže ho mohou využít i čeští výzkumníci a firmy k otestování vlastních modelů. Pro české prostředí, kde se AI teprve dostává do širšího povědomí, jde o cenný příspěvek k pochopení limitů současných systémů.

Jaký je rozdíl mezi misalignmentem a iracionalitou v AI modelech?

Misalignment znamená, že model během tréninku nezískal správné "hodnoty" — jeho vnitřní hodnotová funkce není v souladu s tím, co od něj očekáváme. Iracionalita je naproti tomu selhání při samotném uvažování: model sice má k dispozici správnou odpověď (vygeneroval ji mezi svými kandidáty), ale z nějakého důvodu ji nevybere jako finální výstup. Studie z Edinburghu ukazuje, že i perfektně sladěný model může trpět iracionalitou.

Dá se iracionalita AI modelů úplně odstranit?

Podle současných poznatků zatím ne. Výzkumníci ukázali, že pokročilé metody alignmentu jako DPO a RLVR sice racionální hodnotové riziko výrazně snižují (například z 0,40 na 0,12 u matematických úloh), nikdy ho ale nedostanou na nulu. Zároveň se ukazuje, že techniky na úrovni inference — jako self-consistency nebo best-of-N sampling — mohou iracionalitu dále potlačit. Jde tedy spíš o kontinuální optimalizaci než o binární problém.

Týká se tento problém i menších modelů, které běží lokálně?

Ano, a u menších modelů je RVR typicky ještě vyšší. Výzkum testoval i 7–8B modely jako Llama-3.1-8B a Qwen2.5-7B, u kterých byla iracionalita nejvýraznější. Pro uživatele, kteří provozují AI lokálně na vlastním hardwaru — například modely z rodiny Llama nebo Qwen na spotřebitelských GPU — to znamená, že by měli věnovat zvláštní pozornost inferenční strategii, protože menší modely "zahazují" správné odpovědi častěji než jejich větší sourozenci.