Proč i GPT-5 selhává v jednoduchých úlohách? Test pozornosti odhalil zásadní slabinu AI

14. 6. 2026 Daniel Česák

  Nová vědecká studie odhalila, že i ty nejvyspělejší jazykové modely, včetně očekávaného GPT-5, trpí fundamentální slabinou v oblasti pozornosti. Zatímco lidský mozek dokáže udržet soustředění na komplexní instrukce i při přítomnosti rušivých elementů, systémy založené na architektuře Transformer vykazují u delších úloh dramatický kolaps výkonu. Tento fenomén, odhalený pomocí klasického psychologického Stroopova testu, staví do otázky spolehlivost AI při zpracovávání dlouhých a náročných dokumentů.

V oblasti vývoje umělé inteligence jsme si zvykli měřit úspěch modelů pomocí matematických benchmarků, schopností programování nebo logického uvažování. Nicméně, jak ukazuje nedávný výzkum vedený vědcem Suketem Patlem, existuje oblast, kde se AI stále drasticky vzdává lidské kognice: exekutivní kontrola a schopnost potlačit automatické reakce.

Co je to Stroopův test a proč je pro AI problematický?

Pro laiky může Stroopova úloha znít jako nesmysl, ale v psychologii jde o zlatý standard pro měření pozornosti. Představte si, že vidíte slovo „MODRÁ“, ale je napsané červenou barvou. Vaším úkolem není přečíst slovo, ale pojmenovat barvu inkoustu. Pro člověka je to snadné, byť vyžaduje určitou mentální snahu, abychom přemohli automatický impuls čtení.

Tento proces vyžaduje tzv. exekutivní kontrolu — schopnost mozku zaměřit se na cíl a ignorovat distraktor (v tomto případě význam slova). Výzkumy publikované v PNAS Nexus ukazují, že u velkých jazykových modelů (LLM) tento mechanismus selhává právě tam, kde by měl být nejsilnější.

Analýza výkonu: Od excelence k totálnímu kolapsu

Výzkumníci testovali špičkové modely, které jsou dnes dostupné nebo na pokraji uvedení. Zde je srovnání jejich schopností při řešení Stroopovy úlohy podle délky seznamu slov:

GPT-4o (OpenAI): Při krátkém seznamu 5 slov dosáhl úžasných 91% přesnosti. Jakmile však počet slov vzrostl na 10, přesnost klesla na 57 %. U seznamu o 40 slovech se model prakticky zhroutil na pouhých 15 %.
Claude 3.5 Sonnet (Anthropic): Tento model vykazoval vyšší odolnost v mezifázi, ale i on při 40 slovech klesl na 24 % přesnosti.
Gemini 2.5 (Google): Vykazoval podobný trend degradace výkonu v závislosti na délce kontextu.

Zajímavé je, že u mixovaných seznamů (kde se barvy a slova střídají) klesla přesnost u všech testovaných modelů téměř na nulu. To znamená, že modely zcela ztratily schopnost udržet si zadání a začaly jednoduše "číst" text, místo aby plnily instrukci o barvě.

Srovnání s konkurencí a technické pozadí

Proč se to děje? Odpověď leží v samotné architektuře Transformerů. Zatímco lidská pozornost je biologicky řízena procesy, které dokážou aktivně potlačit irelevantní informace, mechanismus "attention" u AI funguje na principu statistické pravděpodobnosti vztahů mezi tokeny (částmi slov).

Pro modely jako GPT-5 nebo Claude Opus 4.1 je textový význam slova tak silným signálem, že při delším zpracování "přehluší" instrukci o barvě. Je to v podstatě chyba v prioritizaci informací: model se příliš soustředí na to, co čte, a zapomíná na to, co má dělat.

Praktický dopad: Co to znamená pro firmy a uživatele v ČR?

Tento nález není jen akademickou zajímavostí. Má přímé důsledky pro každého, kdo využívá AI v profesionální sféře, zejména v českém prostředí, kde se stále více firem integruje do procesů pomocí API.

1. Riziko při analýze dlouhých dokumentů

Pokud delegujete na AI analýzu dlouhé smlouvy nebo technické dokumentace (např. v rámci EU regulací a snahy o automatizaci právních služeb), musíte mít na paměti, že model může při delším kontextu "ztratit nit". Může dojít k situaci, kdy AI ignoruje specifickou podmínku (např. "ignoruj všechna ustanovení týkající se platby v EUR") a začne reagovat podle automatického vzorce, který vidí v textu.

2. Spolehlivost v češtině

Ačkoliv jsou modely jako GPT-4o nebo Claude 3.5 Sonnet velmi schopné v češtině, jejich kognitivní omezení je nezávislé na jazyce. Pro českého uživatele to znamená, že při práci s dlouhými českými texty nelze mít AI jako jediného arbitra. Je nutné používat techniky jako "Chain of Thought" (nucení modelu přemýšlet krok za krokem) nebo rozdělovat úkoly na menší fragmenty.

3. Cena a dostupnost

Pro profesionální nasazení v ČR jsou tyto modely dostupné přes předplatné nebo API:

OpenAI (ChatGPT Plus): cca 20 USD/měsíc (cca 470 Kč).
Anthropic (Claude Pro): cca 20 USD/měsíc (cca 470 Kč).
Google (Gemini Advanced): cca 20 EUR/měsíc (cca 500 Kč).

Většina těchto služeb je v ČR plně dostupná, ale pro firmy je klíčové sledovat shodu s EU AI Act, který klade důraz právě na transparentnost a spolehlivost systémů vysokého rizika.

Závěr: Není to konec, ale varování

Výsledek testu není známkou toho, že by AI byla "hloupá". Ukazuje spíše, že její způsob zpracování informací je funderalem odlišný od lidského. Pro vývojáře a uživatele to znamená, že cesta k skutečné autonomní AI musí zahrnovat vývoj nových architektur, které dokážou simulovat lidskou schopnost exekutivní kontroly a selektivního ignorování podnětů.

Může tento problém vyřešit lepší promptování (např. "Důrazně se soustřeď na barvu")?

Částečně ano. Techniky jako Chain of Thought nebo explicitní opakování instrukce v každém kroku mohou pomoci, ale výzkum naznačuje, že jde o strukturální omezení architektury Transformerů. Při dostatečně dlouhém textu se model pravděpodobně stále vrátí k automatickému čtení.

Ovlivňuje to češtinu více než angličtinu?

Samotný mechanismus pozornosti je v jádru jazykově neutrální, ale vzhledem k tomu, že čeština má složitější morfologii a vyžaduje více tokenů pro vyjádření stejného významu než angličtina, může se u nás "kolaps výkonu" projevit dříve při stejném počtu slov.

Je to problém pro modely s obrovským kontextovým oknem (např. Gemini)?

Ano, a je to paradoxně ještě problematičtější. Velké kontextové okno umožňuje modelu "vidět" více informací najednou, ale pokud model nemá schopnost exekutivní kontroly, toto množství dat může zvýšit šanci na to, že se model ztratí v nejdůležitějších instrukcích.