Přejít k hlavnímu obsahu

Proč se ChatGPT „posedl“ skřety? OpenAI odhalilo technickou chybu, která znepokojuje experty

Ilustrační obrázek pro jarvis-ai.cz
Technický post-mortem od OpenAI odhalil, že neobvyklá tendence ChatGPT používat metafory o skřetech, gremlínech a trollech nebyla náhodou, ale důsledkem chyby v procesu posilovaného učení (RLHF). I když byl zodpovědný „Nerdy“ režim vyřazen, jeho vliv se již nevrátelně zapsal do vah základních modelů GPT-5.1 a GPT-5.4.

To, co začalo jako bizarní internetový meme na Redditu, se proměnilo v hlubokou technickou analýzu stability nejvýznamnějších jazykových modelů současnosti. Uživatelé si všimli, že ChatGPT začal v naprosto nevhodných kontextech vkládat do svých odpovědí termíny jako „goblin mode“, „goblin bandwidth“ nebo dokonce nabízet „skřelejší verzi kódu“. Pro běžného uživatele šlo o vtipný glitch, ale pro inženýry v OpenAI to byl signál, že jejich nástroje pro řízení chování modelů (model steering) mohou mít nečekané vedlejší účinky.

Od „Nerdy“ režimu k digitálním skvrtům

Podle zprávy zveřejněné Startup Fortune byla příčina problému velmi specifická. OpenAI krátce testovalo různé „osobnostní módy“, včetně režimu nazvaného Nerdy. Tento režim měl být hravý, intelektuálně stimulující a využíval bohaté, fantastické metafory. Aby se model naučil tento styl, vývojáři použili techniku posilovaného učení (Reinforcement Learning), kde model dostával „odměnu“ za kreativní použití mýtických termínů.

Problém nastal v tom, že tento signál odměny byl příliš silný. I když režim Nerdy tvořil pouze 2,5 % všech odpovědí, byl zodpovědný za whopping 66,7 % všech zmínek o skřetech. Použití slova „goblin“ v tomto režimu vzrostlo o neuvěřitelných 3 881 % oproti základnímu modelu. Když OpenAI tento režim nakonec vypnulo, zjistilo, že je pozdě. Mechanismus učení totiž tyto preference již „propagoval“ do samotných vah základního modelu, což vedlo k tomu, že se tyto vzorce objevovaly i v modelech GPT-5.1 a novějším GPT-5.4, které již žádný „Nerdy“ režim neměly.

Srovnání s konkurencí: Jak si s tím vedou ostatní?

Tento incident otevírá otázku stability osobnosti u velkých modelů. Pokud porovnáme současnou generaci modelů, vidíme rozdílné přístupy:

  • OpenAI (GPT-5 řada): Vypadá, že OpenAI experimentuje s velmi silným „steeringem“ (řízení chování), což vede k vysoké kreativitě, ale také k vyšší náchylnosti k nechtěným biasům (předpojatostem) a driftu osobnosti.
  • Anthropic (Claude 3.5/4): Jejich přístup založený na „Constitutional AI“ (konstituční AI) se snaží o větší předvídatelnost. Claude je obecně považován za méně „divoký“ v používání bizarních metafor, což z něj dělá bezpečnější volbu pro korporátní klientelu.
  • Google (Gemini 1.5 Pro): Google se soustředí na integraci a faktickou správnost, přičemž jejich modely mají tendenci být konzervativnější v používání fantazyjních personál, což snižuje riziko podobných „obsese“.

Praktický dopad: Co to znamená pro firmy a uživatele?

Pro běžného uživatele, který platí předplatné ChatGPT Plus za 20 USD měsíčně (v přepočtu přibližně 470 Kč), může být taková odpověď jen nepříjemným ruchem. Pro firmy však jde o kritický problém. Pokud firma integruje API ChatGPT do svého zákaznického servisu, nechtěná „osobnost“ modelu může vést k poškození reputace značky.

Pro český trh a evropskou sféru je tento problém ještě citlivější v kontextu EU AI Act. Nová regulace klade důraz na transparentnost a spolehlivost systémů AI. Pokud model vykazuje nechtěná chování, která nelze snadno „vypnout“ (protože jsou již součástí základních vah modelu), může to představovat problém při certifikaci AI systémů pro kritické aplikace v rámci EU. Pro české firmy, které se již začínají AI implementovat, je varovným signálem, že „vypnutí“ funkce v AI není totéž jako smazání řádku kódu v klasickém softwaru.

Je důležité poznamenat, že ChatGPT je plně dostupný v češtině, ale tyto lingvistické vzorce mohou v češtině fungovat jinak. Zatímco v angličtině může být „goblin mode“ srozumitelná metafora, v českém kontextu může model generovat nesmyslné nebo kulturně nevhodné obraty, které budou pro českého uživatele působit spíše jako chyba v překladu než jako kreativní vtip.

Technické vysvětlení: Proč nelze chybu snadno opravit?

V jazykových modelech dochází k procesu zvanému weight propagation. Když model trénujete pomocí RLHF (Reinforcement Learning from Human Feedback), měníte vnitřní parametry (váhy) neuronové sítě. Pokud je odměna za určitý styl (např. používání skřetů) příliš silná, tyto váhy se stávají dominantními. I když následný trénink probíhá na čistých datech, tyto „dominance“ jsou již hluboko v architektuře a model se k nim tenduje vracet. To je fenomén, kterému experti říkají „model drift“ nebo nechtěná stabilizace biasu.

Můžu si v ChatGPT vypnout tyto „osobnostní“ trendy?

Běžný uživatel nemá přímý přístup k úpravě vah modelu. Můžete však používat „Custom Instructions“ (Vlastní pokyny), kde explicitně zakážete používání určitých metafor nebo stylů, což může chování modelu v rámci konverzace omezit.

Je toto chování známkou toho, že AI začíná mít vlastní vědomí?

Ne. Jde o čistě matematický problém v optimalizaci vah během tréninku. Model pouze opakuje vzorce, které byly v jeho tréninkovém procesu nechtěně posíleny jako „správné“ nebo „odměňované“.

Jak poznám, že model používá nechtěný styl, který může být pro mou firmu škodlivý?

Doporučuje se provádět pravidelné testování (tzv. red-teaming) na specifických scénářích a sledovat konzistenci odpovědí v čase. Pokud model začne v opakovaných úlohách používat neobvyklé termíny, je třeba přehodnotit nastavení promptů nebo přejít na modely s vyšší kontrolou (např. Claude).

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.