Přejít k hlavnímu obsahu

Anthropic mění pravidla hry: Proč Claude nepoužívá jen seznam zákazů, ale učí se „charakter“?

Ilustrační obrázek pro jarvis-ai.cz
Anthropic, lídr v oblasti bezpečného vývoje umělé inteligence, představuje nový paradigmat v trénování svých modelů. Namísto vrstvení externích pravidel a filtrů, která se snaží „opravit“ již hotový model, se firma zaměřuje na tvorbu AI, která disponuje vnitřními hodnotami. Tento přístup, inspirovaný literární fikcí a etickými principy, má za cíl vytvořit modely Claude, které nebudou jen poslušné, ale budou schopné skutečného úsudku v nečekaných situacích.

Většina vývojářů velkých jazykových modelů (LLM) postupuje podle podobného vzorce: vytvoří extrémně schopný model a následně se pokusí jeho chování omezit. Tato omezení fungují jako „potrubí“ – externí filtry, seznamy zakázaných témat a vzorce odmítání, které jsou přilepeny na základní architekturu modelu. Problém s touto metodou je však v tom, že pravidla jsou konečná, zatímco lidská kreativita a nečekané situace jsou nekonečné.

Jak uvádí analýza eeselAI, tento přístup vede buď k přehnané restrikci (model odmítne i legitimní dotazy), nebo k podhodnocení rizik (model propustí nebezpečný obsah, protože situace nebyla v seznamu zakázaných). Anthropic se rozhodl pro jinou cestu: chce, aby Claude rozuměl proč jsou určité chování nevhodná, nikoliv jen že jsou zakázána.

Od seznamu pravidel k „Model Spec“

Srdcem tohoto přístupu je dokument známý jako Model Spec (někdy interně nazývaný „soul document“). Nejde o prostý seznam instrukcí, ale o komplexní popis hodnot, charakterových rysů a rozhodovacích rámců, které mají modely Claude vést. Anthropic využívá proces zvaný Constitutional AI (konstituční AI), kde model kritizuje své vlastní výstupy na základě těchto principů.

Tento proces je fascinující svou hloubkou. Místo toho, aby lidský anotátor pouze říkal „toto je špatně“, model je trénován tak, aby sám dokázal argumentovat, proč by jeho odpověď měla být upravena, aby byla v souladu s jeho „konstitucí“. Tento přístup umožňuje modelu lépe zvládat kontextové nuance. Například v medicíně nebo v oblasti kybernetické bezpečnosti dokáže model odlišit legitimní výzkum od pokusu o škodlivý útok, což je pro klasické filtry často neřešitelné.

Srovnání: Claude vs. konkurence

Abychom pochopili význam tohoto posunu, je nutné porovnat Claude s jeho hlavními konkurenty na trhu:

  • OpenAI (GPT-4o/GPT-5): OpenAI se tradičně spoléhá na masivní RLHF (Reinforcement Learning from Human Feedback) a robustní vrstvy filtrů. Jejich modely jsou extrémně schopné a univerzální, ale uživatelé často narážejí na „přehnanou opatrnost“, kdy model odmítá i nevinné úkoly kvůli příliš striktním pravidlům.
  • Google (Gemini): Gemini sází na hlubokou integraci do ekosystému a multimodální schopnosti. Bezpečnostní mechanismy jsou zde silné, ale často fungují na principu detekce vzorců, což může vést k chybám v komplexních kontextech.
  • Anthropic (Claude): Claude se profiluje jako nejbezpečnější a nejvíce „lidský“ model díky právě zmíněnému trénování charakteru. V benchmarkech na etické uvažování a nuance v textu často překonává ostatní, i když to může vyžadovat více výpočetního výkonu pro proces sebe-kritiky.

Praktický dopad: Co to znamená pro vás?

Pro běžného uživatele to znamená, že interakce s Claude bude působit přirozeněji a méně „roboticky“. Model nebude jen mechanicky odmítat dotazy, ale dokáže vysvětlit své omezení v kontextu. Pro firmy je tento přístup klíčový z hlediska spolehlivosti. Pokud implementujete AI do zákaznické podpory nebo interních systémů, nechcete model, který jen slepě dodržuje pravidla, ale model, který dokáže jednat eticky i v situacích, které vývojáři nečekali.

Dostupnost v ČR a EU: Model Claude je plně dostupný pro uživatele v České republice prostřednictvím webového rozhraní a mobilních aplikací. Anthropic navíc velmi důsledně přistupuje k regulacím, což je pro nás v Evropě zásadní. Jejich zaměření na „Safety by Design“ (bezpečnost již v návrhu) je v přímém souladu s požadavky EU AI Act, což z Claude činí jednu z nejvíce legitimních voleb pro evropské podniky, které musí splňovat přísné normy pro vysokoryzikové systémy AI.

Cenová politika

Claude nabízí několik úrovní přístupu:

  • Free tier: Zdarma, s omezeným počtem zpráv a přístupem k nejnovějším modelům.
  • Claude Pro: Přibližně 20 USD (cca 470 Kč) měsíčně, nabízí vyšší limity a prioritní přístup.
  • API: Platba za tokeny, ideální pro vývojáře a firmy integrující Claude do vlastních aplikací.

Způsobuje tento „charakter“ modelu, že je Claude příliš opatrný nebo „mluvící“ (preachy)?

To je častá výtka u modelů s vysokou mírou bezpečnosti. Anthropic však právě díky tréninku skrze principy (Constitutional AI) snaží o to, aby model byl užitečný a ne pouze „poučný“. Cílem je, aby model odmítal škodlivé úkoly, ale zůstával konstruktivní v bezpečných kontextech.

Ovlivňuje trénink na hodnotách výkon modelu v matematice nebo programování?

Existuje riziko tzv. „safety tax“ (daň za bezpečnost), kdy přílišná snaha o etiku může snížit logickou přesnost. Anthropic však tvrdí, že díky tréninku schopnosti uvažovat o principech může model v některých komplexních úlohách paradoxně dosáhnout lepších výsledků, protože lépe chápe záměr uživatele.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.