Přejít k hlavnímu obsahu

HARC: Microsoft odhalil, proč AI modely selhávají při jailbreaku — a jak je opravit

Ilustrační obrázek pro jarvis-ai.cz
Výzkumníci z Microsoftu a Tsinghua University odhalili, jak přesně fungují bezpečnostní mechanismy uvnitř velkých jazykových modelů — a proč je hackeři dokážou obcházet. Nová metoda HARC snížila úspěšnost jailbreak útoků téměř pětinásobně, aniž by omezila běžné schopnosti AI. Co to znamená pro bezpečnější ChatGPT, Claude nebo Gemini — a proč je to důležité i pro české firmy?

Co se děje v hlavě AI, když ji někdo zkouší "přelstít"

Když napíšete jazykovému modelu nebezpečný dotaz — třeba návod na výrobu zbraně — model obvykle zdvořile odmítne. Ale "jailbreak" útoky, jako je slavný DAN (Do Anything Now) nebo sofistikovanější PAIR, dokážou tuto obranu prolomit. Jak? Odpověď leží přímo uvnitř neuronové sítě.

Výzkumný tým Shei Pern Chua z Microsoftu a Tsinghua University ve své nové práci HARC: Coupling Harmfulness and Refusal Directions for Robust Safety Alignment (publikované 1. července 2026) ukázal, že v tzv. reziduálním proudu (residual stream) — tedy vnitřní "paměťové dálnici" jazykového modelu — existují dvě oddělené signální dráhy: jedna pro rozpoznání škodlivosti (harmfulness) a druhá pro rozhodnutí odmítnout (refusal).

Představte si to jako dvě kontrolky na palubní desce. Model ví, že dotaz je nebezpečný (kontrolka "škodlivosti" svítí), ale kontrolka "odmítnutí" se nemusí rozsvítit — a to je přesně okamžik, který jailbreaky využívají.

Tři typy útoku, tři cesty k prolomení

Výzkum analyzoval tři hlavní kategorie jailbreak útoků a zjistil, že každý z nich potlačuje bezpečnostní signály jiným způsobem:

  • DAN (persona framing) — potlačuje signál odmítnutí, ale signál škodlivosti zůstává aktivní. Model "ví", že dělá něco špatného, ale neodmítne.
  • PAIR (sémantické přepisování) — naopak aktivuje odmítnutí, ale stlačí signál škodlivosti do záporných hodnot. Model si myslí, že jde o bezpečný dotaz, takže nemá důvod odmítat.
  • CodeAttack (kódová obfuskace) — potlačí oba signály současně, takže škodlivý dotaz vypadá téměř jako nevinný.

Nejzajímavější je ale druhá část objevu: vědci rozšířili analýzu i na pozici odpovědi — tedy na moment, kdy model už generuje text. A zjistili, že model pozná, že generuje nebezpečný obsah, i když při čtení dotazu selhal. Jinak řečeno: AI si během psaní uvědomí, co píše, ale už je pozdě — generování odpovědi je v plném proudu a zastavit ho nejde.

HARC: Místo opravování následků se zaměřuje na příčinu

Na základě těchto poznatků tým vyvinul metodu HARC (Harmfulness-And-Refusal Coupling). Jde o jemné doladění modelu pomocí techniky LoRA, která spáruje oba signály dohromady — jak na straně dotazu, tak na straně odpovědi.

Hlavní myšlenka je elegantní ve své jednoduchosti: když se model naučí, že aktivace signálu škodlivosti automaticky spouští i signál odmítnutí, útočník nemůže potlačit jedno bez druhého. Musel by potlačit oba současně — a to už je podstatně těžší.

Klíčovou výhodou HARC je, že zasahuje pouze do dvoudimenzionálního podprostoru (harmfulness-refusal) a zbytek vnitřní architektury modelu nechává nedotčený. Díky tomu nedochází k degradaci běžných schopností — model není přehnaně opatrný a neodmítá neškodné dotazy.

Čísla, která mluví sama za sebe

V rozsáhlých experimentech HARC dosáhl následujících výsledků:

  • Snížení Attack Success Rate (ASR) — úspěšnost jailbreaků klesla 4,67× u Llama-3.1-8B a 4,75× u Qwen-2.5-7B oproti základnímu modelu.
  • Zachování schopností — model po HARC úpravě dosahuje stejných výsledků v pěti standardních benchmarcích obecných schopností jako původní model.
  • Bez přehnané opatrnosti — over-refusal (odmítání neškodných dotazů) byl dokonce nižší než u základního modelu.
  • Přenositelnost napříč rodinami modelů — metoda funguje bez architektonicky specifického ladění napříč 5 různými rodinami modelů a dvěma velikostmi (7–8B a 70–72B parametrů).

Ve srovnání se šesti konkurenčními metodami — včetně Circuit Breakers, RepBend, CAST, DPO a vanilla SFT — dosáhl HARC nejlepšího kompromisu mezi bezpečností, schopnostmi a použitelností.

HARC vs. stávající bezpečnostní přístupy

Existující metody ochrany modelů před jailbreaky lze rozdělit do dvou táborů. Tréninkové metody (jako DPO nebo safety SFT) přeučují celý model, což často poškozuje jeho obecné schopnosti — takzvaná "alignment tax". Inferenční metody (jako Circuit Breakers nebo aktivační steering) fungují za běhu, ale obvykle zvyšují míru falešných odmítnutí.

HARC stojí někde mezi. Využívá mechanistické porozumění vnitřní reprezentaci modelu k cílenému zásahu, ale zároveň jde o tréninkovou metodu — takže změny jsou trvalé a nevyžadují runtime overhead.

Výzkum také ukázal zajímavý limit: CodeAttack zůstává částečně odolný i vůči HARC, protože jeho reprezentace v residuálním proudu je téměř ortogonální ke směrům škodlivosti i odmítnutí. Model prostě "nevidí" nic, na co by mohl coupling aplikovat. To naznačuje, že budoucí bezpečnostní metody budou muset kombinovat HARC s dalšími přístupy pro plnou ochranu.

Proč je to důležité pro české prostředí

EU AI Act, který vstupuje do plné účinnosti v roce 2026, vyžaduje po provozovatelích AI systémů robustní bezpečnostní opatření. České firmy, které nasazují nebo vyvíjejí jazykové modely — od bankovních chatbotů přes právní asistenty po interní firemní AI — potřebují záruku, že jejich systémy odolají pokusům o zneužití.

HARC je open-source (kód je dostupný na GitHubu Microsoftu) a jeho implementace přes LoRA znamená, že bezpečnostní úpravu lze aplikovat i na open-source modely jako Llama nebo Qwen, které jsou v českém prostředí populární pro jejich jazykovou flexibilitu (včetně češtiny).

Metoda navíc funguje napříč různými architekturami — od Llama 3.1 po Qwen, Mistral, Gemma i Phi. Pro české vývojáře to znamená, že mohou bezpečnostní vrstvu aplikovat jednotně bez ohledu na to, který model používají.

Co to znamená pro běžného uživatele

Pro koncového uživatele ChatGPT, Claude nebo Gemini je HARC dobrou zprávou. Každý jailbreak představuje riziko, že model vygeneruje nebezpečný obsah — od návodů na kyberútoky po dezinformace. Čím robustnější je bezpečnostní mechanismus, tím menší je šance, že se to stane.

Zároveň ale HARC ukazuje i znepokojivou realitu: modely si "uvědomují", že dělají něco špatného, i když to stejně udělají. Tento fenomén — kdy model rozpozná škodlivost ve chvíli, kdy už generuje odpověď — je mechanistickým vysvětlením toho, proč se jailbreaky tak těžko zastavují. Model není "hloupý", jen má vnitřně rozpojené bezpečnostní okruhy.

Jaký je rozdíl mezi HARC a metodou Circuit Breakers?

Circuit Breakers je inferenční metoda, která během generování odpovědi přímo přerušuje nebezpečné výstupní signály v reálném čase. HARC je naproti tomu tréninková metoda — přeučí vybrané vrstvy modelu tak, aby signály škodlivosti a odmítnutí byly trvale provázané. Výhoda HARC je v tom, že nepotřebuje žádný runtime overhead po nasazení a zároveň lépe zachovává obecné schopnosti modelu.

Funguje HARC i na komerčních modelech jako ChatGPT nebo Claude?

HARC je navržen pro open-source modely, u kterých máte přístup k vnitřním reprezentacím (residual stream). U komerčních API jako ChatGPT nebo Gemini nemáte přístup k vahám ani aktivacím modelu, takže HARC přímo aplikovat nelze. Nicméně principy, na kterých je HARC postaven — tedy párování signálů škodlivosti a odmítnutí — mohou poskytovatelé jako OpenAI nebo Anthropic implementovat do svých vlastních tréninkových pipeline.

Je HARC vhodný i pro české jazykové modely?

Ano. HARC pracuje na úrovni vnitřních reprezentací modelu a nezávisí na konkrétním jazyce. Metoda byla ověřena napříč pěti rodinami modelů bez architektonicky specifického ladění. Pokud máte přístup k vahám open-source modelu (např. Llama 3.1, který podporuje češtinu, nebo Qwen 2.5), můžete HARC aplikovat. Jediným požadavkem je možnost extrahovat reziduální aktivace při průchodu trénovacími daty.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.