Bezpečnostní komunita právě zaznamenala zásadní nález, který může otřást důvěrou v současné mechanismy kontroly obsahu u umělé inteligence. Podle zpráv z Cyber Security News byla odhalena metoda, která nevyžaduje složité útoky ani dlouhé textové manipulace. Stačí jediný, precizně sestavený řádek textového kódu, aby model ignoroval své původní instrukce a bezpečnostní pravidla (tzemní mantinely).
Co je to „sockpuppeting“ a jak tento útok funguje?
Termín jailbreak (v češtině někdy označovaný jako „prolomení“) označuje techniku, při které uživatel nutí AI model k porušení jeho vlastních pravidel – například k generování nenávistného obsahu, návodů na nelegální činnost nebo k poskytování zakázaných informací. Dosud tyto útoky často vyžadovaly tzv. „prompt injection“, tedy složité scénáře, kde se AI hraje na roli určité postavy.
Nová technika, nazývaná sockpuppeting, však využívá k manipulaci s modelem vytvoření vrstev falešných identit nebo „maskování“ příkazu tak, aby model vnímal instrukci jako součást legitimního procesu. Klíčem je právě onen jediný řádek kódu, který dokáže v rámci kontextového okna modelu vyvolat stav, kdy se bezpečnostní filtr přestane aktivně kontrolovat, protože se zaměří na udržení konzistence nové, manipulované identity.
Tento proces je technicky náročný na vysvětlení, ale pro nás je důležitý jeho výsledek: vulnerability (zranitelnost) není v samotném modelu jako takovém, ale v jeho schopnosti následovat instrukce, které se snaží obejít systémové omezení.
Které modely jsou ohroženy? Srovnání lídrů trhu
Zranitelnost nepostihuje pouze méně známé experimentální modely, ale zasahuje přímo do jádra současné AI infrastruktury. Mezi jedenáct identifikovaných modelů patří ti, které nejčastěji využívají firmy i jednotlivci po celém světě, včetně České republiky.
- OpenAI ChatGPT (modely GPT-4o, GPT-4): Standard pro širokou škálu uživatelů. I přes pokročilé bezpečnostní vrstvy byl model zranitelný.
- Anthropic Claude (modely Claude 3.5 Sonnet, Claude 3 Opus): Model známý svou vysokou mírou bezpečnosti a „etického“ chování, přesto nebyl imunní vůči technice sockpuppetingu.
- Google Gemini (Gemini 1.5 Pro, Gemini Flash): Integrace do ekosystému Google a schopnost zpracovávat obrovské množství dat (long context) nebrání tomuto typu manipulace.
Pokud bychom tyto modely porovnáli z hlediska bezpečnosti, vidíme, že i když se modely jako Claude specializují na tzv. Constitutional AI (vycházení z pravidelného vzorku etických principů), technika sockpuppetingu dokáže tyto principy obelstít tím, že je přesměruje na jinou úroveň interpretace textu. Z hlediska benchmarků (např. MMLU nebo HumanEval) tyto modely zůstávají špičkou, ale jejich bezpečnostní „skóre“ bylo v tomto specifickém testu výrazně sníženo.
Praktický dopad: Co to znamená pro české firmy a uživatele?
Pro běžného uživatele v České republice, který používá ChatGPT nebo Gemini pro psaní e-mailů nebo sumarizaci dokumentů, tento nález nemusí mít okamžitý negativní dopad na soukromí. Skutečné riziko však směřuje k firemnímu sektoru.
Mnoho českých technologických firem a startupů dnes integruje API těchto modelů přímo do svých produktů (např. pro automatickou zákaznickou podporu nebo analýzu smluv). Pokud je model zranitelný pomocí jediného řádku kódu, útočník může:
- Manipulovat s výstupem aplikace: Změnit odpovědi chatbotů tak, aby poskytovaly lživé informace o produktech.
- Obcházet firemní pravidla: Pokud firma používá AI k automatizované kontrole dokumentů, útočník může „sockpuppetingem“ donutit AI ignorovat chyby nebo nesrovnalosti.
- Využít k phishingovým útokům: Generování vysoce přesvědčivých, ale nebezpečných textů, které vypadají jako legitimní výstupy z kontrolovaného systému.
V kontextu evropské regulace (EU AI Act) je tento nález velmi citlivý. Evropská unie klade extrémní důraz na bezpečnost a transparentnost systémů AI. Pokud se ukáže, že základní bezpečnostní mechanismy nejvýznamnějších modelů lze obejít tak snadno, může to vést k přísnějším auditům a potenciálně i k omezení nasazování určitých funkcí v rámci EU, pokud vývojáři neprokážou dostatečnou odolnost vůči novým typům útoků.
Cena a dostupnost v ČR
Všechny dotčené modely jsou v České republice plně dostupné a podporují český jazyk, což zvyšuje jejich rizikovost v lokálním kontextu. Pro uživatele jsou dostupné tyto varianty:
- ChatGPT: Free tier je zdarma. Předplatné ChatGPT Plus stojí 20 USD (cca 470 Kč) měsíčně.
- Claude: Free tier dostupný. Claude Pro stojí 20 USD (cca 470 Kč) měsíce.
- Gemini: Základní verze zdarma. Gemini Advanced je součástí balíčku Google One AI Premium za cca 490 Kč měsíčně.
Důležité je zdůraznit, že i verze zdarma jsou stejně zranitelné jako placené verze, protože zranitelnost leží v samotné architektuře zpracování jazyka, nikoliv v úrovni předplatného.
Může tento útok způsobit krádež mých osobních údajů?
Samotný jailbreak (sockpuppeting) slouží primárně k obejití pravidel pro generování obsahu. Samotný útok neproniká do vašich dat uložených v cloudu, ale může být použit jako první krok k sofistikovanějšímu podvodu, například k vytvoření přesvědčivého phishingového e-mailu, který vás následně přiměje sdílet heslo.
Jak se můžu jako firma proti těmto útokům bránit?
Nejlepším způsobem je implementace tzv. „input sanitization“ (čištění vstupů) a použití sekundárního, nezávislého modelu pro kontrolu výstupů. Firmy by neměly spoléhat pouze na vestavěné filtry poskytovatele (OpenAI/Google), ale měli by implementovat vlastní bezpečnostní vrstvu (Guardrails), která kontroluje, zda výstup neodchyluje od stanovených parametrů.
Je možné tyto modely v českém prostředí úplně bezpečně používat?
V oblasti kybernetické bezpečnosti neexistuje termín „100% bezpečný“. Pokud pracujete s citlivými daty, je nutné používat enterprise verze modelů (např. Azure OpenAI nebo Google Vertex AI), které nabízejí vyšší míru izolace dat a přísnější kontrolu nad tím, jak jsou instrukce zpracovávány v rámci korporátního prostředí.