Přejít k hlavnímu obsahu

Bezpečnostní „ploty“ kolem AI: Proč veřejné modely GPT a Claude mohou odhalit zranitelnosti, které se firmy snaží skrýt

Ilustrační obrázek pro jarvis-ai.cz
Anthropic se snaží budovat bariéry kolem výzkumu zranitelností svých modelů prostřednictvím projektů Mythos a Glasswing. Nicméně nová zpráva od Vidoc Security Lab naznačuje, že tyto bezpečnostní „ploty“ mohou být jen iluzorní, protože veřejně dostupné modely vykazují podobné slabiny v parsování a autentizaci jako ty nejmodernější, uzavřené systémy.

V oblasti vývoje umělé inteligence probíhá tichý boj o to, kdo bude držet klíče k bezpečnosti. Zatímco společnosti jako Anthropic argumentují, že výzkum kritických zranitelností musí probíhat v uzavřeném, kontrolovaném prostředí (tzv. gated access), realita na trhu naznačuje něco jiného. Výsledky nedávného testování ukazují, že nástroje, které máme k dispozici běžně, už dnes dokážou simulovat útoky, které se dříve považovaly za doménu pouze nejvyspělejších, izolovaných modelů.

Mythos a Project Glasswing: Snaha o bezpečnostní izolaci

Anthropic, jeden z klíčových hráčů na trhu, představil své iniciativy Mythos a Project Glasswing. Cílem těchto projektů je identifikovat a mitigovat (zmírnit) rizika spojená s tím, jak modely interpretují instrukce a jak se chovají v komplexních systémech. Anthropic tvrdí, že pokud by tyto zranitelnosti byly volně dostupné, mohly by být zneužity k masivním kybernetickým útokům. Proto prosazují model, kde výzkum probíhá pod přísným dohledem.

Tento přístup má jasný cíl: vytvořit tzv. „moat“, tedy bezpečnostní příkop, který oddělí bezpečné, kontrolované modely od těch, které mohou být zneužity. Pro firmy v Evropě a Česku, které se musí řídit přísnými pravidly EU AI Act, je tento přístup velmi relevantní, protože regulace vyžadují vysokou míru transparentnosti a bezpečnosti u systémů s vysokým rizikem.

Vidoc Security Lab: Testování reality s GPT-5.4 a Claude 4.6

Tým z Vidoc Security Lab se rozhodl tyto teoretické bariéry otestovat v praxi. Místo použití uzavřených výzkumných nástrojů použili to, co mají běžné uživatelé a vývojáři po ruce: GPT-5.4 od OpenAI a Claude Opus 4.6 od Anthropic.

Výsledky byly jednoznačné. Výzkumníci byli schopni reprodukovat klíčové nálezy z Anthropic Mythos i pomocí těchto veřejně dostupných modelů. To znamená, že základní stavební kameny pro zneužití zranitelností nejsou uzavřeny za „příkopem“ výzkumných projektů, ale jsou přístupné každému, kdo má přístup k API těchto modelů. Hlavním problémem tedy není samotná existence zranitelností, ale schopnost útočníka je efektivně a systematicky využít.

Technické detaily: Co jsou to parsing a auth chyby?

Abychom pochopili vážnost situace, musíme si vysvětlit dva technické pojmy, které jsou v centru pozornosti:

  • Parsing flaws (chyby při parsování): Jde o situace, kdy AI model špatně interpretuje strukturovaná data (např. JSON nebo XML). Pokud útočník dokáže „vložit“ skrytý příkaz do dat, která model zpracovává, může donutit AI provést akci, která nebyla původním záměrem (např. vykrátit citlivé informace).
  • Auth flaws (chyby v autentizaci/autorizaci): Tyto chyby umožňují obejít kontrolu přístupu. V kontextu AI to může znamenat, že model, který by měl mít přístup pouze k veřejným datům, je pomocí specifického promptu (instrukce) přemluven k tomu, aby vyhledal nebo zobrazil data, ke kterým by neměl mít oprávnění.

Srovnání modelů: Kdo vede v bezpečnosti?

V kontextu aktuálních benchmarků se špičkové modely pohybují na velmi těsných hranicích. Zatímco GPT-5.4 dominuje v komplexním programování a logickém uvažování, Claude Opus 4.6 vykazuje vyšší míru „kontextové integrity“, což znamená, že je o něco obtížnější ho pomocí promptu odlákat od jeho primárních bezpečnostních instrukcí. Nicméně, jak ukázal výzkum Vidoc, ani Claude není imunní vůči sofistikovaným metodám parsování.

Model Hlavní přednost Dostupnost v ČR Cena (přibližná)
GPT-5.4 (OpenAI) Logika, kódování, ekosystém Ano (Web/API) $20/měs (Plus)
Claude 4.6 (Anthropic) Bezpečnostní filtry, text Ano (Web/API) $20/měs (Pro)
Gemini 2.0 (Google) Multimodalita, Google integrace Ano Zdarma / $20 (Advanced)

Praktický dopad: Co to znamená pro vás?

Pro běžného uživatele to znamená, že byste neměli vkládat do chatbotů (i těch nejlepších) citlivá hesla nebo soukromá data, protože technicky vzato je možné tyto modely „přemluvit“, aby tato data unikla skrze chyby v interpretaci instrukcí.

Pro firmy a vývojáře v ČR je varování ještě jasnější. Pokud stavíte aplikaci, která využívá AI k analýze dokumentů nebo k ovládání interních systémů, nemůžete se spoléhat pouze na to, že model je „bezpečný“. Musíte implementovat vlastní vrstvu validace dat (tzv. guardrails), která bude kontrolovat, co model parsuje a jaké akce se pokouší provést. V rámci evropské regulace AI Act bude pro firmy zodpovědnost za bezpečnost implementovaného systému klíčovým bodem při auditech.

V českém prostředí, kde roste počet startupů využívajících LLM pro automatizaci procesů, je nutné klást důraz na security-by-design. Pouhé napojení na API OpenAI nebo Anthropic nestačí; je nutné budovat robustní architekturu, která tyto zranitelnosti izoluje.

Může být moje konverzace s AI použita k útoku na mou firmu?

Samotná konverzace ne, ale pokud vaše firma používá AI k automatickému zpracování dat (např. e-mailů nebo faktur), útočník může do těchto dat vložit skrytý kód, který AI špatně „naparsuje“ a donutí ji provést neoprávněnou akci.

Jsou modely Claude a GPT bezpečnější než open-source modely jako Llama?

Obě strany mají své výhody. Uzavřené modely mají silnější vestavěné filtry, ale jak ukazuje výzkum, nejsou neproniknutelné. Open-source modely (např. Llama 3) umožňují firmám mít plnou kontrolu nad daty a infrastrukturou, což může v určitých scénářích zvýšit celkovou bezpečnost v rámci firemní sítě.