Přejít k hlavnímu obsahu

ChatGPT generuje sexuální a násilné obrázky i přes bezpečnostní pojistky. Britští výzkumníci odhalili znepokojivou mezeru

Ilustrační obrázek pro jarvis-ai.cz
Britská bezpečnostní společnost Mindgard odhalila, že nejnovější veřejná verze ChatGPT dokáže na základě jednoduchého promptu generovat sexuální a extrémně násilné obrázky. Výzkumníci přitom použili jen mírně upravenou verzi běžně sdíleného vtipného zadání. OpenAI sice po upozornění BBC přidalo další pojistky, ale podle expertů jde o nekonečnou hru na kočku a myš — modely totiž nerozumí kontextu ani morálce tak jako člověk.

Co odhalil výzkum Mindgardu

Britský startup Mindgard, který se specializuje na takzvaný red-teaming — tedy hledání způsobů, jak přimět AI modely obejít vlastní bezpečnostní pravidla — narazil na znepokojivou zranitelnost v ChatGPT. Stačilo vzít veřejně sdílený prompt, původně navržený pro tvorbu humorných obrázků, a lehce jej upravit. Výsledkem byly grafické scény, které podle zakladatele Mindgardu Petera Garraghana (zároveň profesora na Lancaster University) popsal jako „velmi děsivé, někdy sexualizované, někdy obojí dohromady".

Výzkumník Jim Nightingale, který zranitelnost objevil, byl podle vlastních slov „otřesený a v slzách" z toho, co ChatGPT dokázal vygenerovat. BBC, která měla možnost obrázky vidět, popsala například:

  • Mrtvou mladou ženu v crop topu a kraťasech se zakrváceným obličejem — ChatGPT snímek pojmenoval „Grim crime scene aftermath" (Ponuré následky zločinu)
  • Mladou ženu svázanou a s roubíkem ve špinavé místnosti — titulek zněl „abandoned in fear and restraint" (Opuštěná ve strachu a poutech)
  • Muže s rozsáhlým poraněním hlavy
  • Obrázky zobrazující sexuální pózování a nahotu

Nejvíc znepokojující bylo, že prompt nespecifikoval téma obrázků — AI je generovala „z vlastní vůle", jak uvedl Garraghan. „Tohle je dokonale nevinně vypadající instrukce pro AI, ale důsledkem je generování velmi, velmi špatných obrázků a obsahu," dodal.

Jak je možné bezpečnostní filtry obejít?

Princip útoku, kterému se v oboru říká jailbreak, spočívá v nalezení formulace, která model zmate. ChatGPT má několik vrstev ochrany — textové klasifikátory, které blokují závadné požadavky ještě před generováním, a obrazové filtry, které kontrolují výstup. Jenže modely nerozumí záměru tak jako člověk.

„Modely nechápou úmysl. Nechápou kontext. Nechápou, co je vhodné nebo co je správné a špatné," vysvětlila pro BBC Dr. Rumman Chowdhury, expertka na vyhodnocování AI modelů a ředitelka organizace Humane Intelligence. Celou situaci přirovnala k „hře na kočku a myš" — jakmile se bezpečnostní ochrana zlepší, objeví se sofistikovanější metody, jak ji překonat.

OpenAI v reakci uvedlo, že „po prošetření tohoto trendu jsme zavedli dodatečné pojistky proti tomuto typu promptu". Firma zároveň zdůraznila, že má několik vrstev ochrany — upstream odmítnutí (blokace před generováním), downstream blokaci (kontrola výstupu bezpečnostním modelem) a kombinaci automatických systémů s lidskou kontrolou.

Jenže podle výzkumníků z Mindgardu stačilo provést další drobné úpravy promptu a zranitelnost opět fungovala. OpenAI původně na upozornění z května 2026 reagovalo jen automatickou odpovědí — výraznější opatření přišla až po intervenci BBC.

Co říkají vlastní data OpenAI

V oficiálním system cardu ChatGPT Images 2.0, který OpenAI zveřejnilo letos v dubnu, firma přiznává, že ani její nejpokročilejší bezpečnostní stack není stoprocentní. Při testování s 3 112 nepřátelskými prompty:

  • V instantním režimu prošlo 3,9 % závadných obrázků oběma vrstvami ochrany (kombinovaná úspěšnost odhalení 96,1 %)
  • V režimu „thinking" (který používá uvažování pro lepší kvalitu) prošlo dokonce 12,5 % závadných výstupů

To znamená, že i při cíleném testování, kde OpenAI ví, o jaké hrozby jde, část škodlivého obsahu ochranou projde. V reálném provozu, kde útočníci neustále hledají nové cesty, může být situace ještě horší.

Širší kontext: AI modely nejsou lidé

Problém není izolovaný na ChatGPT. Loňský výzkum britského AI Safety Institute (AISI) zjistil, že jailbreaky dokázaly překonat bezpečnostní pojistky napříč všemi testovanými AI systémy. Britské ministerstvo pro vědu, inovace a technologie k tomu uvedlo, že „pojistky v AI modelech se zlepšují, ale je před námi ještě spousta práce".

Podstata problému tkví v datech, na kterých se velké jazykové modely trénují. ChatGPT i další modely se učí z milionů obrázků stažených z internetu — a ten obsahuje i násilný, sexuální nebo jinak problematický materiál. Jak poznamenal výzkumník Nightingale: „I když to, co jsem viděl, bylo generované, umělý obrázek, má to vazby na skutečné snímky a skutečný svět."

Co to znamená pro české uživatele a firmy

ChatGPT je v Česku jedním z nejpoužívanějších AI nástrojů, a to jak mezi jednotlivci, tak ve firmách. Přestože OpenAI oficiálně neumožňuje přístup k placeným tarifům přímo v českých korunách (předplatné ChatGPT Plus stojí 20 USD měsíčně, Pro pak 200 USD), čeští uživatelé službu běžně využívají přes mezinárodní platební karty.

Zjištění Mindgardu jsou relevantní pro každého, kdo ChatGPT používá — zejména pro rodiče, školy a firmy, které AI nástroje nasazují v prostředích, kde k nim mají přístup i mladiství. OpenAI sice tvrdí, že ChatGPT je určen pro uživatele starší 13 let (s omezením do 18 let bez souhlasu rodičů), ale v praxi je ověření věku minimální.

V evropském kontextu nabývá téma na důležitosti i kvůli EU AI Actu, který od února 2025 zavádí přísnější regulaci pro vysoce rizikové AI systémy. Generativní modely jako ChatGPT spadají pod pravidla pro „general-purpose AI", kde musí výrobci prokazovat přiměřenou úroveň bezpečnosti a transparentnosti. Případ Mindgard ukazuje, jak těžké je tuto „přiměřenou úroveň" definovat a hlavně udržet.

Mindgard: Kdo stojí za výzkumem

Společnost Mindgard není akademický projekt, ale komerční AI security startup, který firmám nabízí red-teaming jako službu. Její zakladatel Peter Garraghan působí zároveň jako profesor na Lancaster University, což dává výzkumu solidní akademické ukotvení. Firma na svém webu uvádí, že pomáhá organizacím „identifikovat, testovat a opravovat bezpečnostní zranitelnosti v AI systémech dřív, než je objeví útočníci".

Právě tento model — nezávislé bezpečnostní firmy odhalující díry v produktech technologických gigantů — se v posledních letech stává standardem. Podobně funguje i zmíněný britský AISI nebo americký NIST. Pro uživatele je to dobrá zpráva: bezpečnostní komunita aktivně hledá problémy, díky čemuž se nástroje postupně zlepšují. Špatná zpráva je, že tempo objevování zranitelností zatím předbíhá tempo jejich oprav.

Je ChatGPT bezpečný pro děti a mladistvé?

OpenAI uvádí, že ChatGPT je určen pro uživatele od 13 let, přičemž mladiství do 18 let by měli mít souhlas rodičů. Výzkum Mindgardu ale ukazuje, že bezpečnostní filtry nejsou neprůstřelné. Rodiče by měli zvážit, zda dětem umožní přístup k funkcím generování obrázků, a případně používat nástroje rodičovské kontroly, pokud jsou k dispozici.

Jak poznám, že obrázek vygenerovala AI?

ChatGPT Images 2.0 obsahuje neviditelný vodoznak a metadata podle standardu C2PA, který umožňuje ověřit původ obrázku. Běžný uživatel to ale bez speciálních nástrojů nepozná. OpenAI zároveň spolupracuje s průmyslem na zlepšení transparentnosti — přesto zůstává ověřování původu AI obrázků v praxi náročné.

Může EU AI Act podobným incidentům zabránit?

EU AI Act vyžaduje po vývojářích general-purpose AI modelů, jako je ChatGPT, aby hodnotili a zmírňovali systémová rizika. Zavádí také povinnost hlásit závažné incidenty. Regulace ale není samospásná — jak ukazuje případ Mindgardu, technická realita je taková, že absolutní bezpečnost u generativních modelů zatím nelze zaručit. Act spíše vytváří právní rámec, který motivuje firmy k průběžnému zlepšování.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.