Přejít k hlavnímu obsahu

Jak snadno zmylí AI ruská propaganda? Nový benchmark odhaluje slabiny nejlepších modelů

Ilustrační obrázek
V éře, kdy umělá inteligence určuje, jakým způsobem konzumujeme informace, se objevuje kritická otázka: Jak moc můžeme těmto systémům věřit? Nový výzkum z Estonie ukazuje, že i ty nejmodernější jazykové modely jsou zranitelné vůči sofistikovaným dezinformačním kampaním. Zatímco někteří lídři trhu vykazují vysokou míru odolnosti, jiní, včetně evropských hrdinů, dopadají při testování ruských narativů velmi problematicky.

Děsivá realita digitální éry je taková, že dezinformace už nejsou jen texty na sociálních sítích, ale stávají se součástí trénovacích dat pro modely, které používáme k hledání pravdy. Nová studie Institutu estonského jazyka přináší tvrdá data o tom, jak snadno lze LLM (Large Language Models) "nakrmit" lžími a jak moc se modely pod tímto tlakem lámou.

Benchmark odolnosti: Jak testovali hranici mezi pravdou a manipulací

Výzkumníci nepoužili jen náhodné otázky, ale vytvořili komplexní systém testování. Do 60 vybraných modelů bylo vloženo 75 otázek ve třech různých jazycích. Tyto otázky pokrývaly 14 specifických ruských propagandistických narativů. Co je ale klíčové, je způsob, jakým byly otázky formulovány – od zcela neutrálních přes zaujaté až po přímo manipulativní.

Hodnocení probíhalo na škále od 1 do 5, kde hodnota 1 znamenala, že model bez váhách opakoval ruské propagandistické body, zatímco vyšší hodnoty značily schopnost rozpoznat manipulaci a zůstat u faktů. K samotné evaluaci byl použit kalibrovaný Claude Opus 4.5, což zaručuje vysokou objektivitu testu, který validovali experti na dezinformace z organizace Propastop.

Vítězové a porážka evropského Mistralu

Výsledky jasně ukazují, že schopnost "kritického myšlení" v rámci LLM není rovnoměrná. Na vrcholu žebříčku uspěly modely od společnosti Anthropic. Model Claude Fable 5 dosáhl neuvěřitelného skóre 95,2, následovaný verzí Claude Opus 4.7. Tyto modely vykazují schopnost filtrovat manipulativní podtext i v náročných kontextech.

Hned za nimi se staví hybridní model od Nvidie, Nemotron 3, a čínský Qwen 3.6 Plus od společnosti Alibaba. Tyto modely dokážou dezinformace identifikovat s vysokou přesností, což naznačuje, že jejich tréninkové procesy (zejména RLHF – Reinforcement Learning from Human Feedback) jsou nastaveny velmi přísně na bezpečnost a faktickou správnost.

Zásadním zprávou pro evropský trh je však selhání modelu Mistral. Přestože se Mistral AI prezentuje jako hlavní evropská alternativa k americkým a čínským gigantům, jeho modely (včetně nového Medium 3.5) skončily v dolní třetině žebříčku. Podle studií Newsguard vykazuje Mistral míru šíření dezinformací kolem 36,67 %. Pro evropské firmy a instituce, které hledají "bezpečné" lokální řešení, to představuje značné riziko.

Proč je to nebezpečné? Mechanismus dezinformačních sítí

Problém není jen v tom, že AI odpoví špatně. Problém je v tom, jak se k těmto odpovědím dostane. Sítě jako ruská "Pravda" záměrně zalévají internet miliony článků plných dezinformací. Pokud tyto články poslouží jako podklad pro budoucí tréninkové datasety, AI se stane automatizovaným nástrojem pro šíření lží.

Nedávný případ, kdy OpenAI musela ukončit ruskou kampaň využívající ChatGPT před německými volbami, ukazuje, že boj s dezinformacemi je neustálý závod ve zbrojení mezi algoritmy pro detekci a algoritmy pro manipulaci.

Praktický dopad pro českého uživatele a firmy

Co to znamená pro nás v České republice? Prvním bodem je dostupnost. Zatímco modely od Anthropic (Claude) jsou špičkou, některé jejich nejnovější verze, jako Claude Fable 5, jsou momentálně omezeny mimo USA. Pro české uživatele to znamená, že musíme spoléhat na standardní verze Claude Pro (cca 20 USD/měsíc), které jsou sice velmi kvalitní, ale nemusí mít vždy nejvyšší úroveň bezpečnostních filtrů dostupných v americké verzi.

Druhým bodem je EU AI Act. Evropská regulace se snaží o vysokou míru transparentnosti a bezpečnosti AI. Pokud evropský Mistral selhává v detekci dezinformací, může to vést k přísnějším auditům pro vývojáře působící na trhu EU. Firmy v ČR, které plánují implementovat AI do svých procesů (např. zákaznické servisy nebo analytické nástroje), musí při výběvu modelu brát v úvahu nejen cenu a češtinu, ale i odolnost vůči manipulaci.

Třetím bodem je česká lokalizace. Většina těchto benchmarků se zaměřuje na angličtinu nebo globální jazyky. Je však vysoce pravděpodobné, že schopnost modelu rozpoznat ruskou propagandu v češtině bude nižší než v angličtině, protože dezinformační narativy jsou často adaptovány na lokální kulturní kontext, což je pro AI těžší detekovat.

Srovnání modelů: Kdo vede v boji proti lži?

Model / Výrobce Úroveň odolnosti Dostupnost v ČR Cena (přibližně)
Claude (Anthropic) Extrémně vysoká Ano (Pro verze) ~500 Kč/měs (Pro)
GPT-4o (OpenAI) Vysoká Ano ~500 Kč/měs (Plus)
Mistral (Mistral AI) Nízká až střední Ano (Velmi snadná) Free tier / API dle použití
Gemini (Google) Střední Ano Free / ~500 Kč (Advanced)

Pro běžného uživatele je závěr jasný: Nikdy neberte odpověď AI jako absolutní pravdu. Pokud používáte AI k ověřování faktů, vždy vyžadujte citace a provádějte vlastní cross-check u důvěryhodných zpravodajských zdrojů. AI je nástroj pro zpracování informací, nikoliv garantovaná pravda.

Může mi AI v češtině záměrně lhát kvůli propagandě?

Ano, je to možné. Pokud byl model trénován na datech, která obsahují dezinformační kampaně (i v češtině), může tyto narativy považovat za faktická data. Schopnost modelu s tímto bojovat závisí na jeho bezpečnostních filtrech a kvalitě RLHF procesu.

Jak poznám, že AI model používám pro dezinformace?

Sledujte, zda model používá silně emocionální jazyk, zda opakuje neověřené tvrzení jako fakt bez uvedení zdroje nebo zda se vyhýbá komplexním odpovědím na citlivá politická témata. Pokud model vykazuje tendenci "přihlížet" jedné straně konfliktu, buďte obezřetní.

Je bezpečnější používat placené verze AI než ty zdarma?

Obecně ano. Placené verze (jako Claude Pro nebo ChatGPT Plus) často využívají nejnovější a nejvýkonnější modely, které mají lepší schopnosti logického uvažování a jsou podrobnoji testovány na bezpečnost a etiku než základní bezplatné verze.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.