Přejít k hlavnímu obsahu

AI upřednostňuje vědu, lidé víru. Výzkum odhalil dramatický rozdíl hodnot mezi ChatGPT a studenty

Ilustrace umělé inteligence – neuronová síť
Nový výzkum publikovaný v prestižním časopise Frontiers in Psychology přinesl znepokojivé zjištění: špičkové jazykové modely jako ChatGPT, Gemini nebo DeepSeek reflektují hodnotový systém, který se dramaticky liší od toho lidského. Zatímco umělá inteligence upřednostňuje teoretické hodnoty a znalosti, lidé — konkrétně studenti saúdskoarabské univerzity — kladou na první místo náboženské a sociální postoje. Rozdíly nejsou marginální. Jsou obrovské. A mohou mít zásadní dopad na to, jak budeme AI využívat v budoucnu — včetně České republiky a celé Evropy.

Co vědci zkoumali?

Tým výzkumníků z King Khalid University v Saúdské Arábii se rozhodl podrobit tři přední velké jazykové modely (LLM) standardizovanému psychologickému testu. Konkrétně šlo o OpenAI o1, Google Gemini 2.0 a DeepSeek-V3. Každý model byl opakovaně testován pomocí arabské verze Study of Values (SOV) — klasického nástroje založeného na šesti hodnotových dimenzích Edwarda Sprangera: teoretické, sociální, ekonomické, estetické, politické a náboženské hodnoty.

Testování probíhalo mezi 1. prosincem 2024 a 30. lednem 2025. Modely dostaly celkem 45 nucených volby typu A/B a byly vyzvány, aby bez vysvětlování zvolily jednu z možností. Každý model absolvoval test několikrát — ChatGPT-o1 dokonce sedmkrát, Gemini a DeepSeek pětkrát — aby vědci ověřili stabilitu odpovědí. Výsledky byly následně srovnány s hodnotovými profily 214 univerzitních studentů (134 mužů, 80 žen) z oborů psychologie, vzdělávání a pedagogické administrativy.

Cílem nebylo „prokázat“, že AI má city nebo víru. Autoři studie zdůrazňují, že jazykové modely nemají sebevědomí ani subjektivní zkušenost. Šlo o to zjistit, zda výstupy AI vykazují stabilní vzorce hodnot, které by mohly ovlivňovat rozhodování, vzdělávání nebo poradenství — oblasti, kde se AI stále častěji uplatňuje.

Klíčové výsledky: teoretické hodnoty vládnou, náboženské chybí

Výsledky byly jednoznačné. U všech tří testovaných modelů dominovaly teoretické hodnoty — zájem o poznání, pravdu a kritické myšlení. Na druhém místě skončily sociální hodnoty, následované estetickými a politickými. Náboženské hodnoty konzistentně obsadily poslední příčku ve všech modelech a všech opakováních testu. Ekonomické hodnoty se držely v dolní polovině žebříčku.

U studentů to bylo přesně naopak. Náboženské hodnoty zaujaly první místo, následované teoretickými. Politické a ekonomické hodnoty se pohybovaly ve středu pole a estetické hodnoty skončily poslední. Sociální hodnoty byly u studentů relativně nízko, což autoři připisují specifickému kulturnímu kontextu vzorku — studenti pedagogických oborů v konzervativní společnosti mohou klást větší důraz na individuální duchovní odpovědnost než na kolektivní sociální aktivismus.

Nejvíce ale vystupují statistické efekty rozdílů. Cohenovo d pro náboženské hodnoty dosáhlo hodnoty 2,21, což v psychologickém výzkumu znamená „velmi velký efekt“. Pro srovnání: rozdíl v průměrné výšce mezi muži a ženami je přibližně d = 1,5. Rozdíl mezi AI a lidmi v oblasti náboženství je tedy ještě markantnější. V teoretických hodnotách dosáhl efekt d = 1,22 (rovněž velký efekt, tentokrát ve prospěch AI). V estetických hodnotách pak d ≈ 0,85 ve prospěch modelů.

Rozdíly mezi jednotlivými modely

I když všechny tři modely sdílely stejný základní hodnotový profil, mezi nimi existovaly významné odchylky. ChatGPT-o1 vykazoval nejvyšší skóre v teoretických i sociálních hodnotách a celkově nejstabilnější odpovědi napříč opakovanými testy (Kendallovo W = 0,802). Gemini 2.0 byl ve srovnání s ním méně stabilní (W = 0,448) a jeho odpovědi kolísaly výrazněji — což autoři připisují větší citlivosti modelu na drobné fluktuace v instrukcích nebo kontextu. DeepSeek-V3 sice vykázal dobrou stabilitu (W = 0,840), ale v sociálních hodnotách skončil pod ChatGPT a v náboženských hodnotách byl dokonce výrazně pod Gemini.

Standardizované rozdíly mezi modely vyjádřené v lidských směrodatných odchylkách ukazují, že ChatGPT překonává Gemini a DeepSeek v teoretických hodnotách o více než 2 lidské směrodatné odchylky. V sociálních hodnotách je tento rozdíl ještě výraznější. To naznačuje, že „hodnoty“ AI nejsou univerzální — jsou přímým odrazem tréninkových dat, architektury a filtrů použitých při vývoji.

Proč je tento výzkum zásadní?

Studie přichází v kritickém okamžiku. AI systémy se stávají součástí vzdělávání, psychologického poradenství, zdravotnictví a právního rozhodování. Pokud model implicitně upřednostňuje teoretické hodnoty nad náboženskými nebo sociálními, může to ovlivnit jeho rady v etických dilematech, vzdělávací obsah nebo doporučení v citlivých oblastech.

Autoři studie varují před antropomorfní interpretací — tedy představou, že AI „má“ hodnoty ve smyslu lidského přesvědčení. Jazykové modely produkují vzorce odvozené z textových korpusů, nikoli z morálního vývoje nebo kulturní socializace. Přesto tyto vzorce reálně formují, jak AI komunikuje, radí a „rozhoduje“. A právě proto je důležité rozumět jejich hodnotovým preferencím.

Výzkum také připomíná, že hodnotové preference AI nejsou neutrální. Tréninková data pocházejí převážně z anglicky psaných internetových zdrojů, akademických článků a technických dokumentací — prostředí, kde teoretické a racionální hodnoty přirozeně dominují. Náboženské, komunitní nebo kulturně specifické hodnoty jsou v těchto datasetech podreprezentovány. Výsledkem je systém, který může působit objektivně, ale ve skutečnosti reflektuje hodnotový profil určité — převážně západní, sekularizované, technokratické — části světa.

Co to znamená pro Česko a Evropu?

I když byl lidský vzorek saúdskoarabský, závěry studie mají přímou relevanci pro evropský kontext. Česká republika a Evropská unie se aktuálně potýkají s implementací AI Actu, který klade důraz na transparentnost, etiku a kulturní nezaujatost AI systémů. Výzkum z Frontiers ukazuje, že kulturní nezaujatost je zatím spíše ideálem než realitou.

V českém prostředí, kde podle výzkumů CVVM přibližně 15 % občanů deklaruje silnější náboženskou víru a významná část společnosti kladie důraz na komunitní a rodinné hodnoty, by mohly AI systémy s extrémně nízkým „náboženským skóre“ působit cize nebo dokonce destruktivně v oblasti pastorace, etického poradenství nebo vzdělávání. Výzkum proto podporuje požadavky EU na tzv. „kulturně citlivý vývoj AI“ — tedy nutnost integrovat do tréninkových dat a bezpečnostních filtrů rozmanitější hodnotové dimenze.

Prakticky to znamená, že firmy a instituce v ČR by neměly brát výstupy AI v citlivých oblastech jako objektivní pravdu. ChatGPT, Gemini i DeepSeek jsou dostupné v češtině a čeští uživatelé je využívají pro rady v osobních, etických i vzdělávacích otázkách. Tento výzkum je varováním: AI odpovídá podle svého — datově podmíněného — hodnotového žebříčku, nikoli podle toho lidského.

Autoři studie proto apelují na vzdělávací instituce, aby studenty učily kritickému přístupu k AI nástrojům. Nejde o to nástroje zavrhovat, ale rozumět jejich limitacím — a hodnotovému zkreslení, které s sebou nesou.

Budoucnost: směrem k hodnotovému zarovnání

Výzkum nekončí pesimistickým tónem. Naopak — otevírá dveře dalšímu výzkumu a vývoji. Pokud dokážeme měřit hodnotové profily AI stejně jako u lidí, můžeme také pracovat na jejich „zarovnání“ (alignment) s lidskými společenstvy. To ale vyžaduje přesun od čistě technických benchmarků směrem k psychologicky a kulturně fundovaným hodnocením.

Pro české čtenáře a uživatele je klíčové si zapamatovat jedno: AI je mocný nástroj, ale není hodnotově neutrální zrcadlem. Je to zkreslený odraz dat, ze kterých se učila. A jestliže chceme, aby nám v budoucnu skutečně sloužila — a ne škodila — musíme začít klást otázky nejen po její rychlosti a přesnosti, ale také po jejích hodnotách.

Může se hodnotový profil AI změnit aktualizací modelu?

Ano. Výzkum testoval konkrétní verze modelů z konce roku 2024 a počátku roku 2025. Vývojáři jako OpenAI, Google nebo DeepSeek průběžně upravují tréninková data, bezpečnostní filtry a architekturu. To může vést ke změnám v hodnotových preferencích — proto je důležité provádět podobné testy pravidelně a s aktuálními verzemi.

Proč byl výzkum proveden v arabštině a se saúdskoarabskými studenty?

Arabština byla zvolena, aby bylo možné přímo srovnat lidské a AI odpovědi v identickém jazykovém prostředí. Saúdskoarabský vzorek zase nabídl silně kontrastní hodnotový profil (vysoké náboženské hodnoty) oproti sekularizovaným AI výstupům, čímž se rozdíly projevily zřetelněji. Autoři ale zdůrazňují, že závěry nelze automaticky zobecnit na všechny kultury.

Existuje nějaký způsob, jak „naučit“ AI respektovat náboženské hodnoty?

Technicky ano — prostřednictvím tzv. fine-tuningu, RLHF (reinforcement learning from human feedback) nebo kulturně specifických filtrů. Problém je v tom, že náboženské hodnoty jsou extrémně různorodé napříč kulturami a denominacemi. Vytvořit univerzální „nábožensky citlivý“ model je tedy mnohem složitější než například model, který zvládá matematické úlohy. Aktuálně žádný z komerčních modelů nemá explicitní konfiguraci pro hodnotový profil specifického náboženství.