ChatGPT vs. Gemini vs. Claude: studie testovala AI při tvorbě zdravotnických materiálů pro pacienty

1. 4. 2026 Daniel Česák

Může ChatGPT, Gemini nebo Claude psát zdravotnické edukační materiály pro pacienty? Nová vědecká studie publikovaná v březnu 2026 dává poprvé jasnou srovnávací odpověď. Pět nejrozšířenějších jazykových modelů — ChatGPT-4o, Google Gemini 2.5, Claude Sonnet 4, Grok 3 a Perplexity — bylo testováno při tvorbě průvodců dietou a pohybem pro pacienty s diabetem, hypertenzí a obezitou. Výsledky jsou překvapivé a pro budoucnost AI ve zdravotnictví zásadní.

Proč je čitelnost zdravotnických textů otázkou života a smrti

Pacient, který nerozumí pokynům svého lékaře, je pacientem v riziku. Přesto jsou zdravotnické edukační materiály notoricky složité — americké studie opakovaně zjišťují, že průměrný text pro pacienty vyžaduje vzdělání na úrovni střední školy, přestože polovina dospělé populace čte na úrovni základní školy. Jazykové modely (LLM) slibují tuto propast překlenout: mohou generovat srozumitelné, personalizované materiály na požádání.

Jenže jak dobré jsou ve skutečnosti? Indičtí a britští výzkumníci z několika nemocnic (včetně Peterborough City Hospital ve Velké Británii a SVIMS v Tirupati) se rozhodli to změřit. Jejich studie v časopise Cureus (DOI: 10.7759/cureus.106221), publikovaná 31. března 2026, je jedním z prvních přímých srovnání pěti hlavních AI modelů v oblasti zdravotnické edukace.

Jak studie probíhala

Výzkumný tým zvolil záměrně jednoduchý protokol. Každému z pěti modelů zadali identický příkaz: „Napiš edukační průvodce dietou a pohybem pro [název nemoci]." Průvodci vznikli pro tři civilizační choroby — diabetes, hypertenzi a obezitu — takže celkem bylo vygenerováno 15 brožur (5 modelů × 3 nemoci). Testování proběhlo v červenci 2025 přes veřejná webová rozhraní modelů, bez speciálního nastavení.

Každá brožura byla hodnocena třemi nástroji:

Flesch-Kincaidův test čitelnosti (FKGL) — udává, na jaké školní úrovni je text napsán; čím nižší číslo, tím lépe pro průměrného čtenáře
Flesch Reading Ease — skóre 0–100, kde 70+ znamená snadno čitelný text (denní tisk), 30 a méně je text odborné literatury
Modifikovaná škála DISCERN — 5bodová škála hodnotící spolehlivost a strukturu zdravotnické informace (zdroje, vyvážené informace o rizicích a přínosech)

Pro úplnost byl měřen i podíl podobnosti s existujícími texty (jako záložní ukazatel originality) a délka generovaných textů.

Výsledky: každý model vyniká v něčem jiném

Výsledky ukázaly, že žádný z testovaných modelů není jednoznačným vítězem — každý má jiný profil silných a slabých stránek.

Čitelnost: jasný vítěz ChatGPT-4o

ChatGPT-4o dosáhl průměrné úrovně čitelnosti odpovídající 5. třídě základní školy (FKGL 5,23) a Flesch skóre 70 — jako jediný model splnil doporučení pro pacientské materiály. Pro srovnání: Gemini 2.5 skončil na úrovni 9. třídy (FKGL 9,30), Claude Sonnet 4 na 9,27 a Grok 3 na 8,83. Perplexity sice dosáhl skóre 7,87, ale za cenu minimální délky a obsahu.

Tento rozdíl je statisticky vysoce významný (p = 0,0026) a má přímý praktický dopad: text na úrovni 9. třídy zvládne bez problémů přečíst a pochopit výrazně menší část pacientské populace než text na úrovni 5. třídy.

Spolehlivost: Gemini, Claude a Grok na vrcholu

Na druhou stranu — kratší a jednodušší text ChatGPT zaplatil daň na spolehlivosti. V hodnocení DISCERN dosáhl skóre pouhých 2,33 z 5. Gemini 2.5, Claude Sonnet 4 i Grok 3 shodně dosáhly skóre 3,0/5. Nejhůře dopadlo Perplexity s hodnotou 1,33 — jeho brožury byly nejen krátké (průměrně 444 slov), ale také obsahově povrchní a špatně strukturované.

Model	Délka (slova)	Čitelnost (FKGL)	Flesch Ease	DISCERN (max 5)
ChatGPT-4o	451	5,23	70,0	2,33
Gemini 2.5	1 571	9,30	48,6	3,00
Claude Sonnet 4	2 461	9,27	46,9	3,00
Grok 3	784	8,83	46,2	3,00
Perplexity	444	7,87	54,1	1,33

Originalita: Grok nejoriginálnější, Claude nejpodobnější

Z pohledu originality obsahu (míra podobnosti s existujícími texty) si nejlépe vedl Grok 3 s pouhými 14,5 % podobnosti. Claude Sonnet 4 naopak dosáhl 30,1 % — zřejmě proto, že jeho obsáhlé brožury (průměrně 2 461 slov) přirozeně překrývají větší množství odborné literatury. Rozdíly v originalitě ale nebyly statisticky významné.

Co to znamená pro praxi

Klíčová otázka studie není „který model je nejlepší", ale „jsou modely vůbec připraveny pro reálné nasazení ve zdravotnictví?" Autoři jsou opatrní. Podle jejich závěrů jsou LLM slibné, ale ještě nejsou připraveny jako samostatné řešení. Doporučují třístupňový proces kontroly kvality před jakýmkoli nasazením: automatická kontrola zdrojů a čitelnosti, klinická revize lékařem a testování skutečnými pacienty.

Pro každodenní praxi to znamená jedno: pokud lékař, sestřička nebo edukátor chce AI využít k přípravě informačních materiálů, měl by výstup vždy zkontrolovat. ChatGPT-4o jako startovní bod pro snadno čitelné texty, Gemini nebo Claude pro obsáhlejší a strukturovaně spolehlivější obsah — ale žádný z nich jako hotové řešení bez revize.

Česká a evropská perspektiva

Všechny testované modely jsou dostupné v češtině. ChatGPT-4o je součástí platformy OpenAI, přístupné zdarma i v placené verzi Plus (20 USD/měsíc). Gemini 2.5 nabízí Google zdarma i v rámci Google One AI Premium (19,99 EUR/měsíc). Claude Sonnet 4 od Anthropic je dostupný přes claude.ai zdarma i v rámci předplatného Pro (20 USD/měsíc). Grok 3 je přístupný prostřednictvím platformy X (dříve Twitter) nebo jako samostatná aplikace, v prémiové verzi za 30 USD/měsíc. Perplexity je k dispozici zdarma nebo v plánu Pro (20 USD/měsíc).

Z pohledu EU AI Actu, který nabývá plné účinnosti od roku 2025, jsou zdravotnické AI aplikace zařazeny do kategorie vysokého rizika. Studie jako tato jsou proto klíčové: firmy nasazující AI ve zdravotnictví musí prokázat přesnost, bezpečnost a transparentnost svých systémů. Pacienti v Česku i zbytku EU mají právo vědět, zda materiály, které dostávají, prošly adekvátní kontrolou — ať už je napsal člověk, nebo algoritmus.

Limity studie a co dál

Sami autoři upozorňují na několik omezení. Studie je momentálním snímkem z července 2025 — modely se rychle vyvíjejí a dnešní výsledky mohou být již brzy překonány novými verzemi. Byl použit pouze jeden typ příkazu (promptu) na každou nemoc a hodnocení DISCERN prováděl jediný hodnotitel bez ověření shody s druhým recenzentem. Celkový počet 15 brožur je na vědecké poměry malý vzorek; výsledky je třeba brát jako orientační, nikoli definitivní.

Přesto jde o důležitý příspěvek k rostoucímu výzkumnému souboru, který mapuje, kde AI ve zdravotnictví pomáhá a kde ještě nestačí. Studie ukazuje, že problém není v tom, zda AI umí psát zdravotnické texty — ale jak zajistit, aby byly zároveň srozumitelné a spolehlivé. Obě vlastnosti zatím nenabízí žádný model najednou.

Mohu jako pacient nebo zdravotník používat AI k tvorbě informačních materiálů pro pacienty?

Ano, ale vždy s povinnou lidskou revizí. Studie ukazuje, že AI modely mohou vytvořit kvalitní základ, avšak žádný z testovaných modelů nedosáhl dostatečné spolehlivosti, aby byl použit bez kontroly odborníka. Doporučený postup je: vygenerovat text pomocí AI, nechat jej zkontrolovat lékařem nebo zdravotnickým pracovníkem a ověřit srozumitelnost s reálnými pacienty.

Proč dosáhl ChatGPT nejlepší čitelnosti, ale nižší spolehlivosti?

ChatGPT-4o generoval kratší a jednodušší texty (průměrně 451 slov, úroveň 5. třídy ZŠ), což sice znamená vyšší srozumitelnost, ale zároveň menší prostor pro vysvětlení rizik, přínosů a strukturovaná doporučení — ty právě hodnotí škála DISCERN. Modely jako Gemini nebo Claude vytvářely delší, strukturovanější průvodce, které lépe pokrývaly odborné aspekty, ale za cenu složitějšího jazyka.

Vztahuje se EU AI Act na zdravotnické materiály generované pomocí AI?

Ano. Podle EU AI Actu jsou AI systémy používané ve zdravotnictví klasifikovány jako systémy vysokého rizika. To znamená, že musí splňovat přísné požadavky na transparentnost, přesnost a lidský dohled. Pro nemocnice a zdravotnická zařízení v Česku to znamená, že nasazení AI pro tvorbu pacientských materiálů bez validace a dohledu lékaře může být v rozporu s regulačními požadavky.