Přejít k hlavnímu obsahu

LLM vs. statistik: Jak přesně ChatGPT, Claude a Gemini vybírají statistické testy ve zdravotnickém výzkumu?

Ilustrační obrázek
Dokáže ChatGPT, Claude nebo Gemini správně vybrat statistický test pro vědecký výzkum? Dvě nedávné studie testovaly přesnost šesti nejpopulárnějších jazykových modelů na desítkách hypotetických výzkumných scénářů ze zdravotnictví. Výsledky překvapí: v jedné ze studií dosáhly všechny modely stoprocentní úspěšnosti. Ale pozor — přesnost výběru testu a kvalita vysvětlení jsou dvě velmi rozdílné věci.

Proč je statistika bolest každého výzkumníka

Výzkumníci ve zdravotnictví se pravidelně potýkají s otázkou, který statistický test použít pro konkrétní data a hypotézu. Zvolit špatný test znamená znehodnotit celou studii — nebo dojít k zavádějícím závěrům. Přitom statistická konzultace bývá drahá a v mnoha zemích nedostupná. Právě proto se výzkumníci stále více obrací na velké jazykové modely (LLM) jako rychlou a levnou alternativu.

Otázka ale zní: dá se jim věřit? Dvě studie publikované v roce 2024 a 2025 v renomovaných vědeckých časopisech se na tuto otázku pokusily odpovědět.

Studie č. 1: Šest modelů, dvacet scénářů, sto procent úspěšnost

Komplexnější ze studií, publikovaná v říjnu 2025 v časopise Cureus a indexovaná v PubMed (PMC12627256), testovala celkem šest aktuálních jazykových modelů: ChatGPT, Claude, DeepSeek, Gemini, Grok a Le Chat. Každý model dostal dvacet výzkumných scénářů typických pro klinický a epidemiologický výzkum.

Výsledek byl překvapivě jednoznačný: všechny modely vybraly správný statistický test ve 100 % případů. Ať šlo o párový t-test, jednosměrnou ANOVA, Mann-Whitneyův U-test, Kruskal-Wallisův test, chí-kvadrát nebo Fisherův exaktní test — žádný z modelů nechyboval.

To by mohlo znít jako konec příběhu. Jenže výzkumníci šli dál a hodnotili také kvalitu vysvětlení, nikoli pouze správnost odpovědi. Pět nezávislých odborníků na biostatistiku posuzovalo každou odpověď v pěti dimenzích:

  • Srozumitelnost (clarity)
  • Identifikace předpokladů testu
  • Pedagogická hodnota
  • Přístup k řešení problému
  • Statistické uvažování

A tady se modely začaly lišit. Claude exceloval v srozumitelnosti — průměrné skóre 4,65 z 5,00. Gemini dosáhl nejlepšího hodnocení v pedagogické hodnotě, tedy ve schopnosti vysvětlit, proč je daný test vhodný a jak jej interpretovat. ChatGPT si vedl nejhůře v statistickém uvažování, přestože byl silný v samotném přístupu k řešení. DeepSeek, Grok a Le Chat se pohybovaly v průměru bez výraznějších výkyvů.

Studie č. 2: Pilotní srovnání čtyř modelů na 27 scénářích

Starší pilotní studie, publikovaná v PMC (PMC11584160), vzala pod lupu čtyři modely dostupné v roce 2024: ChatGPT 3.5, Google Bard, Microsoft Bing Chat a Perplexity. Výzkumníci připravili 27 případových vinjetek (case vignettes) simulujících typické situace ze zdravotnického výzkumu.

Výsledky tentokrát nebyly tak jednoznačné:

  • Microsoft Bing Chat: 96,3 % shoda s doporučením experta, 100% akceptovatelnost
  • ChatGPT 3.5 a Perplexity: 85,19 % shoda, oba s 100% akceptovatelností
  • Google Bard: 77,78 % shoda, 96,3% akceptovatelnost

Celková míra shody mezi modely byla středně vysoká (ICC = 0,728). Zajímavé bylo také testování konzistence: po sedmi dnech dostaly modely přeformulované verze stejných otázek. ChatGPT a Perplexity si vedly konzistentně, Bard a Bing Chat více kolísaly.

Studie uzavřela, že LLM nemohou plně nahradit lidského statistika, ale jsou „spolehlivými nástroji pro statistické poradenství" — zejména pro výzkumníky v zemích, kde je přístup ke statistické konzultaci omezený nebo finančně náročný.

Co to znamená v praxi — a jaký model zvolit?

Praktický závěr pro výzkumníky je jasný: při výběru statistického testu se na moderní jazykové modely s vysokou mírou spolehlivosti spolehnout lze. Všechny testované modely zvládají základní i pokročilé testy — od jednoduché korelace přes logistickou regresi až po Wilcoxonův test pro párová data.

Výběr konkrétního modelu záleží na tom, co od odpovědi očekáváte:

  • Potřebujete srozumitelné vysvětlení pro studenty nebo junior výzkumníky? Sáhněte po Claude.
  • Hledáte edukativní hodnotu a kontext, proč je test vhodný? Gemini je vaše volba.
  • Chcete rychlou odpověď s prověřenými zdroji? Perplexity nebo Bing Chat obstojí dobře.

Všechny zmíněné modely jsou dostupné v češtině, ačkoli při zadávání statistických dotazů odborníci doporučují formulovat dotazy v angličtině — terminologie je přesnější a modely jsou na ni lépe natrénované.

Pozor na limity: přesnost není vše

Ani 100% přesnost výběru testu neznamená, že se na model lze spoléhat bezhlavě. Autoři obou studií upozorňují na několik důležitých omezení:

Modely mohou přehlédnout specifika dat. LLM odpovídá na základě textového popisu scénáře — nemůže reálně zkontrolovat distribuci hodnot, přítomnost odlehlých hodnot (outlierů) nebo splnění předpokladů testu (normalita, homogenita rozptylů). Ty musí vždy ověřit výzkumník sám.

Halucination risk. Jazykové modely mohou s jistotou doporučit test, který v daném kontextu není ideální — zvláště u vzácnějších nebo pokročilejších metod. Proto je vhodné doporučení modelu ověřit v metodologické literatuře nebo konzultovat s kolegou.

Verze modelu záleží. Pilotní studie testovala ChatGPT 3.5 — současná verze GPT-4o je výrazně silnější a s velkou pravděpodobností by dosáhla lepších výsledků.

Česká a evropská perspektiva

Pro české výzkumníky a studenty medicíny jsou tato zjištění zvláště relevantní. Přístup ke kvalitní biostatistické konzultaci není v České republice samozřejmost — zejména na menších pracovištích nebo v doktorandských programech. LLM mohou sloužit jako bezplatný první poradce, který výzkumníka navede správným směrem před konzultací s odborníkem.

Všechny testované modely jsou v základní verzi zdarma dostupné i českým uživatelům: ChatGPT na chat.openai.com, Claude na claude.ai, Gemini na gemini.google.com, Perplexity na perplexity.ai. Prémiové verze se pohybují typicky kolem 20 USD (přibližně 450 Kč) měsíčně.

Z pohledu EU AI Actu patří tyto modely mezi tzv. general-purpose AI (GPAI) — jsou tedy regulovány na úrovni transparentnosti a bezpečnosti, nikoli jako speciální zdravotnické AI systémy. Pro klinické rozhodování ve zdravotnictví by stále měly platit přísnější standardy.

Může LLM jako ChatGPT nebo Claude nahradit statistika ve výzkumu?

Ne zcela. LLM dokáže spolehlivě doporučit správný statistický test a vysvětlit jeho logiku, ale nemůže ověřit skutečná data, jejich distribuci ani splnění předpokladů testu. Slouží jako cenná první pomoc, nikoli jako plnohodnotná náhrada odborné konzultace.

Který model je nejlepší pro statistické poradenství?

Podle studie z října 2025 jsou z hlediska přesnosti výběru testu všechny hlavní modely (ChatGPT, Claude, Gemini, DeepSeek, Grok, Le Chat) rovnocenné — dosáhly 100% úspěšnosti. Rozdíly jsou v kvalitě vysvětlení: Claude vyniká srozumitelností, Gemini pedagogickou hodnotou.

Je bezpečné zadávat citlivá zdravotnická data do ChatGPT nebo Claude pro statistické dotazy?

Ne. Pro výzkumné dotazy vždy používejte anonymizovaná nebo fiktivní data — nikdy skutečné identifikátory pacientů. Komerční verze ChatGPT a Claude data zpracovávají na serverech v USA, což je v rozporu s GDPR při nakládání s osobními zdravotními daty.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.