Grok a Copilot vybírají statistické testy přesněji než ChatGPT. Nová studie odhaluje, komu věřit

30. 6. 2026 Daniel Česák

Každý výzkumník to zná — stojíte před tabulkou s daty a musíte zvolit ten správný statistický test. Chyba v této fázi přitom může znehodnotit měsíce práce a vést k zavádějícím závěrům, zvlášť ve zdravotnictví, kde jde doslova o životy. Nová studie publikovaná v odborném časopise Cureus proto otestovala, zda by s tímto nevděčným úkolem mohly pomoct velké jazykové modely. Výsledky překvapily: Grok od xAI a Microsoft Copilot shodně trefily 34 ze 40 testů (85 %), Google Gemini byl jen o chlup pozadu, a ChatGPT — ačkoliv nejznámější — skončil na posledním místě se 75% přesností. Tradiční vyhledávače Google a Bing nedokázaly doporučit jediný správný test.

Proč je výběr statistického testu tak kritický

Zdravotnický výzkum stojí na datech. Aby ale data něco skutečně vypovídala, musí být analyzována správnou metodou. Použití chybného statistického testu může vést k falešně pozitivním výsledkům — tedy tvrzení, že lék funguje, i když ve skutečnosti nefunguje — nebo naopak k přehlédnutí skutečného efektu. V klinické praxi to znamená potenciální ohrožení pacientů.

Problém je, že výběr správného testu není triviální. Záleží na typu proměnných (spojité vs. kategoriální), rozložení dat (normální vs. nenormální), počtu porovnávaných skupin, designu studie a mnoha dalších faktorech. I zkušení výzkumníci se občas spletou — a právě tady by mohla umělá inteligence sehrát roli pomocníka.

Jak studie probíhala

Autoři Michael Paolella a Aditya Tadinada vybrali 40 publikovaných vědeckých článků napříč čtyřmi nejběžnějšími typy studií: systematické přehledy, randomizované kontrolované studie, kohortové studie a studie případů a kontrol (10 od každého typu). Z každého článku extrahovali hlavní výzkumnou otázku a použitou statistickou metodu, ze kterých vytvořili standardizovaný prompt — tedy zadání popisující výzkumný scénář.

Tyto prompty pak předložili čtyřem velkým jazykovým modelům — ChatGPT (OpenAI), Google Gemini, Microsoft Copilot a Grok (xAI) — a dvěma tradičním vyhledávačům (Google a Bing). Odpovědi modelů pak porovnali se statistickými testy, které ve skutečnosti použili autoři původních studií. Přesnost definovali jako shodu mezi doporučením modelu a skutečně použitým testem.

Výsledky: Grok a Copilot na špici, ChatGPT poslední

Čísla mluví jasně. Grok a Microsoft Copilot dosáhly shodně 85% přesnosti (34 správných doporučení ze 40), následoval Google Gemini s 80 % (32/40) a ChatGPT s 75 % (30/40). Tradiční vyhledávače Google a Bing nedokázaly doporučit jediný test, který by odpovídal tomu, co výzkumníci skutečně použili — jejich výsledky byly pro tuto úlohu prakticky nepoužitelné.

Zajímavé je, že rozdíl mezi nejlepším a nejhorším LLM činil pouhé 4 testy ze 40 — tedy 10 procentních bodů. To naznačuje, že všechny testované modely mají základní porozumění statistické metodologii, ale Grok a Copilot si vedly o něco konzistentněji. Autoři studie zdůrazňují, že přesnost 75–85 % je sice slibná, ale pro použití v ostrém výzkumu stále nedostatečná — každé páté až čtvrté doporučení bylo chybné.

Proč tradiční vyhledávače totálně selhaly

Výsledek Googlu a Bingu je možná nejpřekvapivější částí studie. Zatímco LLM rozumí kontextu a dokážou na základě popisu výzkumného scénáře doporučit konkrétní statistickou metodu, klasické vyhledávače pouze vracejí odkazy na existující stránky — žádnou syntézu ani doporučení neposkytují. V éře, kdy Google do svého vyhledávání stále více integruje AI přehledy (AI Overviews), působí tento výsledek jako budíček: do budoucna bude zajímavé sledovat, zda se AI-powered vyhledávání v podobných úlohách vyrovná specializovaným chatovacím modelům.

Co to znamená pro výzkumníky — i ty české

Pro akademiky, doktorandy a výzkumné týmy v Česku i v Evropě z toho plyne jasné doporučení: LLM mohou sloužit jako užitečný první krok při výběru statistické metody, ale nesmí být poslední instancí. Jinými slovy — zeptat se AI je rychlejší než listovat učebnicí, ale odpověď by měl vždy ověřit člověk se statistickým vzděláním.

Na českých univerzitách a ve výzkumných institucích, jako je Masarykova univerzita, Univerzita Karlova nebo brněnský RECETOX, se ročně realizují stovky studií, kde by podobný AI asistent mohl ušetřit hodiny práce. Všechny čtyři testované modely navíc podporují češtinu — prompt lze zadat česky a model odpoví ve stejném jazyce, což odstraňuje jazykovou bariéru pro méně anglicky zdatné výzkumníky.

Zajímavý je i ekonomický rozměr. Zatímco Copilot je součástí Microsoft 365 (od cca 170 Kč měsíčně v rámci předplatného), ChatGPT má bezplatnou verzi, Gemini rovněž nabízí free tier a Grok je dostupný v rámci předplatného X Premium+ (přibližně 380 Kč měsíčně). Všechny čtyři modely lze tedy použít zdarma nebo za relativně nízké náklady, což je dobrá zpráva pro akademickou sféru, kde rozpočty na software bývají napjaté.

Limity studie, které je třeba znát

Studie má několik omezení, která autoři poctivě přiznávají. Zaprvé, správnost byla definována jako shoda s původním článkem — to ale neznamená, že autoři původního článku sami použili optimální test. Ve výzkumu se běžně stává, že i publikované studie obsahují metodologické chyby.

Zadruhé, vzorek 40 článků je poměrně malý a omezuje se na čtyři typy studií. Ve zdravotnickém výzkumu existuje mnohem širší paleta designů — od průřezových studií přes meta-analýzy až po studie diagnostické přesnosti. Jak by si LLM vedly v těchto složitějších scénářích, zatím nevíme.

A konečně, studie testovala pouze modely k určitému datu — LLM se ale neustále vyvíjejí. Verze ChatGPT testovaná v červnu 2026 už není ta samá, která by byla testována o půl roku dříve. I proto autoři doporučují pravidelné opakování podobných evaluací, aby bylo jasné, jak se přesnost modelů v čase mění.

Širší kontext: AI ve zdravotnickém výzkumu

Tato studie zapadá do rostoucího trendu evaluace LLM ve zdravotnictví. V posledních dvou letech vyšly desítky prací, které testují schopnost AI modelů diagnostikovat nemoci, analyzovat lékařské snímky, nebo — jako v tomto případě — pomáhat s metodologií výzkumu. Podle systematického přehledu publikovaného v ACM Transactions on Multimedia Computing (2026) je rok 2026 zlomový: LLM už nejsou jen experimentální hračkou, ale stávají se praktickými nástroji pro klinické a výzkumné workflow.

Zároveň ale platí, že s rostoucím využíváním AI v citlivých oblastech, jako je zdravotnictví, rostou i regulatorní požadavky. Evropský AI Act, který vstoupil v účinnost v roce 2025, klasifikuje systémy používané ve zdravotnictví jako vysoce rizikové — to znamená, že jakýkoliv AI nástroj, který by měl v budoucnu asistovat při výběru statistických metod pro klinické studie, bude podléhat přísné certifikaci a dohledu. České výzkumné instituce, které by takový nástroj chtěly nasadit, by měly s tímto regulatorním rámcem počítat.

Můžu se na doporučení AI při výběru statistického testu spolehnout?

Zatím pouze jako na orientační pomůcku. I nejlepší modely v této studii (Grok a Copilot) se spletly v 15 % případů. Ve zdravotnickém výzkumu, kde chybná analýza může mít vážné důsledky, by doporučení AI měl vždy zkontrolovat člověk se statistickým vzděláním. Používejte LLM jako rychlý první názor, ne jako definitivní autoritu.

Který z testovaných modelů je pro českého výzkumníka nejpraktičtější?

Záleží na vašich preferencích a rozpočtu. ChatGPT a Gemini nabízejí solidní bezplatné verze s podporou češtiny. Microsoft Copilot je výhodný, pokud už platíte za Microsoft 365 (od 170 Kč měsíčně). Grok vyžaduje předplatné X Premium+ (cca 380 Kč/měsíc). Všechny čtyři modely rozumí česky a dokážou odpovídat česky, takže jazyková bariéra nehraje roli.

Jak se dozvím, jestli AI doporučila správný test?

Zeptejte se modelu na zdůvodnění — proč doporučil právě tento test? Pokud uvede konkrétní argumenty (normální rozložení dat → t-test, ordinální data → Mann-Whitney apod.), můžete si je ověřit v učebnici statistiky nebo u kolegy statistika. Dobrým zvykem je také zeptat se dvou různých modelů a porovnat jejich odpovědi — pokud se shodnou, zvyšuje to pravděpodobnost, že doporučení je správné.