OpenAI uvádí LifeSciBench: 750 úloh, které prověří, jestli AI opravdu rozumí vědě

18. 6. 2026 Daniel Česák

AI article illustration for jarvis-ai.cz

Zapomeňte na maturitní testy a encyklopedické kvízy. OpenAI přichází s benchmarkem, který AI modely staví před úkoly, jaké byste zadali kolegovi-vědci s doktorátem — včetně experimentálních dat, laboratorních protokolů a regulérních výzkumných nejistot. A výsledky? I ten nejlepší model projde sotva třetinou úloh. LifeSciBench je studenou sprchou pro každého, kdo si myslel, že AI už nahradí vědce.

750 úloh, které nejsou „hádej správné písmenko"

OpenAI 17. června 2026 oficiálně zveřejnilo LifeSciBench — nový benchmark pro hodnocení schopností AI modelů v reálných vědecko-výzkumných úlohách z oblasti biologických věd (life sciences). Nejde o další sadu multiple-choice otázek z učebnice biochemie. Každá z 750 úloh je formulována jako volná textová odpověď, přesně tak, jak by vědec zadal úkol svému kolegovi — včetně přiložených datových souborů, grafů, tabulek a PDF dokumentů.

Na tvorbě benchmarku se podílelo 173 expertních vědců s Ph.D., všichni s praxí v biotechnologickém nebo farmaceutickém průmyslu. Každá úloha prošla minimálně dvěma koly odborné recenze a v průměru šesti automatickými revizními cykly, než byla přijata. Kvalitu pak nezávisle ověřilo dalších 453 recenzentů, z nichž 97 % mělo doktorát — a shoda na relevanci, odborné správnosti a užitečnosti úloh přesáhla 96 % ve všech kategoriích.

Jak se hodnotí: rubriky, ne skóre

Klíčovou inovací LifeSciBench je rubrikový systém hodnocení. Místo porovnávání s jednou „správnou" odpovědí se každá odpověď modelu hodnotí podle detailní sady kritérií — napříč celým benchmarkem jich je 19 020, tedy zhruba 25 na jednu úlohu. Každé kritérium odměňuje konkrétní fakt, výpočetní krok, odborné zdůvodnění nebo správně identifikované omezení metody.

Díky tomu benchmark měří dvě odlišné metriky: normalizované skóre (poměr získaných bodů k maximu, tedy částečný kredit) a míru úspěšného splnění úlohy (podíl úloh, kde model dosáhl alespoň 70 % bodů). To je zásadní rozdíl — odpověď může být částečně správná a užitečná, ale zároveň nesplnit úlohu jako celek. Přesně tak se hodnotí i skutečná vědecká práce.

Sedm pracovních postupů, sedm vědních domén

Úlohy pokrývají sedm klíčových výzkumných workflow: práce s důkazy, analýza, design a optimalizace, vědecké uvažování, validace a laboratorní operace, translace (přenos poznatků do praxe) a vědecká komunikace. Tematicky se pohybují od genomiky přes medicinální chemii až po klinickou a translační vědu.

Zhruba 79 % úloh vyžaduje několik kroků uvažování či rozhodování (průměrně 4 kroky na úlohu). Více než polovina úloh (53 %) navíc vyžaduje práci s připojenými datovými artefakty — sekvencemi DNA, chemickými strukturami, grafy, tabulkami nebo PDF články. Celkem je k úlohám přiloženo 1 062 artefaktů.

Jak si vedly špičkové modely: realita vs. očekávání

OpenAI otestovalo pět modelů v režimu single-turn (jedna odpověď na jeden prompt, s povoleným přístupem na internet). Výsledky mluví jasně:

Model	Normalizované skóre	Úspěšnost úloh
GPT-Rosalind	57,6 %	36,1 %
GPT-5.5	51,9 %	25,7 %
Gemini 3.1 Pro	51,5 %	23,6 %
GPT-5.4	47,9 %	20,7 %
Grok 4.3	39,9 %	13,0 %

GPT-Rosalind, doménově specializovaný model OpenAI, dosáhl nejlepších výsledků napříč všemi metrikami — ale i tak uspěl jen u 36,1 % úloh. Zajímavé je, že Gemini 3.1 Pro od Googlu vedl (unikátně) na 214 úlohách z 750, což ukazuje, že i „druhý nejlepší" model může mít specifické silné stránky. Grok 4.3 od xAI výrazně zaostal s pouhými 13 % úspěšnosti.

Pro kontext: žádný z testovaných modelů nedokázal projít 171 úlohami (22,8 % benchmarku) a u 261 úloh (34,8 %) měl i nejlepší model míru úspěšnosti pod 20 %. Benchmark není ani zdaleka saturován — to je v době, kdy běžné jazykové benchmarky padají jako kuželky, osvěžující zpráva.

Kde AI exceluje — a kde selhává

Nejsilnější stránky modelů se ukazují v úlohách vyžadujících strukturovanou vědeckou komunikaci a syntézu poznatků. GPT-Rosalind dosáhl 71,1% úspěšnosti ve vědecké komunikaci (byť tato kategorie čítá jen 9 úloh, takže je třeba ji brát s rezervou) a 57,7 % v translaci — tedy přenosu preklinických poznatků do klinických implikací.

Naopak design, optimalizace a predikce zůstávají pro AI extrémně obtížné — GPT-Rosalind zde prošel jen 30,7 % úloh. Ještě výraznější je propad při práci s datovými artefakty: úspěšnost GPT-Rosalind klesá ze 45,1 % u čistě textových úloh na 28,1 % u úloh s artefakty. Modely mají zjevný problém extrahovat relevantní informace z grafů, sekvenčních souborů nebo složitých tabulek a integrovat je do finální odpovědi.

Zvlášť špatně dopadají úlohy vyžadující přesné výstupy — číselné hodnoty (14,8 % úspěšnost), sekvence nebo struktury (24,0 %) či konstrukční návrhy (27,3 %). Tady se ukazuje, že současné AI modely sice dokážou obratně uvažovat o vědeckých konceptech, ale selhávají v momentě, kdy je potřeba dodat exaktní, laboratorně použitelný výsledek.

Co to znamená pro farmaceutický průmysl — a pro Česko

LifeSciBench přichází v době, kdy farmaceutické firmy po celém světě masivně investují do AI — od objevování nových léčiv po optimalizaci klinických studií. Výsledky benchmarku ale jasně ukazují, že AI ještě není připravena nahradit zkušeného výzkumníka. Může být užitečným asistentem — pomáhat s rešeršemi, identifikovat vzorce v datech nebo navrhovat hypotézy — ale finální rozhodnutí o designu experimentu či interpretaci výsledků zůstává v rukou lidí.

Pro český a evropský kontext je to dvojnásob důležité. Evropská unie má silnou farmaceutickou základnu (od Novartis po lokální biotechnologické startupy jako SOTIO či Apigenex) a zároveň patří k nejpřísnějším regulatorním prostředím na světě. Benchmark, který hodnotí, zda AI rozumí regulatorním požadavkům, designu klinických studií a interpretaci preklinických dat, je proto pro evropské firmy mimořádně relevantní. Pokud chcete používat AI v procesu schvalování léčiv, musíte mít jistotu, že model správně chápe kontext a limity dat — a přesně to LifeSciBench testuje.

Omezení benchmarku: proč zatím neslavit

Je férové zmínit i limity. LifeSciBench testuje modely pouze v režimu jedné odpovědi (single-turn) — reálný výzkum je ale iterativní: vědec formuluje hypotézu, získá data, upraví hypotézu, navrhne další experiment. Dále jde o benchmark vytvořený OpenAI, což může vzbuzovat otázky ohledně nestrannosti (byť nezávislá validace 453 recenzenty to do značné míry kompenzuje). A konečně — 750 úloh nemůže pokrýt všechny vědecké specializace.

OpenAI samo uvádí, že silný výkon na LifeSciBench by měl být interpretován jako „důkaz realistické schopnosti řešit úlohy", nikoliv jako přímá míra výzkumného dopadu. Dalším krokem bude propojení benchmarkových výsledků se studiemi v reálných výzkumných prostředích.

Celý výzkumný článek i technické detaily jsou dostupné na oficiálním blogu OpenAI a v preprintu (PDF). Podrobné srovnání přinesl také MarkTechPost.

Je LifeSciBench veřejně dostupný pro výzkumníky mimo OpenAI?

OpenAI uvádí, že veřejné zveřejnění může být omezeno bezpečnostními a licenčními podmínkami. Konkrétní detaily dostupnosti zatím nebyly oznámeny, ale výzkumníci se mohou registrovat jako přispěvatelé nebo požádat o přístup k doménově specializovanému modelu GPT-Rosalind prostřednictvím formulářů na webu OpenAI.

Jak se LifeSciBench liší od známějších benchmarků jako MMLU nebo GPQA?

Zásadně. Zatímco MMLU nebo GPQA používají převážně multiple-choice otázky s jednou správnou odpovědí, LifeSciBench pracuje s volnými textovými odpověďmi, hodnotí je podle rubrik s 25+ kritérii na úlohu a vyžaduje práci s reálnými datovými artefakty (sekvence, grafy, PDF). Testuje nejen znalosti, ale i schopnost vědeckého uvažování, práce s nejistotou a komunikace výsledků.

Může LifeSciBench pomoci při vývoji nových léků?

Přímo ne — je to hodnoticí nástroj, nikoliv výzkumná platforma. Ale nepřímo ano: ukazuje farmaceutickým firmám, kde jsou současné AI modely skutečně užitečné (rešerše, syntéza poznatků, komunikace) a kde zatím selhávají (design experimentů, přesné výpočty, práce s komplexními daty). To pomůže firmám lépe rozhodnout, do kterých částí výzkumného procesu AI zapojit a kde si ponechat lidskou kontrolu.