Přejít k hlavnímu obsahu

AI v medicíně: Proč velké jazykové modely stále selhávají v klinickém uvažování?

Ilustrační obrázek pro jarvis-ai.cz
AI v medicíně slibuje nesmírné možnosti, od rychlejší diagnostiky až po personalizovanou léčbu. Nicméně nová vědecká studie, která analyzovala 21 nejvýkonnějších velkých jazykových modelů (LLM), přináší sobering reality: tyto systémy stále postrádají schopnost skutečného klinického uvažování. I když dokážou vyhledat fakta, selhávají v logických krocích, které vyžaduje komplexní lékařská rozhodování.

Představa, že umělá inteligence převezme roli asistenta nebo dokonce diagnostika, je v technologických kruzích živá již několik let. S nástupem modelů jako GPT-4 nebo Claude 3.5 se zdálo, že hranice mezi lidskou inteligencí a strojovou analýgou se stírají. Nicméně, jak ukazuje zpráva zveřejněná na Medical Xpress, existuje propastný rozdíl mezi "věděním" a "uvažováním".

Rozpor mezi znalostmi a logikou: Co je klinické uvažování?

Abychom pochopili, proč modely selhávají, musíme nejprve definovat, co je to klinické uvažování. Nejde jen o to, vyhledat v databázi, že symptomy A, B a C často značí nemoc X. Skutečný lékař musí integrovat anamnézu pacienta, zvážit jeho věk, přidružené nemoci, aktuálně užívané léky a v případě nejasností provést deduktivní kroky, které vedou k vyloučení nejrizikovějších variant.

Velké jazykové modely, jako jsou ty, které studovala vědecká práce (např. publikovaná na PubMed), fungují na principu predikce dalšího nejpravděpodobnějšího slova v kontextu. Jsou to mistři v rozpoznávání vzorců (pattern recognition), ale postrádají hluboké porozumění kauzalitě – tedy tomu, že věc A způsobuje věc B. V medicíně, kde jedna chybná logická úvaha může mít fatální následky, je tento rozdíl kritický.

Srovnání špiček: Jak si vedou GPT, Claude a Gemini?

Při pohledu na současné lídry trhu vidíme, že i když se modely neustále zlepšují, jejich výsledky v medicínských benchmarkách jsou velmi variabilní.

  • OpenAI GPT-4o: Aktuálně jeden z nejvyužvanějších modelů. Je vynikající v syntéze informací a dokáže velmi přesně odpovídat na otázky založené na faktech. Jeho slabinou je však tendence k tzv. halucinacím, kdy si model sebevědomě vymyslí fakt, který v realitě neexistuje, což je v medicíně nepřípustné.
  • Anthropic Claude 3.5 Sonnet: Tento model je často chválen pro svou schopnost jemnější nuancovanosti a lepší dodržování instrukcí. V testech vykazuje vyšší míru logické konzistence než GPT, ale stále nedosahuje úrovně komplexního uvažování vyžadovaného v klinických případech.
  • Google Gemini 1.5 Pro: Díky obrovskému kontextovému oknu dokáže Gemini zpracovat celé dokumentace pacienta najednou, což je obrovská výhoda. Přesto se ukazuje, že i při zpracování velkého množství dat nedokáže model správně propojit nesouvisející klinické indikátory do logického celku.

Pro srovnání, většina těchto modelů nabízí free tier (bezplatnou verzi s omezenými funkcemi) a placené předplatné pro profesionály, které se pohybuje kolem 20 USD / měsíc (cca 460 Kč). Pro firmy jsou k dispozici API verze s platbou za využití (tokeny), což umožňuje integraci do nemocničních systémů.

Praktický dopad: Co to znamená pro české lékaře a pacienty?

Pro českou zdravotnickou scénu má tento výsledek dva hlavní aspekty. Prvním je bezpečnost. Pokud lékař v českém nemocničním systému začne používat AI jako nástroj pro rychlou analýzu textů, musí si být vědom, že model může vyhodnotit symptomy správně, ale zcela selhat v pochopení vzájemných interakcí mezi léky.

Druhým aspektem je regulace. V rámci Evropské unie vstupuje v platnost AI Act, který klasifikuje systémy používané v medicíně jako vysokoryzikové (high-risk). To znamená, že vývojáře čekají extrémně přísné požadavky na transparentnost, přesnost a lidský dohled. Pro české firmy vyvíjející zdravotnické software to znamená, že nemohou jednoduše "připojit" ChatGPT k diagnostickému nástroji bez důkladného ověření a certifikace.

Dostupnost v ČR: Všechny výše zmíněné modely (GPT, Claude, Gemini) jsou v České republice plně dostupné a fungují velmi dobře i v české lokalizaci. To je dobrá zpráva pro administrativní pomoc (psaní zpráv, shrnutí lékařských zpráv), ale varovná signál pro přímou diagnostiku.

Závěr: AI jako asistent, nikoliv náhrda

Studie 21 modelů nám jasně říká, že AI není "doktor v krabici". Je to však neuvěřitelně výkonný nástroj pro zpracování dat, organizaci informací a administrativní úlevu. Klíčem k úspěchu není nahrazování lidské intuice a uvažování strojem, ale vytvoření symbiózy, kde AI připraví podklady a lékař provede tu nejdůležitější část – kritické uvažování.

Mohu používat ChatGPT nebo Claude pro vlastní lékařskou diagnostiku?

Nikdy byste neměli spoléhat výhradně na AI pro diagnostiku svých symptomů. Modely mohou halucinovat (vymýšlet si fakta) a postrádají schopnost skutečného klinického uvažování. Vždy se poraďte s kvalifikovaným lékařem.

Jaké jsou největší rizika používání AI v nemocnicích?

Hlavním rizikem je nesprávná interpretace dat (chybná diagnóza) způsobená nedostatkem logického uvažování modelu a riziko úniku citlivých údajů pacientů, pokud není systém plně v souladu s regulacemi GDPR a EU AI Act.

Je AI v medicíně v ČR legálně povolená?

AI nástroje lze v ČR používat, ale jejich využití pro diagnostiku podléhá přísným pravidlům pro zdravotnické prostředky a novému evropskému zákonu o AI (AI Act). Software musí splňovat přísné certifikační standardy, aby mohl být oficiálně používán k léčbě.