Přejít k hlavnímu obsahu

AI v medicíně: Dokáže chatboti rozpoznat mrtvici na CT skenu? Realita multimodálních modelů

Ilustrační obrázek pro jarvis-ai.cz
Multimodální umělá inteligence slibuje revoluční změny v diagnostice, ale realita je zatím mnohem komplikovanější. Zatímco chatboti dokážou napsat esej nebo napsat kód, jejich schopnost interpretovat život zachraňující lékařské snímky je stále na velmi nízké úrovni. Nová studie z 2025 ukazuje, že obecné modely jako GPT-4o nebo Gemini stále nedokážou spolehlivě detekovat vnitřní krvácení mozku, což je v medicíně kritický nedostatek.

Představte si situaci, kdy pacient přijíždí na pohotovost s podezřením na mrtvici. CT sken je klíčovým nástrojem pro určení, zda jde o krvácení, nebo o infarkt. V takovém momentu každá sekunda rozhoduje. Pokud by v tuto chvíli pomáhal lékaři AI model, jeho chyba by mohla být fatální. Právě tento problém se stává předmětem intenzivního výzkumu. Nedávná studie publikovaná v časopise Cureus totiž podrobně testovala, jak si s touto úkolu poradí nejmodernější multimodální velké jazykové modely (LLM).

Multimodální AI: Když text potká obraz

Abychom pochopili, o co v tomto výzkumu jde, musíme si nejprve vysvětlit pojem multimodální model. Na rozdíl od klasických textových modelů, které pracují pouze se slovy, multimodální modely (jako jsou aktuální verze GPT-4o, Gemini 1.5 Pro nebo Claude 3.5 Sonnet) dokážou zpracovávat různé typy dat současně – tedy text, obrázky i video. V medicíně to znamená, že model by měl být schopen "podívat se" na CT snímek a následně o něm napsat textový popis nebo stanovit diagnózu.

V rámci studie, kterou provedli vědci z University of Virginia a dalších institucí, byly tyto modely testovány na veřejném datasetu PhysioNet, který obsahuje snímky CT s různými typy vnitřního krvácení mozku (ICH). Výsledky jsou však pro nadšence do AI poněkud ochlazující.

Kritické selhání: Problém s "recall" (citlivostí)

Výzkum se zaměřil na dvě hlavní úlohy: binární detekci (je na snímku krvácení, nebo ne?) a klasifikaci podtypů krvácení (např. subarachnoidální vs. epidurální). U té první, binární detekce, dosáhl model celkové přesnosti pouze 0,52. To je v podstatě náhodný odhad, který v medicíně nemá praktické využití.

Z technického hlediska je však nejzajímavější a zároveň nejhorší parametr zvaný recall (v češtině citlivost). Recall nám říká, jaký podíl skutečně nemocných případů model dokázal správně identifikovat. U krvácení mozku byl recall modelu pouze 0,14. To znamená, že model dokázal správně odhalit pouze 14 % skutečných případů krvácení. Zbytek (86 %) nepozná a označí za zdravý stav.

Pro lékaře je toto naprosto nepoužitelné. V medicíně je totiž mnohem horší než "falešný poplach" (false positive) situace, kdy AI řekne, že je problém, ale není. Mnohem nebezpečnější je falešně negativní výsledek (false negative) – tedy když AI řekne, že je vše v pořádku, zatímco pacient má v mozku krvácení, které vyžaduje okamžitou operaci.

Srovnání s technologickými lídry

Ačkoliv studie přímo neporovnává všechny modely na trhu, její výsledky jasně ukazují rozdíl mezi obecnými multimodálními modely a specializovanou medicínskou AI. Podívejme se, jak stojí současní lídři v oblasti vizuálních úloh:

  • OpenAI GPT-4o: Extrémně schopný v obecné interpretaci obrázků (např. popsat, co je na fotce), ale postrádá hloubkovou znalost radiologických nuancí. Cena: ChatGPT Plus stojí 20 USD/měsíc.
  • Google Gemini 1.5 Pro: Nabízí obrovské kontextové okno, což umožňuje zpracovat velké množství snímků najednou, ale stále trpí nízkou přesností u specifických lékařských diagnóz. Cena: Gemini Advanced je dostupný za cca 20 EUR/měsíc.
  • Anthropic Claude 3.5 Sonnet: Exceluje v logickém uvažování a analýze textu, ale jeho vizuální schopnosti jsou stále orientovány na obecné objekty, nikoliv na mikroskopické detaily na CT skenu. Cena: Claude Pro stojí 20 USD/měsíc.

Praktický dopad: Co to znamená pro nemocnice a pacienty?

Tento výzkum nám říká, že nemůžeme se spoléhat na obecné chatboty v diagnostických procesech. Pro nemocnice, včetně těch v České republice, to znamená, že investice do AI by neměly směřovat k nákupu obecných licencí pro lékaře, ale k implementaci specializovaných systémů, které byly trénovány výhradně na medicínských datech a prošly certifikací.

Z pohledu regulace je zde klíčová role Evropské unie a jejího AI Act. Medicínské AI systémy spadají do kategorie vysokého rizika. To znamená, že software, který by měl pomáhat s diagnózou, musí splňovat extrémně přísné požadavky na transparentnost, bezpečnost a přesnost, než bude vůbec povolen k použití v EU. Obecné modely jako GPT-4o tyto požadavky pro medicínské účely v současnosti nesplňují.

Dostupnost a český kontext

V České republice se již začínají objevovat první implementace AI v radiologii, ale ty jsou založeny na algoritmech typu Convolutional Neural Networks (CNN), které jsou specializované na analýzu obrazu, nikoliv na obecné jazykové modely. Tyto systémy jsou sice méně "konverzační", ale v detekci patologií jsou řádově spolehlivější. Pro českého lékaře je důležité vědět, že i když může mít přístup k ChatGPT v češtině, jeho schopnost "vidět" lékařské snímky je stále v experimentální fázi.

Závěr: Cesta k odborné AI

Výsledek studie je jasný: obecné LLM jsou skvělé asistenti pro psaní zpráv, sumarizaci textů nebo vysvětlování termínů pacientům, ale jako diagnostické nástroje pro akutní stavy jsou v současnosti nebezpečné. Budoucnost medicíny nespočívá v tom, že budeme chtít, aby chatbot byl lékařem, ale v tom, že budeme mít specializované modely, které budou mít k dispozici gigantické množství lékařských dat a budou fungovat jako vysoce přesný filtr pro radiology.

Může AI v budoucnu zcela nahradit radiologa?

Podle současných trendů a výzkumů nikoliv. AI bude fungovat jako "druhé oko" – nástroj, který upozorní lékaře na podezřelá místa, ale finální diagnostickou odpovědnost a interpretaci komplexního klinického obrazu bude vždy držet člověk.

Jsou tyto modely schopny komunikovat v češtině při analýze snímků?

Samotná analýza obrazu (pixelů) je univerzální. Nicméně schopnost modelu vygenerovat textový popis v češtině je u modelů jako GPT-4o nebo Gemini velmi vysoká. Problémem není jazyk, ale přesnost samotné diagnózy.

Jaká je cena za implementaci takové AI do nemocnice?

U obecných modelů se platí za API volání (např. u OpenAI je to cena za tokeny). U specializovaných medicínských systémů jde o vysoké investice do licencí, integrace do nemocničního informačního systému (NIS) a certifikace dle pravidel EU, což může znamenat miliony korun.