Představte si situaci, kdy pacient přijíždí na pohotovost s podezřením na mrtvici. CT sken je klíčovým nástrojem pro určení, zda jde o krvácení, nebo o infarkt. V takovém momentu každá sekunda rozhoduje. Pokud by v tuto chvíli pomáhal lékaři AI model, jeho chyba by mohla být fatální. Právě tento problém se stává předmětem intenzivního výzkumu. Nedávná studie publikovaná v časopise Cureus totiž podrobně testovala, jak si s touto úkolu poradí nejmodernější multimodální velké jazykové modely (LLM).
Multimodální AI: Když text potká obraz
Abychom pochopili, o co v tomto výzkumu jde, musíme si nejprve vysvětlit pojem multimodální model. Na rozdíl od klasických textových modelů, které pracují pouze se slovy, multimodální modely (jako jsou aktuální verze GPT-4o, Gemini 1.5 Pro nebo Claude 3.5 Sonnet) dokážou zpracovávat různé typy dat současně – tedy text, obrázky i video. V medicíně to znamená, že model by měl být schopen "podívat se" na CT snímek a následně o něm napsat textový popis nebo stanovit diagnózu.
V rámci studie, kterou provedli vědci z University of Virginia a dalších institucí, byly tyto modely testovány na veřejném datasetu PhysioNet, který obsahuje snímky CT s různými typy vnitřního krvácení mozku (ICH). Výsledky jsou však pro nadšence do AI poněkud ochlazující.
Kritické selhání: Problém s "recall" (citlivostí)
Výzkum se zaměřil na dvě hlavní úlohy: binární detekci (je na snímku krvácení, nebo ne?) a klasifikaci podtypů krvácení (např. subarachnoidální vs. epidurální). U té první, binární detekce, dosáhl model celkové přesnosti pouze 0,52. To je v podstatě náhodný odhad, který v medicíně nemá praktické využití.
Z technického hlediska je však nejzajímavější a zároveň nejhorší parametr zvaný recall (v češtině citlivost). Recall nám říká, jaký podíl skutečně nemocných případů model dokázal správně identifikovat. U krvácení mozku byl recall modelu pouze 0,14. To znamená, že model dokázal správně odhalit pouze 14 % skutečných případů krvácení. Zbytek (86 %) nepozná a označí za zdravý stav.
Pro lékaře je toto naprosto nepoužitelné. V medicíně je totiž mnohem horší než "falešný poplach" (false positive) situace, kdy AI řekne, že je problém, ale není. Mnohem nebezpečnější je falešně negativní výsledek (false negative) – tedy když AI řekne, že je vše v pořádku, zatímco pacient má v mozku krvácení, které vyžaduje okamžitou operaci.
Srovnání s technologickými lídry
Ačkoliv studie přímo neporovnává všechny modely na trhu, její výsledky jasně ukazují rozdíl mezi obecnými multimodálními modely a specializovanou medicínskou AI. Podívejme se, jak stojí současní lídři v oblasti vizuálních úloh:
- OpenAI GPT-4o: Extrémně schopný v obecné interpretaci obrázků (např. popsat, co je na fotce), ale postrádá hloubkovou znalost radiologických nuancí. Cena: ChatGPT Plus stojí 20 USD/měsíc.
- Google Gemini 1.5 Pro: Nabízí obrovské kontextové okno, což umožňuje zpracovat velké množství snímků najednou, ale stále trpí nízkou přesností u specifických lékařských diagnóz. Cena: Gemini Advanced je dostupný za cca 20 EUR/měsíc.
- Anthropic Claude 3.5 Sonnet: Exceluje v logickém uvažování a analýze textu, ale jeho vizuální schopnosti jsou stále orientovány na obecné objekty, nikoliv na mikroskopické detaily na CT skenu. Cena: Claude Pro stojí 20 USD/měsíc.
Praktický dopad: Co to znamená pro nemocnice a pacienty?
Tento výzkum nám říká, že nemůžeme se spoléhat na obecné chatboty v diagnostických procesech. Pro nemocnice, včetně těch v České republice, to znamená, že investice do AI by neměly směřovat k nákupu obecných licencí pro lékaře, ale k implementaci specializovaných systémů, které byly trénovány výhradně na medicínských datech a prošly certifikací.
Z pohledu regulace je zde klíčová role Evropské unie a jejího AI Act. Medicínské AI systémy spadají do kategorie vysokého rizika. To znamená, že software, který by měl pomáhat s diagnózou, musí splňovat extrémně přísné požadavky na transparentnost, bezpečnost a přesnost, než bude vůbec povolen k použití v EU. Obecné modely jako GPT-4o tyto požadavky pro medicínské účely v současnosti nesplňují.
Dostupnost a český kontext
V České republice se již začínají objevovat první implementace AI v radiologii, ale ty jsou založeny na algoritmech typu Convolutional Neural Networks (CNN), které jsou specializované na analýzu obrazu, nikoliv na obecné jazykové modely. Tyto systémy jsou sice méně "konverzační", ale v detekci patologií jsou řádově spolehlivější. Pro českého lékaře je důležité vědět, že i když může mít přístup k ChatGPT v češtině, jeho schopnost "vidět" lékařské snímky je stále v experimentální fázi.
Závěr: Cesta k odborné AI
Výsledek studie je jasný: obecné LLM jsou skvělé asistenti pro psaní zpráv, sumarizaci textů nebo vysvětlování termínů pacientům, ale jako diagnostické nástroje pro akutní stavy jsou v současnosti nebezpečné. Budoucnost medicíny nespočívá v tom, že budeme chtít, aby chatbot byl lékařem, ale v tom, že budeme mít specializované modely, které budou mít k dispozici gigantické množství lékařských dat a budou fungovat jako vysoce přesný filtr pro radiology.
Může AI v budoucnu zcela nahradit radiologa?
Podle současných trendů a výzkumů nikoliv. AI bude fungovat jako "druhé oko" – nástroj, který upozorní lékaře na podezřelá místa, ale finální diagnostickou odpovědnost a interpretaci komplexního klinického obrazu bude vždy držet člověk.
Jsou tyto modely schopny komunikovat v češtině při analýze snímků?
Samotná analýza obrazu (pixelů) je univerzální. Nicméně schopnost modelu vygenerovat textový popis v češtině je u modelů jako GPT-4o nebo Gemini velmi vysoká. Problémem není jazyk, ale přesnost samotné diagnózy.
Jaká je cena za implementaci takové AI do nemocnice?
U obecných modelů se platí za API volání (např. u OpenAI je to cena za tokeny). U specializovaných medicínských systémů jde o vysoké investice do licencí, integrace do nemocničního informačního systému (NIS) a certifikace dle pravidel EU, což může znamenat miliony korun.