Přejít k hlavnímu obsahu

AI v radiologii: Velké jazykové modely překládají lékařské zprávy. Který je nejlepší?

AI article illustration for jarvis-ai.cz
Když pacient obdrží radiologickou zprávu v jazyce, kterému nerozumí, může to znamenat zpoždění diagnózy, zbytečný stres nebo dokonce chybnou léčbu. S rostoucí migrací, přeshraniční zdravotní péčí a rozmachem telemedicíny se jazykové bariéry ve zdravotnictví stávají čím dál palčivějším problémem. Vědci z prestižního časopisu Radiology proto otestovali 10 velkých jazykových modelů jako překladače radiologických zpráv napříč devíti jazyky. Výsledky ukazují, že AI si s překladem poradí překvapivě dobře — ale na nasazení do ostrého provozu to zatím nestačí.

Proč je překlad lékařských zpráv tak důležitý

Radiologické zprávy — ať už z CT, magnetické rezonance nebo rentgenu — obsahují vysoce odbornou terminologii, které často plně nerozumí ani rodilí mluvčí. Když k tomu přidáte jazykovou bariéru, situace se dramaticky komplikuje. Podle studie publikované v prosinci 2024 v časopise Radiology (vydávaném Radiological Society of North America) se tento problém týká milionů pacientů ročně. S nárůstem uprchlických vln, které v posledních letech zasáhly i Evropu — včetně Česka — a s rostoucí oblibou přeshraničních lékařských konzultací v rámci EU je potřeba kvalitního překladu naléhavější než kdy dřív. Lidští překladatelé se specializací na lékařskou terminologii jsou však vzácní a drazí. Právě tady nastupují velké jazykové modely — ne jako náhrada, ale jako pomocník, který dokáže během vteřin poskytnout první orientační překlad.

Jak studie probíhala: 10 modelů, 9 jazyků, 100 zpráv

Výzkumný tým pod vedením Kena Bressema z Německého kardiologického centra v Mnichově (Institut für kardiovaskuläre Radiologie und Nuklearmedizin) vytvořil sadu 100 fiktivních radiologických zpráv z CT a MRI vyšetření. Ty nechal přeložit 18 radiology do devíti jazyků a následně stejný úkol zadal deseti velkým jazykovým modelům. Testované modely zahrnovaly jak komerční, tak open-source řešení: - GPT-4 a GPT-3.5 (OpenAI) - Llama 2 70B a Llama 3 70B (Meta) - Mixtral 8x7B, Mixtral 8x22B, Mistral 7B a Mistral Large (Mistral AI) - Qwen1.5 72B (Alibaba) - Yi-34B (01.AI) Jazyky byly rozděleny do dvou kategorií: vysoko-zdrojové (angličtina, italština, francouzština, němčina, čínština) a nízko-zdrojové (švédština, turečtina, ruština, řečtina, thajština). Toto rozdělení je zásadní — LLM trénované převážně na anglických datech totiž často s méně zastoupenými jazyky výrazně bojují. Překlady byly hodnoceny třemi standardními lingvistickými metrikami: BLEU skóre (přesnost na úrovni slovních spojení), TER (míra chybovosti — kolik úprav je potřeba k dosažení lidského překladu) a chrF++ (podobnost na úrovni znaků i slov).

Kdo vyhrál? GPT-4 kraluje, ale univerzální řešení neexistuje

Celkově nejlepších výsledků dosáhl GPT-4, který exceloval zejména při překladu z angličtiny do němčiny (BLEU 35,0), řečtiny (32,6), thajštiny (53,2) a turečtiny (35,5). GPT-3.5 byl nejlepší pro anglicko-francouzský překlad (BLEU 55,4), Qwen1.5 dominoval v anglicko-čínském směru (BLEU 45,7) a Mixtral 8x22B zazářil při překladu z italštiny do angličtiny (BLEU 63,9). Klíčové zjištění studie zní: neexistuje univerzální model, který by byl nejlepší pro všechny jazyky. Výkon LLM silně závisí na tom, na jakých datech byl trénován. Qwen1.5 exceloval v čínštině právě proto, že byl trénován na více než 2,2 bilionu tokenů převážně v angličtině a čínštině. Modely s převážně anglickým tréninkem naopak selhávaly u jazyků s odlišnou strukturou — například Yi-34B při překladu do řečtiny dosáhl BLEU skóre pouhých 4,1 ze 100. Zajímavý je i rozdíl ve směru překladu. Překlad do angličtiny byl obecně přesnější než překlad z angličtiny, což vědci připisují strukturální podobnosti angličtiny s románskými jazyky a celkové anglické zaujatosti většiny modelů.

Kvalitativní hodnocení: Srozumitelnost ano, terminologie pokulhává

Kromě automatických metrik provedli radiologové i kvalitativní hodnocení na pětibodové Likertově škále v pěti kritériích. Výsledky byly v mnoha ohledech povzbudivé — ale odhalily i zásadní slabinu. Modely dosáhly velmi dobrých hodnocení v kategoriích srozumitelnost a čtivost (medián 4,0 z 5) a konzistence s původním významem (4,2). Nejhůře dopadla přesnost lékařské terminologie s mediánem pouhých 3,4 — tedy známka „dobře“, nikoliv „výborně“. Právě nepřesnosti v odborné terminologii jsou přitom v medicíně nejnebezpečnější. Záměna pojmů jako „maligní“ a „benigní“ nebo „fraktura“ a „fisura“ může mít fatální následky. Autoři studie výslovně upozorňují, že žádný z testovaných modelů není schválen pro lékařské použití a výsledky jsou čistě experimentální. V doplňkových materiálech uvádějí konkrétní příklady nebezpečných překladatelských chyb napříč různými jazyky.

Co to znamená pro Česko a Evropu

Pro české pacienty a zdravotnická zařízení má tato studie několik praktických implikací: Přeshraniční péče v EU. V rámci Evropské unie máte právo na plánovanou zdravotní péči v jiném členském státě. Pokud si necháte udělat magnetickou rezonanci v Německu a přinesete zprávu českému lékaři, jazyková bariéra je nasnadě. LLM překladače by mohly poskytnout rychlou první orientaci — ovšem s vědomím, že finální slovo musí mít kvalifikovaný lékař. Uprchlická zdravotní péče. Česko se v posledních letech opakovaně setkává s přílivem pacientů hovořících ukrajinsky, vietnamsky nebo arabsky. Automatizovaný překlad lékařských zpráv by mohl výrazně urychlit diagnostiku a snížit zátěž na zdravotnický personál. Bohužel, žádný z deseti testovaných modelů nebyl hodnocen pro tyto konkrétní jazykové páry — studie se zaměřila na devět jazyků, mezi nimiž ukrajinština, vietnamština ani arabština nefigurovaly. EU AI Act. Od srpna 2026 plně platí evropské nařízení o umělé inteligenci, které klasifikuje AI systémy ve zdravotnictví jako vysoce rizikové. To znamená, že jakýkoliv LLM nasazený pro překlad lékařských zpráv bude muset projít přísnou certifikací a splňovat požadavky na transparentnost, přesnost a lidský dohled. Bez toho se do evropských — a tedy ani českých — nemocnic nedostane.

Současný stav v červnu 2026: Kam jsme se posunuli

Studie testovala modely dostupné v první polovině roku 2024. Od té doby došlo k výraznému posunu, který dává výsledkům nový kontext: GPT-4o, GPT-5.5 a další. Modely od OpenAI prošly několika generacemi vylepšení. GPT-4o přinesl nativní multimodální schopnosti a lepší vícejazyčnou podporu, GPT-5.5 pak výrazně zlepšil porozumění kontextu a specializované terminologii. Lze předpokládat, že současné modely by v překladu lékařských zpráv dopadly ještě lépe — i když to zatím žádná srovnatelná studie neověřila. Claude 3.5, 4 a Opus 4.8. Anthropicův Claude vyniká v porozumění jemným nuancím a kontextu — což je pro lékařský překlad zásadní. Claude Opus 4.8 navíc přinesl schopnost přiznat nejistotu („tím si nejsem jistý“), což je v medicíně mnohem bezpečnější než sebevědomá halucinace. Evropské specializované modely. Výzkumná komunita pracuje na doménově specifických lékařských jazykových modelech. Projekt Medical mT5 trénuje modely pro lékařskou doménu v několika evropských jazycích včetně francouzštiny, italštiny a španělštiny. Pro češtinu zatím podobný specializovaný model neexistuje — to je příležitost pro český AI výzkum, například v návaznosti na nově vzniklou Czech AI Factory v Ostravě.

Praktické využití: Kdy to bude bezpečné?

Odborníci se shodují, že cesta k bezpečnému nasazení LLM překladačů v medicíně povede přes tři klíčové kroky: Fine-tuning na lékařských datech. Obecné modely trénované na internetových textech postrádají hluboké porozumění medicínské terminologii. Specializovaný fine-tuning na korpusech lékařských textů — ideálně vícejazyčných — může přesnost odborné terminologie výrazně zvýšit. Lidský dohled jako standard. I sebelepší model bude potřebovat kontrolu kvalifikovaným lékařem. Ideální scénář je „AI navrhne překlad, člověk schválí“ — podobně jako u autonomních vozidel, kde řidič stále drží volant. Studie z Radiology jednoznačně ukázala, že i nejlepší modely produkují terminologické chyby. Regulační rámec. Bez certifikace podle EU AI Act a nařízení o zdravotnických prostředcích (MDR) se LLM překladače do evropských nemocnic nedostanou. A to je správně — v sázce je lidské zdraví.

Závěr: Obrovský potenciál, ale zatím s rezervou

Velké jazykové modely prokázaly, že dokážou překládat radiologické zprávy s překvapivou přesností. GPT-4 a další velké modely si poradí s většinou jazyků výrazně lépe než menší open-source alternativy. Jenže medicína není e-shop — chyba v překladu může mít fatální následky. Studie z Radiology je důležitým milníkem, který ukazuje cestu vpřed. Potvrzuje, že LLM mají potenciál pomoci milionům pacientů překonat jazykové bariéry v přístupu ke zdravotní péči. Zároveň ale jasně říká: zatím je to experiment, ne nástroj pro klinickou praxi. Než uvidíme LLM překladače v českých nemocnicích, čeká nás ještě hodně práce — na modelech, datech i regulaci.

Může si pacient sám nechat přeložit lékařskou zprávu přes ChatGPT nebo jiný LLM?

Technicky ano, ale rozhodně to nedoporučujeme. Běžné LLM modely nejsou certifikovány pro lékařské použití a podle studie v Radiology produkují chyby v odborné terminologii — a to i ty nejlepší z nich. Pacient navíc nemusí chybu rozpoznat. Pokud potřebujete přeložit lékařskou zprávu, obraťte se na profesionálního překladatele se specializací na medicínu. LLM může sloužit pouze pro hrubou orientaci, nikdy jako podklad pro lékařské rozhodnutí.

Které jazyky jsou pro LLM překlad lékařských textů nejproblematičtější?

Podle studie jsou nejproblematičtější takzvané nízko-zdrojové jazyky — tedy jazyky, pro které existuje málo trénovacích dat. Nejhorších výsledků dosahovaly modely při překladu do řečtiny (BLEU skóre Yi-34B pouhých 4,1) a thajštiny. Problematická je i čeština, která patří mezi středně-zdrojové jazyky — modelů trénovaných na kvalitních českých lékařských textech je stále velmi málo. Obecně platí, že čím více trénovacích dat v daném jazyce existuje, tím lepší překlad LLM poskytne.

Budou AI překladače v nemocnicích někdy zdarma, nebo si je budou muset nemocnice draze kupovat?

Záleží na modelu. Open-source modely jako Llama nebo Mixtral lze provozovat zdarma na vlastní infrastruktuře, což je atraktivní pro nemocnice, které chtějí mít data pod kontrolou. Komerční modely (GPT, Claude) se platí podle objemu přeloženého textu. Vzhledem k citlivosti zdravotnických dat lze očekávat, že evropské nemocnice budou preferovat lokálně provozované open-source modely certifikované podle EU AI Act — což se ale zatím nikde neděje. První pilotní projekty v EU lze očekávat v horizontu 2–3 let.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.