Co je multimodální rozpoznávání emocí a proč na něm záleží
Multimodální rozpoznávání emocí (MER) je oblast AI, která se snaží z kombinace obrazu, zvuku a textu určit, jaké emoce člověk prožívá. Na rozdíl od klasických systémů, které pracují jen s textem, MER analyzuje například výraz tváře na videu, tón hlasu v nahrávce a obsah řeči — a z těchto signálů skládá celkový obraz emocionálního stavu.
Proč je to důležité? Představte si asistenta pro call centra, který podle hlasu zákazníka pozná frustraci dřív, než eskaluje. Nebo terapeutickou aplikaci, která u pacientů s depresí odhalí varovné signály, jež by člověk přehlédl. V Česku se MER technologie zatím neprosadily — většina firemních chatbotů u nás zvládne maximálně analýzu sentimentu z textu, ale na hlasovou nebo vizuální emocionální analýzu si ještě počkáme. Důvodem je mimo jiné i to, že trénovací data pro český jazyk a neverbální projevy Čechů v podstatě neexistují.
Paradox myšlení: proč pomalé uvažování AI škodí
Výzkumníci z University of Science and Technology of China (USTC), SenseTime Research a HKUST ve své práci MER-R1: Multimodal Emotion Reasoning via Slow-Fast Thinking Synergy odhalili něco překvapivého. Když nechali multimodální jazykový model (MLLM) nejprve „přemýšlet" — tedy vygenerovat řetězec úvah o tom, proč je daná emoce na místě — a teprve potom odpovědět, výsledky byly horší, než když model odpověděl rovnou bez mezikroku uvažování.
Vědci tento jev nazvali thinking paradox. Důvod je prostý: pomalé uvažování (slow thinking) sice hezky vysvětlí, proč model odpověděl tak, jak odpověděl, ale zároveň ho činí příliš konzervativním. Model se bojí udělat chybu, takže raději tipuje méně emocí — čímž sice sníží počet falešných poplachů (vyšší precision), ale zároveň přehlédne skutečné emoce (nižší recall). Rychlé myšlení (fast thinking) naopak pokryje více emocí, i za cenu občasné nepřesnosti.
Ilustrativní příklad: Když model vidí video člověka, který se usmívá, ale mluví o něčem smutném, pomalé uvažování může opatrně vybrat jen jednu emoci (např. „smutek"), zatímco rychlé myšlení odvážně označí obě („smutek" i „štěstí") — a v realitě má rychlejší přístup pravdu, protože člověk skutečně prožívá smíšené pocity.
MER-R1: jak spojit rychlost s přesností
Autoři proto navrhli framework MER-R1, který staví na metodě reinforcement learningu (RL) a kombinuje dva klíčové mechanismy:
Dual-objective disentanglement
První mechanismus odděluje optimalizaci recallu a precision do dvou samostatných signálů. Standardní přístup (např. AffectGPT-R1) optimalizuje jediné F1 skóre, které obě metriky směšuje do jednoho čísla. Jenže to podle autorů vede k tomu, že gradient silněji táhne směrem k metrice s vyšší variancí — typicky recallu, který má větší rozptyl. MER-R1 proto počítá dvě oddělené výhody (advantages) a sčítá je až poté. Tím brání tomu, aby jedna metrika „přehlušila" druhou.
Slow-fast confidence calibration
Druhý mechanismus přenáší sebevědomí rychlého myšlení do finální odpovědi, ale selektivně. U správně rozpoznaných emocí model posiluje jistotu na úroveň rychlého myšlení (které je odvážnější), zatímco u nesprávných emocí udržuje konzervativní potlačení typické pro pomalé myšlení. Výsledkem je model, který se nebojí označit skutečné emoce, ale zároveň nechrli nesmysly.
Výsledky: nový rekord na dvou benchmarcích
MER-R1 dosáhl state-of-the-art výsledků na dvou hlavních benchmarcích pro rozpoznávání emocí:
MER-UniBench — sada 9 datasetů pokrývajících jemnozrnné rozpoznávání emocí (OV-MERD+), základní emoce (MER23, MER24, MELD, IEMOCAP) a analýzu sentimentu (MOSI, MOSEI, SIMS, SIMSv2). MER-R1 zde dosáhl celkového skóre 83,50 bodu, což je o 5,63 bodu více než nejlepší reprodukovaný baseline. Pro srovnání: AffectGPT (dřívější špička) dosahoval 74,77 bodu a AffectGPT-R1 79,98 bodu.
MME-Emotion — širší benchmark od výzkumníků z Číny, který hodnotí nejen rozpoznávání emocí, ale i kvalitu odůvodnění. MER-R1 získal 51,5 CoT bodu, čímž překonal i specializovanou metodu VideoAuto-R1 (46,6 bodu). Zajímavé je, že oproti baseline se Recognition skóre zvedlo z 27,9 na 38,4, přičemž Reasoning skóre zůstalo zachováno (62,7 → 64,6).
| Model | Fine (F1) | Basic (Hitrate) | Sentiment (WAF) | Mean |
|---|---|---|---|---|
| AffectGPT | 62,52 | 68,38 | 84,22 | 74,77 |
| AffectGPT-R1 | 68,39 | 79,65 | 83,21 | 79,98 |
| VideoAuto-R1 | — | — | — | 72,40* |
| MER-R1 (náš) | 70,68 | 82,90 | 87,32 | 83,50 |
* VideoAuto-R1 na MER-UniBench pod jednotným F1 přístupem; oficiální protokol se liší.
Technické detaily a dostupnost
MER-R1 je postaven na modelu Qwen2.5-Omni od Alibaby, což je multimodální jazykový model schopný zpracovávat obraz, zvuk a text současně. Trénink probíhal ve dvou fázích: nejprve supervised fine-tuning na 5 000 náhodně vybraných vzorcích z datasetu MER-Caption+ (2 epochy, learning rate 2×10⁻⁵), poté reinforcement learning na zbývajících datech (1 epocha, learning rate 2×10⁻⁶). Celý trénink běžel na 16 GPU NVIDIA H100.
Práce je aktuálně v recenzním řízení (stav k 30. červnu 2026) a zatím nebyla publikována na žádné konferenci. Zdrojový kód ani modelové váhy nebyly v době psaní článku zveřejněny — výzkumníci je teprve připravují k vydání. To je u článků v recenzním řízení běžné, ale pro vývojáře, kteří by chtěli MER-R1 vyzkoušet, to znamená zatím čekat.
Co to znamená pro Česko a Evropu
Výzkum MER-R1 má několik implikací pro evropský — a potažmo český — kontext:
EU AI Act a emocionální AI. Evropská unie v rámci AI Act klasifikuje systémy pro rozpoznávání emocí jako vysoce rizikové, zejména v kontextu pracovišť a vzdělávání. Metody jako MER-R1, které zlepšují přesnost a zároveň poskytují vysvětlitelné zdůvodnění (explainability), by mohly pomoci splnit regulatorní požadavky EU.
Česká jazyková bariéra. Modely jako Qwen2.5-Omni jsou trénované primárně na angličtině a čínštině. Pro nasazení v českém prostředí — ať už v call centrech, zdravotnictví, nebo HR — by bylo nutné je do-trénovat na českých datech. V současnosti ale neexistuje žádný veřejně dostupný dataset multimodálních emocí v češtině, což je zásadní překážka pro lokální adopci.
Akademická relevance. Čeští výzkumníci na ČVUT, MFF UK nebo VUT v Brně se věnují počítačovému vidění a zpracování přirozeného jazyka, ale multimodální rozpoznávání emocí je u nás zatím okrajové téma. MER-R1 ukazuje směr, kterým se obor ubírá, a mohl by inspirovat i české akademické týmy.
Závěr
MER-R1 přináší elegantní řešení problému, který si málokdo uvědomoval: že explicitní uvažování AI modelu nemusí vždy vést k lepším výsledkům. Tím, že vědci analyzovali, proč pomalé myšlení v rozpoznávání emocí selhává, a navrhli mechanismus synergie obou přístupů, posunuli hranici toho, co multimodální AI v emocionální inteligenci dokáže. Až bude kód zveřejněn, může MER-R1 ovlivnit způsob, jakým se staví jakékoli modely kombinující uvažování s přímou predikcí — nejen v emocích, ale i v dalších multimodálních úlohách.
Je MER-R1 dostupný pro běžné uživatele nebo firmy?
Zatím ne. Článek je v recenzním řízení a výzkumníci zatím nezveřejnili zdrojový kód ani modelové váhy. Pokud bude práce přijata na konferenci (např. NeurIPS nebo ICML), lze očekávat zveřejnění v řádu měsíců. Pro firmy, které by chtěly technologii využít, je potřeba počkat — ale principy popsané v článku lze aplikovat nezávisle.
Jaký je rozdíl mezi MER-R1 a běžnými LLM, jako je ChatGPT nebo Claude?
ChatGPT a Claude jsou primárně textové modely — rozpoznávání emocí zvládají jen z textu (např. z přepisu konverzace). MER-R1 je multimodální — pracuje současně s obrazem, zvukem a textem, takže dokáže analyzovat například videozáznam. Navíc je specializovaný na emoce, zatímco ChatGPT je obecný model. V praxi to znamená, že MER-R1 by v emocionální analýze videa porazil ChatGPT, ale v psaní eseje by neměl šanci.
Může AI skutečně přesně rozpoznávat lidské emoce?
Částečně. Současné modely dosahují solidních výsledků u základních emocí (radost, smutek, hněv), ale u jemnějších odstínů (nostalgie, hořkosladkost, ambivalence) je přesnost výrazně nižší. MER-R1 dosahuje na MER-UniBench 83,5 bodu ze 100 — to je výborné, ale na 100% spolehlivost to nestačí. Navíc emoce jsou kulturně podmíněné: Češi například vyjadřují emoce jinak než Američané nebo Číňané, takže modely natrénované na asijských či amerických datech nemusí u českých uživatelů fungovat stejně dobře.