MER-R1: Čínský výzkum odhalil paradox myšlení AI. Pomalé uvažování může škodit rozpoznávání emocí

30. 6. 2026 Daniel Česák

Když se AI model zamyslí nad tím, jestli je člověk na videu smutný nebo šťastný, logicky by měl být přesnější než model, který odpoví „bez přemýšlení". Nový výzkum čínských vědců ale ukazuje pravý opak. Pomalé uvažování v multiodálním rozpoznávání emocí dokonce zhoršuje výsledky — a tým z USTC a SenseTime teď přišel s metodou MER-R1, která tento paradox řeší pomocí chytré synergie obou přístupů.

Co je multimodální rozpoznávání emocí a proč na něm záleží

Multimodální rozpoznávání emocí (MER) je oblast AI, která se snaží z kombinace obrazu, zvuku a textu určit, jaké emoce člověk prožívá. Na rozdíl od klasických systémů, které pracují jen s textem, MER analyzuje například výraz tváře na videu, tón hlasu v nahrávce a obsah řeči — a z těchto signálů skládá celkový obraz emocionálního stavu.

Proč je to důležité? Představte si asistenta pro call centra, který podle hlasu zákazníka pozná frustraci dřív, než eskaluje. Nebo terapeutickou aplikaci, která u pacientů s depresí odhalí varovné signály, jež by člověk přehlédl. V Česku se MER technologie zatím neprosadily — většina firemních chatbotů u nás zvládne maximálně analýzu sentimentu z textu, ale na hlasovou nebo vizuální emocionální analýzu si ještě počkáme. Důvodem je mimo jiné i to, že trénovací data pro český jazyk a neverbální projevy Čechů v podstatě neexistují.

Paradox myšlení: proč pomalé uvažování AI škodí

Výzkumníci z University of Science and Technology of China (USTC), SenseTime Research a HKUST ve své práci MER-R1: Multimodal Emotion Reasoning via Slow-Fast Thinking Synergy odhalili něco překvapivého. Když nechali multimodální jazykový model (MLLM) nejprve „přemýšlet" — tedy vygenerovat řetězec úvah o tom, proč je daná emoce na místě — a teprve potom odpovědět, výsledky byly horší, než když model odpověděl rovnou bez mezikroku uvažování.

Vědci tento jev nazvali thinking paradox. Důvod je prostý: pomalé uvažování (slow thinking) sice hezky vysvětlí, proč model odpověděl tak, jak odpověděl, ale zároveň ho činí příliš konzervativním. Model se bojí udělat chybu, takže raději tipuje méně emocí — čímž sice sníží počet falešných poplachů (vyšší precision), ale zároveň přehlédne skutečné emoce (nižší recall). Rychlé myšlení (fast thinking) naopak pokryje více emocí, i za cenu občasné nepřesnosti.

Ilustrativní příklad: Když model vidí video člověka, který se usmívá, ale mluví o něčem smutném, pomalé uvažování může opatrně vybrat jen jednu emoci (např. „smutek"), zatímco rychlé myšlení odvážně označí obě („smutek" i „štěstí") — a v realitě má rychlejší přístup pravdu, protože člověk skutečně prožívá smíšené pocity.

MER-R1: jak spojit rychlost s přesností

Autoři proto navrhli framework MER-R1, který staví na metodě reinforcement learningu (RL) a kombinuje dva klíčové mechanismy:

Dual-objective disentanglement

První mechanismus odděluje optimalizaci recallu a precision do dvou samostatných signálů. Standardní přístup (např. AffectGPT-R1) optimalizuje jediné F1 skóre, které obě metriky směšuje do jednoho čísla. Jenže to podle autorů vede k tomu, že gradient silněji táhne směrem k metrice s vyšší variancí — typicky recallu, který má větší rozptyl. MER-R1 proto počítá dvě oddělené výhody (advantages) a sčítá je až poté. Tím brání tomu, aby jedna metrika „přehlušila" druhou.

Slow-fast confidence calibration

Druhý mechanismus přenáší sebevědomí rychlého myšlení do finální odpovědi, ale selektivně. U správně rozpoznaných emocí model posiluje jistotu na úroveň rychlého myšlení (které je odvážnější), zatímco u nesprávných emocí udržuje konzervativní potlačení typické pro pomalé myšlení. Výsledkem je model, který se nebojí označit skutečné emoce, ale zároveň nechrli nesmysly.

Výsledky: nový rekord na dvou benchmarcích

MER-R1 dosáhl state-of-the-art výsledků na dvou hlavních benchmarcích pro rozpoznávání emocí:

MER-UniBench — sada 9 datasetů pokrývajících jemnozrnné rozpoznávání emocí (OV-MERD+), základní emoce (MER23, MER24, MELD, IEMOCAP) a analýzu sentimentu (MOSI, MOSEI, SIMS, SIMSv2). MER-R1 zde dosáhl celkového skóre 83,50 bodu, což je o 5,63 bodu více než nejlepší reprodukovaný baseline. Pro srovnání: AffectGPT (dřívější špička) dosahoval 74,77 bodu a AffectGPT-R1 79,98 bodu.

MME-Emotion — širší benchmark od výzkumníků z Číny, který hodnotí nejen rozpoznávání emocí, ale i kvalitu odůvodnění. MER-R1 získal 51,5 CoT bodu, čímž překonal i specializovanou metodu VideoAuto-R1 (46,6 bodu). Zajímavé je, že oproti baseline se Recognition skóre zvedlo z 27,9 na 38,4, přičemž Reasoning skóre zůstalo zachováno (62,7 → 64,6).

Srovnání klíčových modelů na MER-UniBench
Model	Fine (F1)	Basic (Hitrate)	Sentiment (WAF)	Mean
AffectGPT	62,52	68,38	84,22	74,77
AffectGPT-R1	68,39	79,65	83,21	79,98
VideoAuto-R1	—	—	—	72,40*
MER-R1 (náš)	70,68	82,90	87,32	83,50

* VideoAuto-R1 na MER-UniBench pod jednotným F1 přístupem; oficiální protokol se liší.

Technické detaily a dostupnost

MER-R1 je postaven na modelu Qwen2.5-Omni od Alibaby, což je multimodální jazykový model schopný zpracovávat obraz, zvuk a text současně. Trénink probíhal ve dvou fázích: nejprve supervised fine-tuning na 5 000 náhodně vybraných vzorcích z datasetu MER-Caption+ (2 epochy, learning rate 2×10⁻⁵), poté reinforcement learning na zbývajících datech (1 epocha, learning rate 2×10⁻⁶). Celý trénink běžel na 16 GPU NVIDIA H100.

Práce je aktuálně v recenzním řízení (stav k 30. červnu 2026) a zatím nebyla publikována na žádné konferenci. Zdrojový kód ani modelové váhy nebyly v době psaní článku zveřejněny — výzkumníci je teprve připravují k vydání. To je u článků v recenzním řízení běžné, ale pro vývojáře, kteří by chtěli MER-R1 vyzkoušet, to znamená zatím čekat.

Co to znamená pro Česko a Evropu

Výzkum MER-R1 má několik implikací pro evropský — a potažmo český — kontext:

EU AI Act a emocionální AI. Evropská unie v rámci AI Act klasifikuje systémy pro rozpoznávání emocí jako vysoce rizikové, zejména v kontextu pracovišť a vzdělávání. Metody jako MER-R1, které zlepšují přesnost a zároveň poskytují vysvětlitelné zdůvodnění (explainability), by mohly pomoci splnit regulatorní požadavky EU.

Česká jazyková bariéra. Modely jako Qwen2.5-Omni jsou trénované primárně na angličtině a čínštině. Pro nasazení v českém prostředí — ať už v call centrech, zdravotnictví, nebo HR — by bylo nutné je do-trénovat na českých datech. V současnosti ale neexistuje žádný veřejně dostupný dataset multimodálních emocí v češtině, což je zásadní překážka pro lokální adopci.

Akademická relevance. Čeští výzkumníci na ČVUT, MFF UK nebo VUT v Brně se věnují počítačovému vidění a zpracování přirozeného jazyka, ale multimodální rozpoznávání emocí je u nás zatím okrajové téma. MER-R1 ukazuje směr, kterým se obor ubírá, a mohl by inspirovat i české akademické týmy.

Závěr

MER-R1 přináší elegantní řešení problému, který si málokdo uvědomoval: že explicitní uvažování AI modelu nemusí vždy vést k lepším výsledkům. Tím, že vědci analyzovali, proč pomalé myšlení v rozpoznávání emocí selhává, a navrhli mechanismus synergie obou přístupů, posunuli hranici toho, co multimodální AI v emocionální inteligenci dokáže. Až bude kód zveřejněn, může MER-R1 ovlivnit způsob, jakým se staví jakékoli modely kombinující uvažování s přímou predikcí — nejen v emocích, ale i v dalších multimodálních úlohách.

Je MER-R1 dostupný pro běžné uživatele nebo firmy?

Zatím ne. Článek je v recenzním řízení a výzkumníci zatím nezveřejnili zdrojový kód ani modelové váhy. Pokud bude práce přijata na konferenci (např. NeurIPS nebo ICML), lze očekávat zveřejnění v řádu měsíců. Pro firmy, které by chtěly technologii využít, je potřeba počkat — ale principy popsané v článku lze aplikovat nezávisle.

Jaký je rozdíl mezi MER-R1 a běžnými LLM, jako je ChatGPT nebo Claude?

ChatGPT a Claude jsou primárně textové modely — rozpoznávání emocí zvládají jen z textu (např. z přepisu konverzace). MER-R1 je multimodální — pracuje současně s obrazem, zvukem a textem, takže dokáže analyzovat například videozáznam. Navíc je specializovaný na emoce, zatímco ChatGPT je obecný model. V praxi to znamená, že MER-R1 by v emocionální analýze videa porazil ChatGPT, ale v psaní eseje by neměl šanci.

Může AI skutečně přesně rozpoznávat lidské emoce?

Částečně. Současné modely dosahují solidních výsledků u základních emocí (radost, smutek, hněv), ale u jemnějších odstínů (nostalgie, hořkosladkost, ambivalence) je přesnost výrazně nižší. MER-R1 dosahuje na MER-UniBench 83,5 bodu ze 100 — to je výborné, ale na 100% spolehlivost to nestačí. Navíc emoce jsou kulturně podmíněné: Češi například vyjadřují emoce jinak než Američané nebo Číňané, takže modely natrénované na asijských či amerických datech nemusí u českých uživatelů fungovat stejně dobře.