NVIDIA open-sourcovala PersonaPlex: hlasový AI model, který mluví a poslouchá zároveň

4. 4. 2026 jarvis

NVIDIA tiše uvolnila do světa model, který může zásadně změnit, jak počítače s lidmi mluví. PersonaPlex 7B je první open-source hlasový AI model s plně duplexní komunikací — tedy takový, který poslouchá a mluví zároveň. Jako živý člověk. A oproti Googlu Gemini Live je přitom 18× rychlejší.

Co je plný duplex a proč na tom záleží

Pokud jste někdy mluvili s hlasovým asistentem — Alexou, Siri nebo třeba ChatGPT Voice — víte, jak to chodí: vy domluvíte, asistent chvíli "přemýšlí" a teprve pak odpoví. Přesně jako u walkie-talkie — jeden mluví, druhý čeká. Tohle se odborně nazývá half-duplex, tedy polosduplexní komunikace.

Lidský rozhovor ale takto nefunguje. Přerušujeme se, říkáme "hm", "jasně", "počkej" — a to vše se děje souběžně s tím, co druhý právě říká. Tato schopnost se nazývá full-duplex a právě ji NVIDIA přinesla do open-source světa v podobě modelu PersonaPlex 7B.

PersonaPlex 7B: co umí a jak to funguje

Model byl zveřejněn 15. ledna 2026 na platformách GitHub a Hugging Face. Za jeho vývojem stojí výzkumný tým NVIDIA ADLR (Applied Deep Learning Research), konkrétně Rajarshi Roy, Jonathan Raiman, Sang-gil Lee a jejich kolegové. Výsledky popisuje vědecký článek arXiv:2602.06053.

PersonaPlex má 7 miliard parametrů a staví na open-source modelu Moshi od francouzské laboratoře Kyutai, který NVIDIA dále vylepšila a specializovala. Architektura kombinuje konvoluční a transformerové sítě pro zpracování řeči se samotným jazykovým modelem Helium.

Klíčové vlastnosti modelu:

Simultánní poslouchání i mluvení — model nezastavuje výstup, aby zpracoval vstup
Přirozené přerušování — uživatel může mluvit uprostřed odpovědi a model reaguje
Backchanneling — model říká "hm", "jasně", "rozumím" průběžně, jako skutečný člověk
Persona systém — hlas i charakter modelu lze nastavit kombinací audio vzorku a textového popisu role

Benchmarky: 70 ms vs 1 300 ms — to je propastný rozdíl

Čísla hovoří jasně. Při měření latence přepnutí slova (speaker-switch latency) dosahuje PersonaPlex hodnoty pouhých 70 milisekund. Gemini Live od Googlu potřebuje na totéž 1 260–1 300 milisekund. To je rozdíl, který v praxi znamená přirozený rozhovor vs. nepříjemné ticho.

Na benchmarku FullDuplexBench, který hodnotí schopnost modelu zvládat přerušení, pauzy a přechody ve slovu, získal PersonaPlex skóre 94,1, zatímco Moshi dosáhl 78,5 a Gemini Live jen 72,3. V kategorii "User Interruption" (zvládnutí situace, kdy uživatel model přeruší) dosahuje PersonaPlex úspěšnosti 100 %.

Přirozenost hlasu hodnotili nezávislí hodnotitelé pomocí MOS skóre (Mean Opinion Score). PersonaPlex získal 3,90 z 5, Gemini Live 3,72, Qwen 2.5 Omni 3,70 a starší Moshi jen 3,11.

Trénování za 6 hodin na 8 GPU

Jedním z překvapivých aspektů projektu je efektivita trénování. Celý fine-tuning proběhl za pouhých 6 hodin na 8 grafických kartách NVIDIA A100. Trénovací data zahrnovala reálné konverzace z korpusu Fisher English (přes 1 200 hodin), ale také synteticky vygenerované zákaznické dialogy — celkem přes 3 400 hodin.

Pro generování syntetických dialogů NVIDIA použila model Qwen3-32B a pro syntézu hlasu nástroj Chatterbox TTS. Reálné nahrávky byly anotovány pomocí interního modelu GPT-OSS-120B.

Persona systém: váš vlastní hlasový agent

PersonaPlex přináší zajímavý systém pro nastavení osobnosti a hlasu agenta. Před zahájením konverzace lze modelu předat:

Audio vzorek — krátká nahrávka definující tón, přízvuk a styl mluvy (model dosahuje skóre podobnosti hlasu 0,57 — konkurenti téměř nulového)
Textový popis role — přirozený jazyk popisující, kdo agent je a co dělá

V základu je k dispozici 16 předpřipravených hlasů (8 ženských, 8 mužských v různých variantách). Firmy tak mohou snadno vytvořit zákaznickou linku se svým vlastním "hlasovým brandem".

Pro koho je PersonaPlex určen

NVIDIA zveřejnila konkrétní případy využití, na které se model zaměřuje:

Zákaznický servis a call centra — ověřování transakcí, třídění požadavků, inbound prodej
Zdravotnictví — příjem pacientů, administrativní dotazy
Vzdělávání a tutoři — interaktivní výuka s přirozenou zpětnou vazbou
Herní průmysl — NPC s přirozenou konverzací v reálném čase
Krizový management — simulace a tréninky

Dostupnost, licence a technické požadavky

Kód modelu je dostupný pod MIT licencí — tedy bez poplatků i pro komerční použití. Váhy modelu jsou pod licencí NVIDIA Open Model License, která komerční nasazení rovněž povoluje (po přijetí podmínek na Hugging Face).

Pro provoz je potřeba Linux s GPU řady NVIDIA Ampere (A100) nebo Hopper (H100), případně nejnovější Blackwell. K dispozici je i CPU offload režim pro méně výkonné prostředí. Nasazení probíhá přes live server s webovým rozhraním nebo offline evaluační režim přes WAV soubory. Docker image je k dispozici.

Zásadní omezení: PersonaPlex aktuálně podporuje pouze angličtinu. Pro nasazení v českém prostředí bude tedy prozatím nutné počítat s anglickými konverzacemi nebo čekat na případné komunitní jazykové adaptace. NVIDIA zatím neoznámila plán pro další jazyky.

Co to znamená pro AI průmysl

Hlasová AI prošla v posledních dvou letech obrovským vývojem — od GPT-4o Voice přes Gemini Live až po open-source projekty jako Moshi. PersonaPlex je zatím nejsilnějším open-source příspěvkem do tohoto pole a navíc pochází přímo od NVIDIA, která dodává hardware, na němž celý AI ekosystém běží.

Otevřenost modelu je klíčová. Zatímco Google Gemini Live nebo OpenAI Realtime API jsou cloudové služby s tarify a datovými podmínkami, PersonaPlex lze nasadit on-premise — přímo na vlastní infrastruktuře. Pro firmy v regulovaných odvětvích (zdravotnictví, finance, veřejná správa) nebo pro ty, kteří nechtějí posílat zákaznická data do cloudu třetí strany, je to zásadní výhoda.

Celý projekt — včetně trénovacích skriptů, evaluačních benchmarků i serverové infrastruktury — je dostupný na GitHubu NVIDIA. Demo a výzkumná stránka jsou na research.nvidia.com.

Zvládne PersonaPlex češtinu?

Zatím ne. PersonaPlex 7B v aktuální verzi (v1) podporuje pouze angličtinu. NVIDIA ani komunita zatím neoznámily plán pro přidání dalších jazyků. Teoreticky je možné model dotrénovat na českých datech, ale vyžaduje to odpovídající konverzační datasety a výpočetní kapacitu.

Jaký je rozdíl mezi PersonaPlex a klasickými hlasovými asistenty jako Alexa nebo Siri?

Klasičtí asistenti fungují v tzv. half-duplex režimu: nejprve poslouchají, pak zpracují vstup a teprve pak odpoví. PersonaPlex pracuje full-duplex — poslouchá a mluví zároveň, takže dokáže reagovat na přerušení, říkat "hm" nebo "jasně" průběžně a okamžitě reagovat na změny v konverzaci. To vede k výrazně přirozenějšímu pocitu z rozhovoru.

Kolik stojí nasazení PersonaPlex?

Samotný model je zdarma — kód pod MIT licencí, váhy pod NVIDIA Open Model License. Platíte tedy jen za hardware nebo cloudový výpočetní výkon. Pro provoz je potřeba GPU třídy NVIDIA A100 nebo H100. Přibližná cena provozu na cloudovém A100 se pohybuje okolo 2–4 USD za hodinu. Plný trénink fine-tuningu proběhl za 6 hodin na 8× A100, tedy přibližně za 100–200 USD na cloudové infrastruktuře.