Tři vzorce pro hlasovou AI: od hlasu k činům
OpenAI identifikovalo tři hlavní scénáře, podle kterých vývojáři staví hlasové aplikace. Prvním je voice-to-action, kdy uživatel řekne, co potřebuje, a systém to provede — vyhledá nemovitost, naplánuje schůzku nebo objedná jídlo. Zillow už testuje asistenta, který na základě hlasového požadavku „najdi mi domy v mém rozpočtu, vyhni se rušným ulicím a domluv prohlídku na sobotu" dokáže samostatně vyhledat, filtrovat a zarezervovat termín.
Druhý scénář systems-to-voice obrací tok informací: software sám aktivně komunikuje s uživatelem. Cestovní aplikace vás tak může upozornit, že „váš příletový let má zpoždění, ale stíháte přestup — našel jsem novou bránu a nejrychlejší trasu přes terminál".
Třetí vzorec voice-to-voice umožňuje plynulou konverzaci napříč jazyky. Deutsche Telekom testuje model pro zákaznickou podporu, kde každý mluví svým preferovaným jazykem a překlad probíhá v reálném čase. Priceline pak pracuje na budoucnosti, kde cestovatelé zvládnou celou dovolenou hlasem — od hledání letů a hotelů až po řešení změn, když let nabere zpoždění.
GPT-Realtime-2: Co umí nový hlasový model
GPT-Realtime-2 není jen rychlejší verze předchozího modelu. Jde o první hlasový model OpenAI, který využívá uvažování na úrovni GPT-5. To znamená, že při konverzaci dokáže současně přemýšlet nad dotazem, volat externí nástroje, zvládat opravy a přerušení — a přitom reagovat přiměřeně situaci.
Mezi klíčové novinky patří:
- Preambule: Vývojáři mohou zapnout krátké fráze jako „moment, podívám se na to" nebo „nechte mě to ověřit", aby uživatel věděl, že agent pracuje na požadavku.
- Paralelní volání nástrojů: Model dokáže volat více nástrojů současně a své akce oznamovat hlasem („kontroluji kalendář", „vyhledávám to").
- Lepší zotavení z chyb: Místo tichého selhání řekne „teď mám s tímto problém" a pokračuje dál.
- Delší kontextové okno: Ze 32K na 128K tokenů pro delší a komplexnější konverzace.
- Silnější doménové porozumění: Lépe si pamatuje odbornou terminologii, vlastní jména, zdravotnické pojmy a další specifickou slovní zásobu.
- Nastavitelné úsilí uvažování: Vývojáři volí z pěti úrovní — minimal, low, medium, high a xhigh — podle toho, zda jde o jednoduchý dotaz, nebo složitou úlohu. Výchozí je low pro rychlejší odezvu.
Benchmarky: O kolik je lepší?
GPT-Realtime-2 na úrovni high dosahuje o 15,2 % lepšího skóre v Big Bench Audio (testuje schopnosti uvažování u modelů se zvukovým vstupem) oproti předchozí verzi GPT-Realtime-1.5. Na úrovni xhigh pak překonává předchůdce o 13,8 % v Audio MultiChallenge — testu, který hodnotí vícekolovou konverzační inteligenci včetně sledování instrukcí, integrace kontextu a zvládání přirozených oprav v řeči.
V praxi to potvrzuje i Zillow: na jejich nejtěžším testovacím scénáři úspěšnost hovorů vzrostla z 69 % na 95 % po optimalizaci promptů, což představuje skok o 26 procentních bodů. Josh Weisberg, šéf AI v Zillow, uvedl: „Kombinace agentních schopností a spolehlivosti guardrailů je to, co dělá GPT-Realtime-2 životaschopným pro produkční nasazení."
GPT-Realtime-Translate: Živý překlad pro 70+ jazyků
Druhý model cílí na globální komunikaci. GPT-Realtime-Translate podporuje více než 70 vstupních jazyků a překládá do 13 výstupních jazyků. Překlad probíhá v reálném čase, takže konverzace zůstává plynulá — model zvládá i regionální přízvuky, změny kontextu a doménově specifický jazyk.
Deutsche Telekom model testuje pro vícejazyčné hlasové interakce v zákaznické podpoře. Vimeo zase ukázalo, jak Realtime-Translate dokáže živě překládat produktová videa — globální zákazníci tak slyší novinky ve svém jazyce bez čekání na samostatně vyrobenou verzi. Indický startup BolnaAI, který staví hlasovou AI pro jazykově rozmanitou Indii, naměřil napříč hindštinou, tamilštinou a telugštinou o 12,5 % nižší chybovost slov (Word Error Rate) než u jakéhokoli jiného testovaného modelu.
Pro Česko je zásadní otázka podpory češtiny. OpenAI sice nezveřejnilo kompletní seznam podporovaných jazyků, ale při více než 70 vstupních jazycích je téměř jisté, že čeština je mezi nimi. U výstupních 13 jazyků bude podpora selektivnější — pravděpodobně půjde o hlavní světové jazyky. Přesný seznam OpenAI teprve zveřejní v dokumentaci API.
GPT-Realtime-Whisper: Přepis řeči, který drží krok
Třetí model je určen pro streamovací přepis řeči na text s nízkou latencí. GPT-Realtime-Whisper přepisuje, zatímco člověk mluví — titulky se objevují okamžitě, poznámky ze schůzek vznikají během konverzace a hlasoví agenti rozumí průběžně.
Využití sahá od titulkování živých přenosů a výuky přes automatické zápisy z jednání až po rychlejší následné workflow v zákaznické podpoře, zdravotnictví, prodeji nebo náboru.
Bezpečnost a evropská data
OpenAI nasadilo několik vrstev ochrany. Aktivní klasifikátory sledují relace v Realtime API a dokážou konverzaci zastavit, pokud detekují porušení pravidel pro škodlivý obsah. Vývojáři mohou přidat vlastní ochranné mechanismy přes Agents SDK. Firemní zásady zakazují využití výstupů pro spam, klamání nebo jiné škodlivé účely.
Pro evropské firmy je podstatné, že Realtime API plně podporuje EU Data Residency — data tak mohou zůstat v evropských datových centrech. Na modely se rovněž vztahují enterprise závazky ochrany soukromí.
Ceny a dostupnost v API
Všechny tři modely jsou dostupné přes Realtime API OpenAI. Ceny jsou následující:
- GPT-Realtime-2: 32 USD za milion audio vstupních tokenů (0,40 USD u cachovaných vstupů), 64 USD za milion audio výstupních tokenů
- GPT-Realtime-Translate: 0,034 USD za minutu
- GPT-Realtime-Whisper: 0,017 USD za minutu
Pro představu: hodina překladu v reálném čase přes GPT-Realtime-Translate vyjde přibližně na 2 USD (zhruba 45 Kč). Proti lidskému překladateli jde o řádově nižší cenu — a při zachování okamžité odezvy.
Modely lze testovat v Playgroundu OpenAI a vývojáři mohou začít stavět přes Codex CLI. Pro české vývojáře a firmy je API plně dostupné okamžitě za standardních podmínek — žádné geografické omezení se neuplatňuje.
Co to znamená pro české prostředí
OpenAI svými modely adresuje tři oblasti, kde české firmy dosud narážely na limity. Hlasoví agenti v češtině — díky GPT-Realtime-2 s lepším porozuměním jménům a doménové terminologii mohou české banky, pojišťovny nebo e-shopy stavět voiceboty, kteří přirozeně konverzují, rozumí kontextu a dokážou i volat interní systémy. Vícejazyčná podpora přes Realtime-Translate otevírá dveře firmám, které obsluhují zahraniční klientelu nebo expandují do zahraničí. A okamžitý přepis schůzek přes Realtime-Whisper usnadní práci týmům, které pracují napříč časovými pásmy nebo potřebují přesné zápisy z jednání.
České firmy, které již využívají OpenAI API, mohou nové modely nasadit okamžitě. Jedinou bariérou zůstává cena při vysokých objemech — ale srovnání s alternativami (lidská obsluha, klasické překladatelské služby) stále vychází výrazně ve prospěch AI.
Podporuje GPT-Realtime-Translate češtinu?
OpenAI uvádí podporu 70+ vstupních jazyků, takže čeština je s vysokou pravděpodobností mezi nimi. U výstupních 13 jazyků bude podpora selektivnější — kompletní seznam zveřejní OpenAI v oficiální dokumentaci API. Pro jistotu doporučujeme otestovat v Playgroundu.
Kolik stojí nasazení GPT-Realtime-2 pro firemní voicebota?
Cena se odvíjí od objemu tokenů. Při běžné firemní konverzaci (cca 5 minut, stovky tokenů za vstup a výstup) se jednotlivý hovor pohybuje v řádu jednotek centů. Pro přesnou kalkulaci je nutné znát objem hovorů a jejich délku — OpenAI doporučuje začít s menším nasazením a škálovat podle potřeby.
Je GPT-Realtime-2 dostupný i v ChatGPT pro běžné uživatele?
Zatím ne. Modely jsou v tuto chvíli dostupné pouze přes API pro vývojáře. OpenAI nicméně zpřístupnilo demo na svém webu, kde si lze GPT-Realtime-2 vyzkoušet. Kdy a zda se model dostane do samotného ChatGPT, firma neoznámila.