GPT-Realtime-2 myslí v hovoru jako GPT-5
ChatGPT umí od loňska komunikovat hlasem a Google Gemini nabízí podobný real-time režim. Dosud ale modely za těmito hlasovými rozhraními zaostávaly za svými textovými protějšky — zvlášť v porovnání s modely pro odvozování, které si berou čas na promyšlení odpovědi. Podle oficiálního oznámení OpenAI už to dnes není akceptovatelné: moderní hlasový agent musí rozumět kontextu, reagovat na změny, volat nástroje a přitom udržet přirozený tok konverzace — a to vše současně.
Centerpiece nové rodiny modelů je GPT-Realtime-2. OpenAI tvrdí, že jeho schopnosti odvozování (reasoning) dosahují úrovně GPT-5. Model je navržený pro živé hlasové interakce, kde musí vést dialog, promýšlet požadavky, volat nástroje a zároveň zvládat přerušení uživatelem.
Technicky jde o výrazný posun vpřed. Kontextové okno se rozšiřuje z 32 000 na 128 000 tokenů, což umožňuje mnohem delší a složitější konverzace. Model umí volat více nástrojů paralelně a své akce doprovázet slyšitelnými frázemi jako „dovolte mi to ověřit“. Krátké úvodní věty — například „chvilinku“ — dávají uživateli najevo, že systém pracuje. Když se něco pokazí, model už nezůstává trapně zticha, ale omluví se: „Mám s tím právě potíže.“
OpenAI také zdůrazňuje zlepšené zpracování odborné terminologie, vlastních jmen a lékařských termínů. Tón hlasu je lépe kontrolovatelný: uklidňující při řešení problémů, empatický s frustrovanými uživateli, pozitivní po úspěšné akci.
Pět úrovní myšlení od minimal po xhigh
Vývojáři mohou nastavit intenzitu odvozování na pěti úrovních: minimal, low, medium, high a xhigh. Výchozí je „low“, aby se u jednoduchých dotazů udržela nízká latence. Pro složitější úkoly lze zapojit více výpočetního výkonu. Tato granularita je důležitá pro komerční nasazení, kde se musí vyvážit rychlost a přesnost.
Na benchmarku Big Bench Audio dosahuje GPT-Realtime-2 v režimu „high“ přesnosti 96,6 %, zatímco jeho předchůdce GPT-Realtime-1.5 měl 81,4 %. V testu Audio MultiChallenge, který měří schopnost plnit instrukce ve vícekolových dialozích, si variant „xhigh“ vede ještě lépe: 48,5 % oproti 34,7 % u předchozí verze.
Tři interakční vzorce pro hlasovou AI
OpenAI definuje tři základní vzorce použití, které lze také kombinovat:
- Voice-to-Action: Uživatel popíše nahlas, co potřebuje. Systém požadavek promyslí, zavolá správné nástroje a úkol dokončí — například rezervuje letenku nebo naplánuje schůzku.
- Systems-to-Voice: Software převádí kontext do mluveného vedení. Cestovní aplikace může cestujícího informovat, že navzdory zpoždění stihne přestup, navrhne nejrychlejší trasu na novou bránu a potvrdí přesun zavazadel.
- Voice-to-Voice: AI pomáhá lidem vést živé konverzace přes jazykové bariéry. Deutsche Telekom už tento vzor testuje pro zákaznickou podporu.
Tyto funkce by se měly brzy objevit také v audio režimu ChatGPT. OpenAI věří, že „hlas se nyní může stát skutečně primárním rozhraním“.
Překlad a přepis jako samostatné modely
Kromě vlajkového GPT-Realtime-2 OpenAI uvádí dva specializované modely:
GPT-Realtime-Translate je samostatný model pro živý překlad. Podporuje více než 70 vstupních jazyků a 13 výstupních jazyků. Zachovává význam a drží krok s řečníkem i při změnách kontextu, regionálních akcentech a odborné slovní zásobě. Čeština figuruje mezi podporovanými vstupními jazyky, což otevírá možnosti pro české firmy působící v mezinárodním prostředí — zákaznickou podporu, cross-border prodej, vzdělávání i média.
GPT-Realtime-Whisper je nízkolatenční streamovací model pro přepis řeči. Cílí na živé titulky pro schůzky, třídy, vysílání a události. Týmy ho mohou využít pro generování poznámek a shrnutí ještě během konverzace, pro stavbu hlasových agentů s kontinuálním porozuměním řeči nebo pro urychlení následných workflow v zákaznické podpoře, zdravotnictví, prodeji a náboru.
Ceny a dostupnost pro český trh
Všechny tři modely jsou dostupné okamžitě přes Realtime API a lze je testovat v OpenAI Playground. Cenové struktury se liší podle modelu:
- GPT-Realtime-2: 32 USD za milion audio vstupních tokenů (0,40 USD za kešované tokeny) a 64 USD za milion audio výstupních tokenů.
- GPT-Realtime-Translate: 0,034 USD za minutu.
- GPT-Realtime-Whisper: 0,017 USD za minutu.
Pro české a evropské vývojáře je podstatná informace, že Realtime API podporuje rezidenci dat v EU. Data aplikací založených v EU tak zůstávají na evropských serverech, což je důležité v kontextu GDPR a rostoucích požadavků na suverenitu dat. OpenAI doplňuje, že služba podléhá podnikovým závazkům ochrany soukromí.
Pro běžné uživatele v Česku zatím nové modely nejsou dostupné přímo v bezplatné verzi ChatGPT. Do audio režimu ChatGPT by se měly dostat v nejbližších týdnech, přičemž prioritu budou mít předplatitelé vyšších tarifů. Vývojáři a firmy však mohou začít experimentovat okamžitě prostřednictvím API.
Srovnání s konkurencí
Google Gemini nabízí podobný real-time konverzační režim, ale dosud nezveřejnil přesné benchmarky svých hlasových modelů vůči textovým. Anthropic se zaměřuje spíše na textové modely s dlouhým kontextem a zatím nemá obdobnou real-time hlasovou platformu. Meta s rodinou Llama modelů tlačí na open-source, ale real-time voice API na úrovni produkčního nasazení nenabízí.
OpenAI tak v tuto chvíli drží vedení v oblasti integrované hlasové inteligence s pokročilým odvozováním. Klíčovou otázkou pro další měsíce bude, jak rychle se tato technologie dostane do koncových produktů — a zda si české firmy najdou cestu k jejímu využití.
Je GPT-Realtime-2 dostupný zdarma v ChatGPT?
Ne, zatím ne. GPT-Realtime-2 je dostupný pouze přes placené Realtime API pro vývojáře. Do audio režimu ChatGPT by se měl dostat v nejbližších týdnech, pravděpodobně nejprve pro předplatitele vyšších tarifů. Bezplatná verze ChatGPT zatím používá starší hlasové modely.
Může česká firma použít GPT-Realtime-Translate pro zákaznickou podporu?
Ano. Čeština je mezi 70+ podporovanými vstupními jazyky modelu GPT-Realtime-Translate. Firma může využít Realtime API s podporou rezidence dat v EU, což znamená, že záznamy hovorů zůstávají na evropských serverech. Je však nutné zajistit plné dodržování GDPR, včetně informovaného souhlasu zákazníků se zpracováním hlasových dat umělou inteligencí.
Jak se liší GPT-Realtime-Whisper od původního Whisper modelu?
Původní Whisper je primárně model pro přepis záznamů — pracuje se soubory. GPT-Realtime-Whisper je navržený pro nízkolatenční streamování v reálném čase. Přepisuje řeš během toho, jak je vyslovena, což umožňuje živé titulky, okamžité poznámky z jednání a kontinuální porozumění pro hlasové agenty. Cena 0,017 USD za minutu ho činí dostupným pro kontinuální provoz.