Přejít k hlavnímu obsahu

OpenAI představuje GPT-Realtime-2: Hlasový model s rozumem na úrovni GPT-5 pro živé konverzace

Ilustrační obrázek pro jarvis-ai.cz

Poslechni si článek jako podcast

OpenAI vydává tři nové real-time hlasové modely — GPT-Realtime-2, GPT-Realtime-Translate a GPT-Realtime-Whisper. Centrální model GPT-Realtime-2 slibuje schopnosti odvozování na úrovni GPT-5 přímo v živém hovoru, rozšiřuje kontextové okno na 128 000 tokenů a umí pracovat s nástroji, přerušením i změnami tématu v reálném čase. Pro české vývojáře a firmy je klíčová informace, že modely jsou dostupné okamžitě přes Realtime API, podporují rezidenci dat v EU a češtinu pokrývá překladový model mezi 70+ jazyky.

GPT-Realtime-2 myslí v hovoru jako GPT-5

ChatGPT umí od loňska komunikovat hlasem a Google Gemini nabízí podobný real-time režim. Dosud ale modely za těmito hlasovými rozhraními zaostávaly za svými textovými protějšky — zvlášť v porovnání s modely pro odvozování, které si berou čas na promyšlení odpovědi. Podle oficiálního oznámení OpenAI už to dnes není akceptovatelné: moderní hlasový agent musí rozumět kontextu, reagovat na změny, volat nástroje a přitom udržet přirozený tok konverzace — a to vše současně.

Centerpiece nové rodiny modelů je GPT-Realtime-2. OpenAI tvrdí, že jeho schopnosti odvozování (reasoning) dosahují úrovně GPT-5. Model je navržený pro živé hlasové interakce, kde musí vést dialog, promýšlet požadavky, volat nástroje a zároveň zvládat přerušení uživatelem.

Technicky jde o výrazný posun vpřed. Kontextové okno se rozšiřuje z 32 000 na 128 000 tokenů, což umožňuje mnohem delší a složitější konverzace. Model umí volat více nástrojů paralelně a své akce doprovázet slyšitelnými frázemi jako „dovolte mi to ověřit“. Krátké úvodní věty — například „chvilinku“ — dávají uživateli najevo, že systém pracuje. Když se něco pokazí, model už nezůstává trapně zticha, ale omluví se: „Mám s tím právě potíže.“

OpenAI také zdůrazňuje zlepšené zpracování odborné terminologie, vlastních jmen a lékařských termínů. Tón hlasu je lépe kontrolovatelný: uklidňující při řešení problémů, empatický s frustrovanými uživateli, pozitivní po úspěšné akci.

Pět úrovní myšlení od minimal po xhigh

Vývojáři mohou nastavit intenzitu odvozování na pěti úrovních: minimal, low, medium, high a xhigh. Výchozí je „low“, aby se u jednoduchých dotazů udržela nízká latence. Pro složitější úkoly lze zapojit více výpočetního výkonu. Tato granularita je důležitá pro komerční nasazení, kde se musí vyvážit rychlost a přesnost.

Na benchmarku Big Bench Audio dosahuje GPT-Realtime-2 v režimu „high“ přesnosti 96,6 %, zatímco jeho předchůdce GPT-Realtime-1.5 měl 81,4 %. V testu Audio MultiChallenge, který měří schopnost plnit instrukce ve vícekolových dialozích, si variant „xhigh“ vede ještě lépe: 48,5 % oproti 34,7 % u předchozí verze.

Tři interakční vzorce pro hlasovou AI

OpenAI definuje tři základní vzorce použití, které lze také kombinovat:

  • Voice-to-Action: Uživatel popíše nahlas, co potřebuje. Systém požadavek promyslí, zavolá správné nástroje a úkol dokončí — například rezervuje letenku nebo naplánuje schůzku.
  • Systems-to-Voice: Software převádí kontext do mluveného vedení. Cestovní aplikace může cestujícího informovat, že navzdory zpoždění stihne přestup, navrhne nejrychlejší trasu na novou bránu a potvrdí přesun zavazadel.
  • Voice-to-Voice: AI pomáhá lidem vést živé konverzace přes jazykové bariéry. Deutsche Telekom už tento vzor testuje pro zákaznickou podporu.

Tyto funkce by se měly brzy objevit také v audio režimu ChatGPT. OpenAI věří, že „hlas se nyní může stát skutečně primárním rozhraním“.

Překlad a přepis jako samostatné modely

Kromě vlajkového GPT-Realtime-2 OpenAI uvádí dva specializované modely:

GPT-Realtime-Translate je samostatný model pro živý překlad. Podporuje více než 70 vstupních jazyků a 13 výstupních jazyků. Zachovává význam a drží krok s řečníkem i při změnách kontextu, regionálních akcentech a odborné slovní zásobě. Čeština figuruje mezi podporovanými vstupními jazyky, což otevírá možnosti pro české firmy působící v mezinárodním prostředí — zákaznickou podporu, cross-border prodej, vzdělávání i média.

GPT-Realtime-Whisper je nízkolatenční streamovací model pro přepis řeči. Cílí na živé titulky pro schůzky, třídy, vysílání a události. Týmy ho mohou využít pro generování poznámek a shrnutí ještě během konverzace, pro stavbu hlasových agentů s kontinuálním porozuměním řeči nebo pro urychlení následných workflow v zákaznické podpoře, zdravotnictví, prodeji a náboru.

Ceny a dostupnost pro český trh

Všechny tři modely jsou dostupné okamžitě přes Realtime API a lze je testovat v OpenAI Playground. Cenové struktury se liší podle modelu:

  • GPT-Realtime-2: 32 USD za milion audio vstupních tokenů (0,40 USD za kešované tokeny) a 64 USD za milion audio výstupních tokenů.
  • GPT-Realtime-Translate: 0,034 USD za minutu.
  • GPT-Realtime-Whisper: 0,017 USD za minutu.

Pro české a evropské vývojáře je podstatná informace, že Realtime API podporuje rezidenci dat v EU. Data aplikací založených v EU tak zůstávají na evropských serverech, což je důležité v kontextu GDPR a rostoucích požadavků na suverenitu dat. OpenAI doplňuje, že služba podléhá podnikovým závazkům ochrany soukromí.

Pro běžné uživatele v Česku zatím nové modely nejsou dostupné přímo v bezplatné verzi ChatGPT. Do audio režimu ChatGPT by se měly dostat v nejbližších týdnech, přičemž prioritu budou mít předplatitelé vyšších tarifů. Vývojáři a firmy však mohou začít experimentovat okamžitě prostřednictvím API.

Srovnání s konkurencí

Google Gemini nabízí podobný real-time konverzační režim, ale dosud nezveřejnil přesné benchmarky svých hlasových modelů vůči textovým. Anthropic se zaměřuje spíše na textové modely s dlouhým kontextem a zatím nemá obdobnou real-time hlasovou platformu. Meta s rodinou Llama modelů tlačí na open-source, ale real-time voice API na úrovni produkčního nasazení nenabízí.

OpenAI tak v tuto chvíli drží vedení v oblasti integrované hlasové inteligence s pokročilým odvozováním. Klíčovou otázkou pro další měsíce bude, jak rychle se tato technologie dostane do koncových produktů — a zda si české firmy najdou cestu k jejímu využití.

Je GPT-Realtime-2 dostupný zdarma v ChatGPT?

Ne, zatím ne. GPT-Realtime-2 je dostupný pouze přes placené Realtime API pro vývojáře. Do audio režimu ChatGPT by se měl dostat v nejbližších týdnech, pravděpodobně nejprve pro předplatitele vyšších tarifů. Bezplatná verze ChatGPT zatím používá starší hlasové modely.

Může česká firma použít GPT-Realtime-Translate pro zákaznickou podporu?

Ano. Čeština je mezi 70+ podporovanými vstupními jazyky modelu GPT-Realtime-Translate. Firma může využít Realtime API s podporou rezidence dat v EU, což znamená, že záznamy hovorů zůstávají na evropských serverech. Je však nutné zajistit plné dodržování GDPR, včetně informovaného souhlasu zákazníků se zpracováním hlasových dat umělou inteligencí.

Jak se liší GPT-Realtime-Whisper od původního Whisper modelu?

Původní Whisper je primárně model pro přepis záznamů — pracuje se soubory. GPT-Realtime-Whisper je navržený pro nízkolatenční streamování v reálném čase. Přepisuje řeš během toho, jak je vyslovena, což umožňuje živé titulky, okamžité poznámky z jednání a kontinuální porozumění pro hlasové agenty. Cena 0,017 USD za minutu ho činí dostupným pro kontinuální provoz.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.