Přejít k hlavnímu obsahu

AssemblyAI Voice Agent API: Nová platforma pro hlasové AI agenty

Ilustrační obrázek pro jarvis-ai.cz
AssemblyAI, jeden z nejvýznamnějších hráčů v oblasti speech-to-text technologií, představil 29. dubna 2026 své Voice Agent API — kompletní platformu pro stavbu hlasových AI agentů, která slibuje překonat největší bolest dnešních voice botů: špatný poslech. Za paušální cenu 4,50 USD za hodinu nabízí vývojářům jediné WebSocket připojení, které zahrnuje rozpoznávání řeči, logiku velkých jazykových modelů i generování hlasové odpovědi. A podle prvních benchmarků to vypadá, že v přesnosti na čísla, jména a specifickou terminologii překonává i OpenAI Realtime API.

Jeden API endpoint místo tří dodavatelů

Stavba hlasového AI agenta doposud znamenala spojovat tři různé služby: převod řeči na text (STT), velký jazykový model (LLM) a syntézu řeči (TTS). Vývojáři museli řešit latenci mezi jednotlivými kroky, synchronizovat fakturaci a sami implementovat logiku pro detekci přerušení nebo přerušení konverzace. AssemblyAI to nyní balí do jednoho API.

Voice Agent API funguje přes jediný WebSocket: streamujete audio dovnitř, dostáváte audio ven. Žádný SDK k instalaci, žádný proprietární formát událostí — pouze JSON zprávy, které vývojář pochopí za deset minut čtení dokumentace. Podle AssemblyAI většina vývojářů nasadí funkčního agenta ještě tentýž den, kdy začnou.

Platforma je postavená na modelu Universal-3 Pro Streaming, který AssemblyAI označuje za nejpřesnější streaming speech-to-text model na trhu. V interním testování na alfanumerických znacích — tedy kombinacích písmen a čísel jako jsou čísla účtů, kódy léčiv nebo e-mailové adresy — dosáhl chybovosti pouhých 16,7 %, zatímco OpenAI GPT-4o Realtime API mělo 23,3 % a Amazon Nova-3 25,5 %. To není marginální rozdíl: když voice agent špatně uslyší šestnáctimístné číslo objednávky, konverzace končí frustrací zákazníka bez ohledu na kvalitu jazykového modelu za ní.

Poslech je těžší než mluvení

Největší inovace Voice Agent API nespočívá v rychlosti generování odpovědi, ale v tom, jak dobře systém poslouchá. V průzkumu AssemblyAI z dubna 2026 označilo 76 % respondentů přesnost převodu řeči na text jako nejdůležitější faktor při stavbě voice agentů — dokonce před latencí, cenou a jednoduchostí integrace.

Důvod je prostý: pokud transcription engine špatně zachytí jméno pacienta, název léku nebo číslo faktury, LLM odpovídá na nesprávný vstup. Chyba se kaskádově znásobuje po celém řetězci. Jak uvádí tým AssemblyAI: „Garbage in, garbage out.“

Proto platforma obsahuje několik prvků, které řeší reálné konverzační situace:

  • Inteligentní detekce konce věty: Serverová detekce přechodu mezi mluvčími rozlišuje, zda uživatel jen na chvíli přestal mluvit, nebo už skutečně dokončil myšlenku. Lze ji konfigurovat podle typu konverzace — rychlý IVR vs. dlouhý klinický rozhovor.
  • Přerušení bez ticha: Když uživatel přeruší agenta uprostřed věty, systém okamžitě přestane mluvit a začne znovu naslouchat. Žádné „překřikování“, žádné trapné ticho.
  • Nástrojové volání bez ticha: Když agent volá externí funkci (například ověření objednávky v databázi), konverzace nepřechází do mrtvého ticha. Systém udržuje plynulost dialogu i během backendových operací.
  • Obnova relace: Pokud spadne WebSocket, lze se do 30 sekund znovu připojit a pokračovat přesně tam, kde konverzace skončila — kontext zůstane zachován.
  • Živá konfigurace: Systémový prompt, dostupné nástroje nebo nastavení detekce lze měnit uprostřed hovoru bez nutnosti restartu relace.

Cena, která nezaskočí

AssemblyAI zvolilo pro Voice Agent API paušální model: 4,50 USD za hodinu hovoru (0,075 USD za minutu). To znamená jednu fakturu za vše — rozpoznávání řeči, inferenci jazykového modelu i syntézu hlasu. Žádné tokenové poplatky, žádné limity na souběžnost, žádné překvapení při škálování.

Pro srovnání: stavba vlastního řetězce STT + LLM + TTS může být levnější při velmi nízkém objemu, ale náklady na engineering, účtování a latenci rychle přerostou úspory. U konkurenčních orchestrátorů jako Vapi nebo Pipecat se cena skládá z několika proměnných — minutová sazba za STT, tokenové poplatky za LLM a minutová sazba za TTS.

AssemblyAI nabízí i 50 USD kreditů zdarma na začátek bez nutnosti platební karty. Pro startupy a vývojáře, kteří chtějí otestovat koncept, to představuje několik hodin plnohodnotného testování zdarma. Pro velké objemy je k dispozici enterprise plán s individuálními sazbami.

Pro koho je Voice Agent API určeno

Platforma není šablonou pro hotového chatbota, ale infrastrukturou, na které si tým postaví vlastní produkt. AssemblyAI uvádí několik konkrétních scénářů:

  • Kontaktní centra: Automatizace směrování tiketů podle obsahu hovoru, nikoli pouze podle klíčových slov.
  • Zdravotnictví: Klinický intake, který správně zachytí názvy léků a alergií hned napoprvé.
  • Prodejní trénink: Nástroje, které identifikují moment, kdy obchodník nezvládl námitku zákazníka.
  • Jazykové vzdělávání: Aplikace poskytující okamžitou zpětnou vazbu ve více jazycích.

Výhodou je, že API používá standardní JSON schémata pro volání nástrojů — vývojáři integrují vlastní business logiku přímo do konverzačního toku bez nutnosti učit se proprietární formát.

Dostupnost v češtině a pro český trh

Zde je potřeba být upřímný: AssemblyAI Voice Agent API běží na modelu Universal-3 Pro Streaming, který v současnosti explicitně podporuje angličtinu, španělštinu, němčinu, francouzštinu, italštinu a portugalštinu. Čeština mezi ně zatím nepatří. To znamená, že pro české firmy a vývojáře není Voice Agent API připraveno na produkční nasazení v mateřském jazyce.

Na druhou stranu AssemblyAI nabízí model Universal-2 s podporou 99 jazyků včetně češtiny, a to i v real-time režimu. Pro české vývojáře, kteří potřebují český voice agent, zůstává proto zatím rozumnější sestavit si vlastní pipeline s využitím AssemblyAI STT pro češtinu a externího LLM a TTS. AssemblyAI sám uvádí, že Voice Agent API je primárně pro týmy, které chtějí „celý potrubí v jedné integraci“ — a to zatím v češtině nenabízí.

Z hlediska GDPR a EU regulace AssemblyAI disponuje certifikací SOC 2 Type II, podporuje EU Data Residency a nabízí HIPAA BAA pro zdravotnické účely. Pro české firmy působící v regulovaných odvětvích (zdravotnictví, finance) je to důležitá výhoda oproti řešením bez evropských datových záruk.

Srovnání s konkurencí

Trh hlasových AI agentů se rychle zaplňuje. Vedle AssemblyAI Voice Agent API stojí za zmínku:

  • Vapi: Specializovaný orchestrátor pro voice agenty s podporou více STT, LLM a TTS providerů. Flexibilnější, ale vyžaduje složitější nastavení a účtování je proměnlivé.
  • OpenAI Realtime API: Integrované řešení od OpenAI s nízkou latencí, ale vyšší chybovostí na alfanumerických znacích a vyšší cenou při větších objemech.
  • Deepgram Voice API: Silné v oblasti real-time transcription s vlastními modely, ale kompletní voice agent pipeline vyžaduje externí orchestraci.
  • LiveKit / Pipecat: Open-source orchestrátory, které umožňují kombinovat různé STT, LLM a TTS služby — ideální pro týmy, které chtějí plnou kontrolu nad každou vrstvou.

AssemblyAI si dělá nárok na pozici nejpřesnějšího řešení v produkčním prostředí — zejména tam, kde záleží na každém slově, čísle nebo jméně.

Verdikt: Infrastruktura, která má zmizet v pozadí

AssemblyAI Voice Agent API není určeno pro vývojáře, kteří si chtějí hrát s jednotlivými vrstvami AI řeči. Je pro týmy, které chtějí postavit produkt — a nechtějí trávit měsíce laděním turn detection nebo řešením edge caseů při přerušených hovorech.

Paušální cena 4,50 USD za hodinu, přesnost na reálných datech a jednoduchost integrace činí z Voice Agent API zajímavou volbu pro startupy i enterprise týmy v anglicky mluvících trzích. Pro české vývojáře zůstává čeština významným omezením, které by měli vzít v úvahu před rozhodnutím o nasazení. Pokud ale plánujete mezinárodní produkt nebo anglicky mluvící zákaznickou podporu, AssemblyAI si zaslouží pozornost.

Potřebuji pro Voice Agent API speciální SDK nebo framework?

Ne. Voice Agent API používá čistý WebSocket a standardní JSON zprávy. Nemusíte instalovat žádný SDK ani se učit proprietární formát událostí. Podle AssemblyAI většina vývojářů nastaví funkčního agenta během jednoho odpoledne. API je dokonce navrženo tak, aby fungovalo end-to-end s Claude Code — stačí vložit dokumentaci do terminálu a nechat si vygenerovat integraci.

Jak funguje obnova relace, když spadne spojení?

Pokud dojde k výpadku WebSocketu, máte 30 sekund na znovupřipojení. Po opětovném navázání spojení agent pokračuje přesně tam, kde konverzace skončila — včetně veškerého kontextu, historie a nastavení. To je kritické pro produkční nasazení, kde síťové výpadky nejsou výjimkou, a výrazně snižuje frustraci uživatelů při přerušených hovorech.

Mohu použít Voice Agent API s vlastním LLM nebo TTS modelem?

Voice Agent API je uzavřený end-to-end pipeline postavený na vlastních modelech AssemblyAI — STT, LLM i TTS jsou integrovány pod jednou cenou. Pokud potřebujete použít konkrétní externí model (například Claude 4 nebo vlastní TTS), doporučuje AssemblyAI použít jejich Streaming Speech-to-Text API spolu s orchestrátory jako LiveKit nebo Pipecat. Článek „When to use Voice Agent API vs. Universal-3 Pro Streaming“ na AssemblyAI blogu pomůže s rozhodnutím.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.