Google OMNI: Co o něm víme? Uniklý model pro video, obraz i zvuk v jednom

11. 5. 2026 Daniel Česák

Pár dní před konferencí Google I/O 2026 unikly první záběry z Gemini aplikace, které odhalují něco, na co nadšenci do umělé inteligence dlouho čekali — model s pracovním názvem Google OMNI. Nejde přitom o další vylepšení stávajících nástrojů, ale o zcela nový typ modelu, který slučuje generování videa, obrazu i zvuku do jednoho celku. Co všechno o něm víme, čím se liší od Veo a proč by mohl změnit pravidla hry v krátkém videu?

Co je Google OMNI?

Google OMNI (někdy označovaný jako Gemini Omni Video Generator) je unifikovaný multimodální model, který v jediném průchodu zvládá generovat video, statické obrázky i synchronizovaný zvuk. Zatímco dosud museli tvůrci kombinovat Veo (video), samostatný generátor obrázků a externí nástroj pro audio, OMNI vše spojuje do jediného promptu.

Model byl poprvé spatřen v UI Gemini aplikace díky TestingCatalog začátkem května 2026. Screenshoty ukazují přepracovaný video editor přímo v Gemini s možností generovat klipy o délce 5, 8 nebo 10 sekund v poměrech stran 16:9, 9:16 a 1:1.

Jaké schopnosti OMNI nabízí?

Podle informací z uniklého rozhraní a následných analýz serverů jako geminiomni.org bude OMNI podporovat:

Text-to-Video — vytvoření videa z textového promptu
Image-to-Video — rozhýbání statického obrázku
Reference Video/Audio — nahrání vzorového videa nebo zvuku jako předlohy
Automatické generování audia — zvuková stopa vzniká společně s videem, včetně rytmů, ruchů a dialogů
Podpora šablon — předpřipravené scénáře pro produktová videa, explainery, sociální sítě

Jeden generovací cyklus trvá přibližně 30 až 90 vteřin v závislosti na délce a rozlišení. To je výrazně rychlejší než současné nástroje, které vyžadují separátní generování a následné ruční stříhání.

OMNI vs. Veo — v čem je rozdíl?

Veo je Googlův stávající model pro generování videa. Jeho nejnovější verze Veo 3 umí vytvářet minutové klipy v rozlišení až 4K, ale zaměřuje se čistě na video. Zvuková stopa se musí přidávat zvlášť.

OMNI naproti tomu představuje skutečně unifikovaný přístup — jeden model, jeden prompt, jeden výsledek, který obsahuje video, obraz i zvuk. Zjednodušeně řečeno: Veo je specializovaný nástroj, OMNI je vše v jednom.

Dalším klíčovým rozdílem je, že OMNI dokáže pracovat s referenčním videem nebo audiem — tvůrce může nahrát ukázku stylu a model se jí přizpůsobí. To u Veo nebylo dostupné v takové šíři.

Načasování — uniklé UI před I/O 2026

Únik přichází jen pár dní před Google I/O 2026, které proběhne 19.–20. května 2026 v Mountain View. Podle všeho není náhodný — Google zřejmě model testuje v pozdní fázi a chystá se ho na konferenci oficiálně představit.

Spekuluje se, že OMNI by mohl být součástí širšího uvedení Gemini 3.1 nebo dokonce Gemini 3.2, ačkoli oficiální potvrzení zatím chybí. Screenshoty z TestingCatalog ukazují plně funkční uživatelské rozhraní, což napovídá, že model je v pokročilé fázi vývoje.

Konkurenční prostředí — Seedance, Sora a čínský nápor

OMNI nevzniká ve vzduchoprázdnu. Konkurence v oblasti AI videa je v roce 2026 mimořádně ostrá:

ByteDance Seedance 2.0 — čínský konkurent, který rovněž kombinuje video a audio, dostupný od začátku roku 2026
OpenAI Sora — dlouho očekávaný model, který se postupně otevírá uživatelům, ale stále nemá plnou audio synchronizaci
Alibaba's model — v květnu 2026 vede globální benchmarky v realismu a plynulosti pohybu
Kling a další — čínské modely, které rychle dohánějí západní konkurenci

Google s OMNI nasazuje přímou odpověď na Seedance 2.0 a vysílá signál, že v unifikovaných modelech nechce zaostávat.

Dostupnost, ceny a formáty

Oficiální ceny zatím nebyly zveřejněny, ale spekuluje se o kreditovém systému podobném jako u Veo nebo Imagen. Podle uniklých dat z rozhraní Gemini by cena mohla být:

Pro kvalita (480p): 65 kreditů/vteřinu
Pro kvalita (720p): 135 kreditů/vteřinu
Fast mód (480p): 50 kreditů/vteřinu
Fast mód (720p): 110 kreditů/vteřinu

Podporovaná rozlišení: 480p, 720p a pravděpodobně 1080p. Délka klipů: 5, 8 a 10 vteřin, ideální pro YouTube Shorts, TikTok, Instagram Reels a productová videa.

Dopad na český a evropský trh

Pro české uživatele je důležité, že OMNI poběží na infrastruktuře Google Cloud, která je v EU dobře dostupná. Gemini už podporuje češtinu na vysoké úrovni a lze očekávat, že i OMNI bude česky rozumět — včetně promptů v přirozeném jazyce.

V kontextu EU AI Act bude Google muset zajistit soulad s regulacemi, což u modelů generujících video obvykle znamená omezení tvorby deepfake obsahu a povinné vodoznaky (SynthID). To by nemělo být překvapením — Google tyto mechanismy už implementoval u Veo a Imagen.

Pro české tvůrce, markeťáky a malé podnikatele to znamená jediné: profesionálně vypadající video s audiem v řádu desítek vteřin, bez nutnosti stříhat, ladit zvukovou stopu nebo kombinovat tři různé nástroje.

Závěr — co čekat od I/O 2026?

Google OMNI vypadá jako nejvýznamnější produktové oznámení v oblasti generativního videa od uvedení Veo. Pokud Google na I/O 2026 skutečně představí unifikovaný model, který v jednom promptu zvládne video, obraz i zvuk, může to výrazně promluvit do podoby krátkého videa na sociálních sítích, v e-commerce i v reklamě.

Oficiální oznámení čekáme za necelých 10 dní — a pokud se úniky potvrdí, bude to jeden z nejsilnějších momentů celé konference.