Přejít k hlavnímu obsahu

Google DeepMind spouští Gemini Omni: Generování a editace videa pomocí přirozené řeči je tady

Ilustrační obrázek pro jarvis-ai.cz
Google DeepMind na konferenci Google I/O 2026 představil zcela nový model s názvem Gemini Omni. Nejde o další textový chatbot, ale o multimodální generativní systém, který dokáže vytvářet a upravovat video prostřednictvím přirozeného dialogu — stejně přirozeně, jako byste instruovali zkušeného střihače. První verze Gemini Omni Flash startuje 20. května 2026 a slibuje, že natáčení a editace videa už nikdy nebudou jako dřív.

Co je Gemini Omni a čím se liší od Veo

Gemini Omni je samostatnou větví modelové rodiny Gemini, postavenou na spojení schopnosti uvažovat (reasoning) a tvořit (generation). Zatímco dosavadní modely jako Veo 3.1 sloužily „jen“ k tvorbě videa z textového zadání, Omni jde o krok dál — video můžete rozfázovat do několika kroků, v každém zadat nový prompt a model si pamatuje celý kontext předchozích úprav.

Google uvádí, že Gemini Omni rozumí fyzice — gravitaci, kinetické energii, dynamice tekutin — a dokáže tyto principy aplikovat na generované scény. Současně čerpá z rozsáhlých znalostí historie, vědy a kultury, takže výsledné video nemá být jen vizuálně působivé, ale i logicky smysluplné. V přímém srovnání s konkurencí (OpenAI Sora, Runway Gen-4) nabízí Omni právě tuto kombinační výhodu: generování + editace + reasoning v jednom modelu.

Editace videa konverzací: jako byste mluvili se střihačem

Jádro Omni spočívá v přirozené editaci videa. Model udržuje konzistenci postav, prostředí i fyzikálních vlastností napříč jednotlivými prompty. Na oficiálních ukázkách je vidět, jak model přenese postavu z jednoho prostředí do druhého, změní kamerový úhel nebo nechá zmizet konkrétní objekt — to vše bez ztráty koherence scény.

Praktický příklad z oficiální prezentace: do Gemini Omni nahrajete video houslisty, který hraje v místnosti. Napíšete „přenes houslistu do prostředí na této referenční fotografii“. Model to provede. Poté dodáte „změň úhel kamery na pohled zpoza ramene houslisty“ a model scénu upraví, aniž by ztratil kontext.

Model dokáže nahradit libovolný objekt ve videu pouhým popisem („vyměň vesmírnou loď za auto“), měnit vizuální styl („převeď scénu do retro-futuristického stylu“) nebo přidávat zvukové efekty synchronizované s akcí na obrazovce.

Reference inputs: zkombinujte cokoli s čímkoli

Jednou z nejsilnějších funkcí Gemini Omni je práce s referenčními vstupy. Do modelu můžete nahrát obrázek, video, zvuk i text a model je zkombinuje do jednoho konzistentního výstupu. Například:

  • Nahrajte fotografii postavy a video s určitým pohybem — model přenese pohyb na vaši postavu
  • Nahrajte skicu a model ji převede na realistické video, přičemž kresba slouží výhradně jako pohybový průvodce
  • Zkombinujte referenční prostředí, postavu a hudební stopu pro vytvoření kompletní scény

Tato schopnost ocílí především na kreativní profesionály, kteří chtějí rychle prototypovat vizuální nápady, ale i na běžné uživatele, kteří chtějí oživit své fotografie nebo kresby.

Vzdělávací potenciál: od proteinů po abecedu

Google explicitně ukazuje, že Omni dokáže vytvářet vzdělávací obsah. V jedné ukázce model generuje animaci skládání proteinů ve stylu stop-motion plastelínové animace — bez lidských rukou, vědecky přesně. V jiné vytváří abecedu s 26 položkami (kapybara pro C, diskokoule pro D, lávová lampa pro L), kde každé písmeno dostane vlastní záběr s odpovídajícím titulkem.

To otevírá dveře pro tvůrce vzdělávacích videí, učitele a vědecké komunikátory, kteří mohou během minut vygenerovat názorné animace složitých konceptů.

Digitální avataři: video s vaší tváří a hlasem

Kontroverznější a současně fascinující funkcí je tvorba digitálních avatarů. Uživatelé si mohou vytvořit svou digitální kopii, která bude vypadat i mluvit jako oni. Tato funkce je v pilotním režimu testována na YouTube Shorts a Google uvádí, že k ní přistupuje obezřetně — funkce pro úpravu hlasu a dialogů prochází dalším testováním.

SynthID a transparentnost: každé video bude označeno

Všechna videa vytvořená pomocí Gemini Omni budou obsahovat digitální vodoznak SynthID a metadata podle standardu C2PA Content Credentials. Původ videa bude možné ověřit přímo v Gemini aplikaci, v prohlížeči Chrome nebo ve Vyhledávání Google. Google tím navazuje na svou strategii transparentnosti AI obsahu — technologii SynthID ostatně nedávno přijalo i OpenAI pro své modely.

Dostupnost a cena

Gemini Omni Flash je od 20. května 2026 dostupný:

  • Pro předplatitele Google AI Plus, Pro a Ultra — globálně, včetně České republiky, prostřednictvím aplikace Gemini a studia Google Flow
  • YouTube Shorts a YouTube Create — zdarma pro všechny uživatele, rollout začíná tento týden
  • API pro vývojáře a firmy — plánováno na červen 2026

Pro české uživatele je zásadní, že Gemini aplikace i Google Flow podporují češtinu jako vstupní jazyk pro textové prompty, takže můžete model instruovat v rodném jazyce. Česká lokalizace rozhraní Gemini je plně dostupná. Ceny předplatného začínají na 549 Kč měsíčně (Google One AI Premium).

Google dále avizuje, že v budoucnu přibydou výstupy v podobě obrázků a zvuku, čímž se Omni stane skutečně univerzálním generativním modelem.

Co to znamená pro tvůrce a firmy v Česku

Pro české tvůrce, marketingové agentury a vzdělávací instituce představuje Gemini Omni potenciálně zlomový nástroj — poprvé je k dispozici model, který nejen generuje video, ale umožňuje ho plynule upravovat v konverzačním režimu, bez potřeby drahého software nebo pokročilých technických znalostí.

Evropská regulace (EU AI Act) sice klade na generativní AI přísnější požadavky na transparentnost, ale Google s technologií SynthID a C2PA jde těmto požadavkům naproti. Pro české firmy nasazující AI do kreativních workflow to znamená, že nástroj je od počátku navržen s důrazem na transparentnost a bezpečnost — snižuje to regulační rizika při adopci.

Hlavní konkurenti: Sora, Veo, Runway

Gemini Omni vstupuje na pole, kde už operují:

  • OpenAI Sora — generování videa z textu, limitovaná editace, cena v rámci ChatGPT Plus (20 USD/měsíc)
  • Runway Gen-4 — profesionální nástroj na generování a editaci videa, od 15 USD/měsíc
  • Google Veo 3.1 — předchůdce Omni, zaměřený primárně na generování, bez pokročilých editačních schopností

Klíčovou odlišností Omni je kombinace reasoning schopností s generováním. Zatímco Sora nebo Runway generují video na základě textového popisu a omezené následné editace, Omni si pamatuje celou historii konverzace, udržuje konzistenci scény a aplikuje fyzikální a vědecké znalosti.

Je Gemini Omni dostupný zdarma?

Částečně ano. V rámci YouTube Shorts a YouTube Create je Gemini Omni Flash dostupný zdarma pro všechny uživatele. Pro plnohodnotné využití v Gemini aplikaci a Google Flow je potřeba předplatné Google One AI Premium (v Česku od 549 Kč měsíčně) nebo vyšší tarif Pro či Ultra.

Podporuje Gemini Omni český jazyk?

Ano. Gemini aplikace i Google Flow podporují češtinu pro zadávání textových promptů. České rozhraní Gemini je plně lokalizované. Samotný model rozumí zadání v češtině — pro video generování a editaci tedy nemusíte umět anglicky.

Jak poznám, že video vytvořila AI?

Všechna videa z Gemini Omni obsahují neviditelný digitální vodoznak SynthID a C2PA metadata. Původ videa ověříte přímo v Gemini aplikaci, v prohlížeči Chrome nebo ve Vyhledávání Google. Google navíc rozšiřuje nástroje pro ověřování AI obsahu napříč webem.

Kdy bude Gemini Omni dostupný přes API pro firmy?

Google uvádí, že API přístup pro vývojáře a podniky bude spuštěn během několika týdnů od oznámení, tedy přibližně během června 2026.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.