Gemma 4: Google vydal nejschopnější open modely v historii — Apache 2.0 a výkon, který překvapí

3. 4. 2026 Daniel Česák

Google DeepMind 2. dubna 2026 vydal Gemma 4 — a tentokrát to není jen iterativní update. Nová generace open modelů přichází s licencí Apache 2.0, multimodálními schopnostmi zahrnujícími text, obraz, video i zvuk, a s výsledky na benchmarcích, které dříve dosahovala jen mnohem větší uzavřená řešení. Poprvé v historii řady Gemma si vývojáři, startupy i velké firmy mohou modely vzít a komerčně je použít bez jakýchkoliv licenčních omezení. Tohle je jiná hra.

Čtyři modely, jeden cíl: výkon dostupný každému

Gemma 4 nepřichází jako jediný model, ale jako rodina čtyř variant přizpůsobených různým potřebám a hardwaru:

E2B — 2,3 miliardy aktivních parametrů (5,1B celkem včetně embeddingů), kontextové okno 128K tokenů. Zvládne ho smartphone nebo laptop s 4 GB RAM.
E4B — 4,5 miliardy aktivních parametrů (8B celkem), kontextové okno 128K. Reálně použitelný na běžném notebooku s 16 GB RAM.
26B A4B — MoE architektura: 128 expertů, z nichž se aktivuje vždy jen 8, tedy 3,8 miliardy parametrů při inferenci z celkových 25,2B. Kontextové okno 256K. Potřebuje GPU s 16 GB VRAM nebo Mac s 32 GB RAM.
31B — plně husté 30,7 miliardy parametrů, kontextové okno 256K. Pro seriózní lokální nasazení nebo cloudové prostředí.

Prefixová zkratka „E" označuje modely s Per-Layer Embeddings (PLE) — inovaci, při které každá vrstva transformeru dostává vlastní kontextové podmínění. Výsledek? Menší modely se chovají „chytřeji", než by jejich velikost napovídala. Prefix „A" u 26B varianty označuje počet aktivních parametrů v MoE architektuře.

Architektura: hybridní pozornost a sdílená paměť

Pod kapotou Gemma 4 najdeme hybridní attention mechanismus, který střídá lokální sliding-window attention (512–1024 tokenů) s globálními vrstvami pokrývajícími celý kontext. Poslední vrstva je vždy globální — model tak vždy „vidí" celý kontext při tvorbě výstupu.

Další klíčová inovace je Shared KV Cache: pozdější vrstvy sítě znovu využívají key-value tensory z dřívějších vrstev. Výsledek je dramaticky nižší paměťová náročnost bez výrazné ztráty výkonu. Slovník obsahuje 262 tisíc tokenů a modely zvládají více než 140 jazyků. Trénovací data sahají do ledna 2025.

Benchmarky: čísla, která mluví za vše

Na akademických benchmarcích Gemma 4 dokazuje, proč Google označuje tyto modely za „byte for byte nejschopnější open modely":

MMLU Pro (znalostní šíře): 31B dosahuje 85,2 %, MoE varianta 26B A4B pak 82,6 %
AIME 2026 (matematické soutěžní úlohy, bez nástrojů): 31B dosahuje ohromujících 89,2 % — přitom se jedná o model, který si spustíte lokálně
GPQA Diamond (doktorátní vědecké otázky): 31B = 84,3 %, 26B A4B = 82,3 %
LiveCodeBench v6 (reálné programovací úlohy): 31B = 80,0 %, MoE = 77,1 %
Codeforces ELO (soutěžní programování): 31B dosahuje ratingu 2 150 — úroveň zkušeného soutěžního programátora

Na Arena AI leaderboardu se 31B varianta umístila na 3. místě mezi všemi open modely a MoE 26B A4B na místě 6. — přičemž aktivuje pouhé 3,8 miliardy parametrů. To je mimořádný poměr výkonu k hardwarovým nárokům.

Multimodální schopnosti: text, obraz, video a nově i zvuk

Celá rodina Gemma 4 rozumí textovým dotazům, obrázkům a videím. Modely E2B a E4B navíc přidávají podporu zvuku — zpracování řeči, přepisy i překlady mluveného slova (maximálně 30 sekund). Jde o velký krok vpřed oproti minulé generaci.

Při práci s obrazem modely zvládají variabilní poměry stran, detekci objektů s výstupem v JSON formátu, popis GUI prvků nebo image captioning. Nativní podpora function calling a strukturovaného JSON výstupu z modelů dělá z Gemma 4 ideální základ pro agentické AI systémy — programy, které samy rozhodují, jaké nástroje použijí k dosažení cíle.

Pro transparentnost rozhodování mají modely podporu thinking mode prostřednictvím tokenů <|think|>, kdy model viditelně „přemýšlí" před odpovědí — podobně jako u OpenAI o1 nebo Clauda 3.7 Sonnet.

Apache 2.0: konec licenčních překážek

Technické novinky jsou impozantní, ale největší zpráva je právní: Gemma 4 je vydána pod licencí Apache 2.0. To je poprvé v historii celé řady — předchozí verze používaly vlastní Gemma licenci s řadou omezení.

Apache 2.0 znamená v praxi:

Volné komerční použití bez poplatků Googlu
Možnost začlenit modely do vlastních produktů bez omezení distribuce
Žádné restrikce pro velké organizace (na rozdíl od Meta Llama Community licence, která omezuje firmy s více než 700 miliony aktivních uživatelů měsíčně)
Soulad s open-source karve-outy EU AI Aktu, jehož plná vymahatelnost nastupuje v srpnu 2026

Pro české startupy, vývojáře a firmy je to prakticky nejdůležitější změna: Gemma 4 mohou vzít, upravit a zapojit do svých produktů — legálně, bez poplatků, bez strachu z licenčních auditů.

Jak si Gemma 4 stojí proti konkurenci?

Open-source AI scéna je v roce 2026 mimořádně konkurenční — a Gemma 4 vstupuje do prostředí, kde silně dominují čínské modely:

Llama 4 od Mety: Maverick (400B celkem, 17B aktivní) dosahuje srovnatelných výsledků na MMLU Pro, Scout nabízí kontextové okno 10 milionů tokenů, ale licence je restriktivnější
Qwen 3.5 27B (Alibaba): srovnatelný výkon, Apache 2.0, silná čínská jazyková podpora
DeepSeek V3.2: 671B model s MIT licencí, aktuálně vede mnohé kódovací benchmarky
Mistral Small 4: evropská alternativa (francouzský startup), MoE 119B/6B aktivních, Apache 2.0

Google s Gemma 4 dohání zejména čínskou konkurenci (Qwen, GLM-5 od Zhipu AI, Kimi od Moonshot AI), která v top tierech stále mírně vede. Silnou stránkou Gemmy zůstává ekosystém: přímá integrace s Google Vertex AI, Ollama, Hugging Face, llama.cpp/GGUF, Apple MLX nebo ONNX pro nasazení v prohlížeči přes WebGPU.

Co to znamená pro českou scénu?

Gemma 4 podporuje více než 140 jazyků — čeština by měla být zahrnuta, ačkoliv Google konkrétní benchmark pro češtinu nezveřejnil (Gemma 3 češtinu zvládala dobře). Modely jsou dostupné zdarma na Hugging Face, přes Kaggle, Ollama nebo přímo přes Google Vertex AI dostupné v EU regionech.

Malé varianty E2B a E4B jsou doslova určeny pro nasazení na běžném hardware — vývojář s MacBookem nebo herním PC s RTX 4090 může lokálně provozovat multimodální AI asistenta s podporou zvuku. NVIDIA explicitně zmiňuje Gemma 4 jako cílový model pro svůj RTX AI Garage — program podporující lokální AI na spotřebitelských GPU.

Pro firmy v Česku a ve zbytku EU je klíčový také timing: plná vymahatelnost EU AI Aktu pro poskytovatele modelů pro obecné účely nastupuje v srpnu 2026. Apache 2.0 licence dává open modelům výhody v rámci výjimek pro open-source systémy — právní jistota, kterou uzavřené modely jako GPT-4o nebo Claude neobsahují.

Kde modely stáhnout a jak je spustit?

Gemma 4 je okamžitě dostupná na Hugging Face (kolekce google/gemma-4) v základních i instruction-tuned verzích. Pro lokální spuštění funguje:

Ollama: ollama run gemma4:27b — nejjednodušší cesta
llama.cpp / GGUF: kvantizované verze Q4 výrazně snižují paměťové nároky
Apple MLX: s TurboQuant až 4× nižší spotřeba paměti na Apple Silicon
Google AI Studio: cloudové testování bez instalace
transformers.js + WebGPU: přímo v prohlížeči bez serverů

Je Gemma 4 skutečně zdarma i pro komerční použití?

Ano. Gemma 4 je vydána pod licencí Apache 2.0, která umožňuje volné komerční využití, úpravy i distribuci bez poplatků Googlu. Jde o první verzi řady Gemma s touto skutečně otevřenou licencí — předchozí modely měly vlastní licenci s různými omezeními.

Zvládne Gemma 4 češtinu?

Modely jsou trénované na více než 140 jazycích a Gemma 3 češtinu zvládala dobře. Google konkrétní český jazykový benchmark pro Gemma 4 nezveřejnil, ale na základě šíře trénovacích dat lze očekávat slušnou kvalitu. Pro kritické aplikace v češtině je vhodné modely otestovat na svých konkrétních úlohách.

Jaký je rozdíl mezi variantou 26B A4B a klasickým 31B modelem?

Varianta 26B A4B používá architekturu MoE (Mixture of Experts): celkem má 128 expertních sítí, ale při zpracování každého tokenu aktivuje pouze 8 z nich — fakticky tedy pracuje se 3,8 miliardami parametrů. To výrazně snižuje nároky na GPU paměť a výpočetní výkon. Model 31B je naopak plně hustý (dense) a aktivuje při každém výpočtu všechny parametry. V praxi 26B A4B nabídne lepší výkon na slabším hardware, zatímco 31B může mít mírnou výhodu v konsistenci na hardwaru s dostatkem VRAM.