Čtyři modely, jeden cíl: výkon dostupný každému
Gemma 4 nepřichází jako jediný model, ale jako rodina čtyř variant přizpůsobených různým potřebám a hardwaru:
- E2B — 2,3 miliardy aktivních parametrů (5,1B celkem včetně embeddingů), kontextové okno 128K tokenů. Zvládne ho smartphone nebo laptop s 4 GB RAM.
- E4B — 4,5 miliardy aktivních parametrů (8B celkem), kontextové okno 128K. Reálně použitelný na běžném notebooku s 16 GB RAM.
- 26B A4B — MoE architektura: 128 expertů, z nichž se aktivuje vždy jen 8, tedy 3,8 miliardy parametrů při inferenci z celkových 25,2B. Kontextové okno 256K. Potřebuje GPU s 16 GB VRAM nebo Mac s 32 GB RAM.
- 31B — plně husté 30,7 miliardy parametrů, kontextové okno 256K. Pro seriózní lokální nasazení nebo cloudové prostředí.
Prefixová zkratka „E" označuje modely s Per-Layer Embeddings (PLE) — inovaci, při které každá vrstva transformeru dostává vlastní kontextové podmínění. Výsledek? Menší modely se chovají „chytřeji", než by jejich velikost napovídala. Prefix „A" u 26B varianty označuje počet aktivních parametrů v MoE architektuře.
Architektura: hybridní pozornost a sdílená paměť
Pod kapotou Gemma 4 najdeme hybridní attention mechanismus, který střídá lokální sliding-window attention (512–1024 tokenů) s globálními vrstvami pokrývajícími celý kontext. Poslední vrstva je vždy globální — model tak vždy „vidí" celý kontext při tvorbě výstupu.
Další klíčová inovace je Shared KV Cache: pozdější vrstvy sítě znovu využívají key-value tensory z dřívějších vrstev. Výsledek je dramaticky nižší paměťová náročnost bez výrazné ztráty výkonu. Slovník obsahuje 262 tisíc tokenů a modely zvládají více než 140 jazyků. Trénovací data sahají do ledna 2025.
Benchmarky: čísla, která mluví za vše
Na akademických benchmarcích Gemma 4 dokazuje, proč Google označuje tyto modely za „byte for byte nejschopnější open modely":
- MMLU Pro (znalostní šíře): 31B dosahuje 85,2 %, MoE varianta 26B A4B pak 82,6 %
- AIME 2026 (matematické soutěžní úlohy, bez nástrojů): 31B dosahuje ohromujících 89,2 % — přitom se jedná o model, který si spustíte lokálně
- GPQA Diamond (doktorátní vědecké otázky): 31B = 84,3 %, 26B A4B = 82,3 %
- LiveCodeBench v6 (reálné programovací úlohy): 31B = 80,0 %, MoE = 77,1 %
- Codeforces ELO (soutěžní programování): 31B dosahuje ratingu 2 150 — úroveň zkušeného soutěžního programátora
Na Arena AI leaderboardu se 31B varianta umístila na 3. místě mezi všemi open modely a MoE 26B A4B na místě 6. — přičemž aktivuje pouhé 3,8 miliardy parametrů. To je mimořádný poměr výkonu k hardwarovým nárokům.
Multimodální schopnosti: text, obraz, video a nově i zvuk
Celá rodina Gemma 4 rozumí textovým dotazům, obrázkům a videím. Modely E2B a E4B navíc přidávají podporu zvuku — zpracování řeči, přepisy i překlady mluveného slova (maximálně 30 sekund). Jde o velký krok vpřed oproti minulé generaci.
Při práci s obrazem modely zvládají variabilní poměry stran, detekci objektů s výstupem v JSON formátu, popis GUI prvků nebo image captioning. Nativní podpora function calling a strukturovaného JSON výstupu z modelů dělá z Gemma 4 ideální základ pro agentické AI systémy — programy, které samy rozhodují, jaké nástroje použijí k dosažení cíle.
Pro transparentnost rozhodování mají modely podporu thinking mode prostřednictvím tokenů <|think|>, kdy model viditelně „přemýšlí" před odpovědí — podobně jako u OpenAI o1 nebo Clauda 3.7 Sonnet.
Apache 2.0: konec licenčních překážek
Technické novinky jsou impozantní, ale největší zpráva je právní: Gemma 4 je vydána pod licencí Apache 2.0. To je poprvé v historii celé řady — předchozí verze používaly vlastní Gemma licenci s řadou omezení.
Apache 2.0 znamená v praxi:
- Volné komerční použití bez poplatků Googlu
- Možnost začlenit modely do vlastních produktů bez omezení distribuce
- Žádné restrikce pro velké organizace (na rozdíl od Meta Llama Community licence, která omezuje firmy s více než 700 miliony aktivních uživatelů měsíčně)
- Soulad s open-source karve-outy EU AI Aktu, jehož plná vymahatelnost nastupuje v srpnu 2026
Pro české startupy, vývojáře a firmy je to prakticky nejdůležitější změna: Gemma 4 mohou vzít, upravit a zapojit do svých produktů — legálně, bez poplatků, bez strachu z licenčních auditů.
Jak si Gemma 4 stojí proti konkurenci?
Open-source AI scéna je v roce 2026 mimořádně konkurenční — a Gemma 4 vstupuje do prostředí, kde silně dominují čínské modely:
- Llama 4 od Mety: Maverick (400B celkem, 17B aktivní) dosahuje srovnatelných výsledků na MMLU Pro, Scout nabízí kontextové okno 10 milionů tokenů, ale licence je restriktivnější
- Qwen 3.5 27B (Alibaba): srovnatelný výkon, Apache 2.0, silná čínská jazyková podpora
- DeepSeek V3.2: 671B model s MIT licencí, aktuálně vede mnohé kódovací benchmarky
- Mistral Small 4: evropská alternativa (francouzský startup), MoE 119B/6B aktivních, Apache 2.0
Google s Gemma 4 dohání zejména čínskou konkurenci (Qwen, GLM-5 od Zhipu AI, Kimi od Moonshot AI), která v top tierech stále mírně vede. Silnou stránkou Gemmy zůstává ekosystém: přímá integrace s Google Vertex AI, Ollama, Hugging Face, llama.cpp/GGUF, Apple MLX nebo ONNX pro nasazení v prohlížeči přes WebGPU.
Co to znamená pro českou scénu?
Gemma 4 podporuje více než 140 jazyků — čeština by měla být zahrnuta, ačkoliv Google konkrétní benchmark pro češtinu nezveřejnil (Gemma 3 češtinu zvládala dobře). Modely jsou dostupné zdarma na Hugging Face, přes Kaggle, Ollama nebo přímo přes Google Vertex AI dostupné v EU regionech.
Malé varianty E2B a E4B jsou doslova určeny pro nasazení na běžném hardware — vývojář s MacBookem nebo herním PC s RTX 4090 může lokálně provozovat multimodální AI asistenta s podporou zvuku. NVIDIA explicitně zmiňuje Gemma 4 jako cílový model pro svůj RTX AI Garage — program podporující lokální AI na spotřebitelských GPU.
Pro firmy v Česku a ve zbytku EU je klíčový také timing: plná vymahatelnost EU AI Aktu pro poskytovatele modelů pro obecné účely nastupuje v srpnu 2026. Apache 2.0 licence dává open modelům výhody v rámci výjimek pro open-source systémy — právní jistota, kterou uzavřené modely jako GPT-4o nebo Claude neobsahují.
Kde modely stáhnout a jak je spustit?
Gemma 4 je okamžitě dostupná na Hugging Face (kolekce google/gemma-4) v základních i instruction-tuned verzích. Pro lokální spuštění funguje:
- Ollama:
ollama run gemma4:27b— nejjednodušší cesta - llama.cpp / GGUF: kvantizované verze Q4 výrazně snižují paměťové nároky
- Apple MLX: s TurboQuant až 4× nižší spotřeba paměti na Apple Silicon
- Google AI Studio: cloudové testování bez instalace
- transformers.js + WebGPU: přímo v prohlížeči bez serverů
Je Gemma 4 skutečně zdarma i pro komerční použití?
Ano. Gemma 4 je vydána pod licencí Apache 2.0, která umožňuje volné komerční využití, úpravy i distribuci bez poplatků Googlu. Jde o první verzi řady Gemma s touto skutečně otevřenou licencí — předchozí modely měly vlastní licenci s různými omezeními.
Zvládne Gemma 4 češtinu?
Modely jsou trénované na více než 140 jazycích a Gemma 3 češtinu zvládala dobře. Google konkrétní český jazykový benchmark pro Gemma 4 nezveřejnil, ale na základě šíře trénovacích dat lze očekávat slušnou kvalitu. Pro kritické aplikace v češtině je vhodné modely otestovat na svých konkrétních úlohách.
Jaký je rozdíl mezi variantou 26B A4B a klasickým 31B modelem?
Varianta 26B A4B používá architekturu MoE (Mixture of Experts): celkem má 128 expertních sítí, ale při zpracování každého tokenu aktivuje pouze 8 z nich — fakticky tedy pracuje se 3,8 miliardami parametrů. To výrazně snižuje nároky na GPU paměť a výpočetní výkon. Model 31B je naopak plně hustý (dense) a aktivuje při každém výpočtu všechny parametry. V praxi 26B A4B nabídne lepší výkon na slabším hardware, zatímco 31B může mít mírnou výhodu v konsistenci na hardwaru s dostatkem VRAM.