Proč je rychlost inference kritická
Velké jazykové modely jsou dnes všudypřítomné. Pomáhají s programováním, psaním textů, analýzou dat i řízením autonomních agentů. Problém ale nastává ve chvíli, kdy je chceme provozovat lokálně — na osobním počítači, notebooku nebo mobilním telefonu. Standardní inference je totiž vázaná na paměťovou propustnost, nikoliv na výpočetní výkon samotný. To znamená, že procesor nebo grafická karta většinu času jen přesouvají miliardy parametrů z paměti do výpočetních jednotek, aby vygenerovaly jediný token — jedno slovo nebo jeho část.
Tento jev je obzvlášť patrný na běžném hardwaru. I výkonná grafická karta typu NVIDIA RTX PRO 6000 nebo spotřební Apple Silicon často dosahují jen zlomku svého teoretického výkonu, protože jsou limitovány přenosem dat. Výsledek? Vysoká latence, pomalé odpovědi a frustrace uživatelů, kteří očekávají interaktivní zážitek.
Jak funguje spekulativní dekódování
Technika, kterou Google nyní implementuje pro Gemmu 4, není úplně nová. Poprvé ji představili výzkumníci Googlu již v roce 2022 v práci Fast Inference from Transformers via Speculative Decoding. Princip je překvapivě jednoduchý: místo aby hlavní model generoval token po tokenu, doplníme ho o lehký „drafter" model, který předpovídá několik budoucích tokenů najednou.
Představte si to jako autora a korektora. Autor (drafter) napíše odstavec rychle a instinktivně. Korektor (hlavní model) pak celý text zkontroluje a buď schválí, nebo opraví. V případě schválení získáme několik tokenů „zdarma" — v čase, který by hlavní model normálně potřeboval na vygenerování jednoho. A pokud drafter trefí vedle, hlavní model jednoduše opraví chybu a pokračuje dál. Díky tomu nedochází k žádné degradaci kvality výstupu.
Google u modelů Gemma 4 tuto techniku dotáhl dál. MTP draftery sdílejí s hlavním modelem KV cache i vnitřní aktivace, což znamená, že nemusí znovu počítat kontext, který již velký model zpracoval. U edge modelů E2B a E4B navíc vývojáři implementovali efektivní clusterování v embedderu, které urychluje finální výpočet logitů — typický bottleneck u menších modelů.
Konkrétní čísla a podporované platformy
Podle oficiálních měření Googlu přináší MTP draftery pro Gemmu 4 zrychlení až 3× ve srovnání se standardní inference. Testy probíhaly na platformách LiteRT-LM, MLX, Hugging Face Transformers a vLLM. Konkrétně model Gemma 4 26B na grafické kartě NVIDIA RTX PRO 6000 dosahuje s drafterem přibližně dvojnásobného počtu tokenů za sekundu při zachování identické kvality výstupu.
Zajímavé jsou také výsledky na Apple Silicon. Zatímco u modelu 26B MoE (mixture-of-experts) při dávce jednoho požadavku (batch size 1) jsou routovací výzvy limitující, při zpracování více požadavků současně (batch size 4–8) se rychlost zvyšuje přibližně 2,2×. Podobné zrychlení pozorují vývojáři i na serverových kartách NVIDIA A100.
Srovnání s konkurencí a kontext trhu
Spekulativní dekódování se postupně stává standardem. Podobné techniky využívají i modely DeepSeek nebo implementace v rámci ekosystému Llama od Meta. Google ale nyní nabízí nativní, oficiálně podporovanou a optimalizovanou variantu přímo pro svou vlajkovou open-source rodinu. To je důležité zejména pro vývojáře, kteří preferují ověřená řešení od velkých hráčů s dlouhodobou podporou.
Gemma 4 byla představena teprve před několika týdny a za tu dobu zaznamenala přes 60 milionů stažení. Model je navržený tak, aby nabízel maximální inteligenci na parametr — od mobilních zařízení přes pracovní stanice až po cloud. S příchodem MTP drafterů se tento slib posouvá ještě dál. Zatímco konkurence často klade důraz na čistý výkon v benchmarcích, Google se zaměřuje na praktickou použitelnost v reálných podmínkách.
Co to znamená pro české vývojáře a firmy
Pro český trh je klíčové, že Gemma 4 i její MTP draftery jsou dostupné pod licencí Apache 2.0. To znamená, že je mohou vývojáři, startupy i velké firmy používat komerčně bez licenčních poplatků a bez obav z vendor lock-inu. V kontextu připravované implementace EU AI Act je navíc provozování open-source modelů lokálně výhodné z pohledu compliance — data neopouštějí firemní infrastrukturu a organizace mají plnou kontrolu nad tím, jak model zpracovává citlivé informace.
Dostupnost v populárních nástrojích jako Ollama, vLLM, SGLang nebo MLX znamená, že čeští vývojáři nemusí měnit svou stávající infrastrukturu. Stačí stáhnout váhy modelů z Hugging Face nebo Kaggle a integrovat je do existujících pipeline. Pro mobilní aplikace je možné vyzkoušet modely přímo v aplikaci Google AI Edge Gallery pro Android či iOS.
Praktické využití a budoucnost
MTP draftery nejsou jen akademická zajímavost. Jejich dopad bude patrný v několika oblastech:
Asistenti pro programování: Rychlejší generování kódu znamená plynulejší workflow. Vývojář dostává návrhy téměř okamžitě, což zvyšuje produktivitu a snižuje přerušení koncentrace.
Hlasoví agenti a chatboti: Latence je klíčová pro přirozenou konverzaci. S MTP draftery se blížíme k reálnému času i na běžném hardwaru.
Autonomní agenti: Agenti vyžadující rychlé multi-step plánování profitují z každé ušetřené milisekundy. Rychlejší inference umožňuje složitější úlohy v kratším čase.
Edge a mobilní zařízení: Kratší doba generování přímo šetří baterii. Uživatelé smartphonů a tabletů tak mohou využívat pokročilé AI offline a déle.
Google zároveň zveřejnil technický rozbor, který podrobně vysvětluje architekturu drafterů, sdílení KV cache a optimalizaci embedderů. Pro vývojáře, kteří chtějí porozumět detailům, jde o cenný zdroj.
Potřebuji k použití MTP drafterů speciální hardware?
Ne. MTP draftery fungují na běžném hardwaru — od Apple Silicon přes spotřební NVIDIA karty až po servery s A100. Optimalizace se liší podle platformy, ale princip je stejný všude.
Ztrácí se při použití drafteru nějaká kvalita odpovědi?
Ne. Hlavní model Gemma 4 si vždy ponechává poslední slovo — každý token vygenerovaný drafterem je ověřen. Pokud drafter trefí vedle, hlavní model opraví chybu. Výsledná kvalita je identická se standardní inference.
Jak začít s MTP draftery v Ollamě nebo vLLM?
Stačí stáhnout váhy MTP drafteru pro váš model Gemma 4 z Hugging Face a postupovat podle oficiální dokumentace na ai.google.dev/gemma/docs/mtp. Podpora je integrována přímo v populárních frameworkách, takže aktivace obvykle vyžaduje jen úpravu konfigurace inference.