Jak funguje Multi-Token Prediction na mobilu
Velké jazykové modely jako Gemini Nano generují text po jednotlivých tokenech — prakticky po jednom slově. Každý krok vyžaduje samostatný průchod modelem, což je na serverech s výkonnými GPU zvládnutelné, ale na telefonu to znamená neefektivní vytěžování procesoru a zbytečné vybíjení baterie. Problém není v samotném výpočtu, ale v tom, že čip tráví většinu času přesouváním miliard parametrů mezi pamětí a výpočetními jednotkami — takzvaný memory-bandwidth bottleneck.
MTP tento problém řeší technikou zvanou spekulativní dekódování (speculative decoding). Místo aby model generoval jeden token a čekal na další krok, lehká "draftovací" hlava (MTP head) v rychlém sledu odhadne několik následujících tokenů najednou. Hlavní model je pak ověří paralelně v jediném průchodu.
Geniální je, že Google nemusel Gemini Nano znovu trénovat. Původní model zůstává "zmražený" (frozen) — jeho váhy se nemění. K jeho posledním vrstvám se pouze připojí dodatečná predikční hlava, která se naučí odhadovat další tokeny na základě bohatých vnitřních reprezentací, které už hlavní model spočítal.
Nulová kopie: 130 MB úspory díky sdílené paměti
Klíčovou inovací je architektura zero-copy. Samostatný draftovací model by si musel držet vlastní KV cache (key-value paměť pro kontext) — na mobilu jde o drahocenné megabajty. MTP hlava místo toho přímo přistupuje k existující KV cache hlavního modelu prostřednictvím takzvané cross-attention. Díky tomu se ušetří přibližně 130 MB RAM na instanci, což na zařízení s omezenou pamětí rozhoduje o tom, jestli AI funkce poběží plynule, nebo ne.
Důležité je, že kvalita výstupu zůstává bitově identická s původním modelem. Pokud draftovací hlava navrhne špatný token, hlavní model ho při verifikaci zahodí a použije vlastní. Chybný draft se nikdy nedostane k uživateli.
Reálné výsledky na Pixelech 9 a 10
Google reportuje, že v produkčním nasazení — konkrétně u funkcí AI Notification Summaries (shrnutí notifikací) a Proofread (korektura textu) — MTP správně předpoví v průměru téměř dva tokeny navíc při každém průchodu modelem. To znamená méně verifikačních kroků, kratší dobu, po kterou musí běžet výkonná jádra procesoru, a tedy i nižší spotřebu energie.
Ve srovnání se samostatnými draftovacími modely o podobné velikosti (kolem 128 milionů parametrů) dosahuje MTP až o 55 % vyšší úspěšnosti přijetí tokenů u úloh s předvídatelnou strukturou, jako jsou chytré odpovědi. U složitějších úloh, jako je sumarizace s konkrétními instrukcemi, MTP rovněž výrazně překonává samostatné draftovací modely.
Proč je to důležité: on-device AI jako trend roku 2026
Rok 2026 je ve znamení přesunu AI výpočtů z cloudu přímo do zařízení. Apple s Apple Intelligence, Samsung s Galaxy AI, Qualcomm se Snapdragonem — všichni sázejí na to, že uživatelé chtějí AI funkce, které fungují offline a chrání soukromí. Google jde ještě dál: nejen že má vlastní čip Tensor, ale nyní dokáže do již nasazených modelů dodatečně integrovat optimalizace bez nutnosti je znovu trénovat od nuly.
Pro vývojáře to znamená zásadní zjednodušení. Nemusí pro každou novou úlohu dolaďovat samostatný draftovací model, který by soutěžil o paměť s hlavním modelem. MTP funguje jako univerzální urychlovač pro jakoukoliv úlohu, kterou Gemini Nano zvládá.
Stejný princip Google již dříve integroval do open-source modelů Gemma 4, kde MTP draftovací hlavy přinášejí až trojnásobné zrychlení inferencí. U Pixelů jde o první nasazení této techniky v produkčním prostředí na mobilech.
Co to znamená pro české uživatele
Telefony Pixel se v Česku oficiálně prodávají a Gemini Nano podporuje češtinu — Google ji zařadil mezi podporované jazyky již v roce 2024. Funkce jako shrnutí notifikací nebo korektura textu tak běží v češtině přímo na zařízení, bez odesílání dat na servery Googlu. S MTP nyní budou tyto funkce rychlejší a šetrnější k baterii i na starších modelech Pixel 9, které aktualizaci dostaly spolu s novou řadou Pixel 10.
Pro širší evropský kontext je podstatné, že on-device AI řeší i otázky souladu s GDPR a EU AI Act. Data zůstávají v telefonu, což eliminuje řadu právních nejistot spojených s cloudovým zpracováním osobních údajů.
Co bude dál
Google naznačuje, že MTP integruje i do budoucích Pixel zařízení a zkoumá další techniky — například paralelní dekódování bez pomocných hlav, které by mohlo latenci ještě snížit. Výzkumníci také experimentují s verification leniency, tedy "měkčí" kontrolou správnosti draftovaných tokenů, která by mohla dále zvýšit efektivitu za cenu minimální odchylky od přesného výstupu.
Jedno je jisté: éra, kdy AI funkce v telefonu znamenaly čekání a vybitou baterii, pomalu končí. A Google svým přístupem "zmrazit a urychlit" ukazuje cestu, která nevyžaduje neustálé přeučování modelů.
Funguje Multi-Token Prediction i na starších Pixelech, nebo jen na modelech 9 a 10?
Google oficiálně potvrdil nasazení MTP pouze pro řady Pixel 9 a 10. Starší modely (Pixel 8 a nižší) pravděpodobně nedisponují dostatečným výpočetním výkonem nebo architekturou paměti, kterou MTP vyžaduje pro efektivní fungování. Google však naznačil, že MTP bude součástí budoucích Pixel zařízení.
Může MTP způsobit, že AI vygeneruje nesprávný text?
Ne. Kvalita výstupu zůstává stoprocentně identická s původním modelem Gemini Nano v3. Draftovací hlava pouze navrhuje kandidátní tokeny — pokud by navrhla chybný token, hlavní model ho při verifikaci odmítne a použije vlastní. Do finálního výstupu se dostanou pouze tokeny, které hlavní model sám schválí.
Je Gemini Nano s češtinou dostupný i na jiných Android telefonech, nebo jen na Pixelech?
Gemini Nano je v současnosti nasazován primárně na zařízeních Pixel. Na vybraných telefonech Samsung (řada Galaxy S24 a novější) je dostupný přes Android AICore API, ale v omezenější podobě. Google postupně rozšiřuje podporu — pro aktuální stav doporučujeme sledovat oficiální dokumentaci Android Developers.