Přejít k hlavnímu obsahu

Google odhalil osmou generaci TPU: dvojí čip pro éru AI agentů

AI chip architecture visualization
Google na konferenci Cloud Next 2026 představil osmou generaci vlastních AI čipů TPU. Poprvé v historii se specializovaný akcelerátor dělí na dvě samostatné jednotky — TPU 8t pro trénink modelů a TPU 8i pro inference. Rozhodnutí reflektuje narůstající poptávku po infrastruktuře pro AI agenty, která vyžaduje odličný přístup k výpočetnímu výkonu i latenci.

Proč Google oddělil trénink od inference

Po deset let vyvíjel Google univerzální čipy, které zvládaly jak trénink neuronových sítí, tak jejich provoz v reálném čase. S nástupem éry AI agentů — autonomních systémů, které iterativně řeší problémy, plánují a učí se ze svých akcí — se ukázalo, že jedna architektura už optimálně nepostačuje.

„S rozmachem AI agentů jsme dospěli k závěru, že komunita by profitovala z čipů individuálně specializovaných na potřeby tréninku a servingu,“ uvedl Amin Vahdat, senior viceprezident Google a hlavní technolog pro AI a infrastrukturu. Sundar Pichai, CEO Alphabetu, dodal, že architektura TPU 8i je navržena „pro masivní propustnost a nízkou latenci potřebnou k současnému provozu milionů agentů nákladově efektivně.“

Toto rozdělení není unikátní jen pro Google. Amazon Web Services již dříve představil samostatné čipy Inferentia (2018) a Trainium (2020), Microsoft v lednu 2026 oznámil druhou generaci vlastního AI čipu Maia 200 a Meta spolupracuje s Broadcomem na vývoji více variant AI procesorů. Trend specializovaného silikonu tak zrychluje napříč celým Big Tech.

TPU 8t: superpočítač pro trénink frontier modelů

Tréninková jednotka TPU 8t je stavěná pro nejnáročnější úlohy vývoje foundation modelů. Google uvádí, že nový čip nabízí téměř 3x výpočetní výkon na pod oproti předchozí generaci Ironwood při stejné ceně. Konkrétněji: jeden superpod nyní obsahuje až 9 600 čipů a 2 petabajty sdílené vysokorychlostní paměti s dvojnásobnou propustností mezi čipy oproti Ironwoodu.

Celkový výkon takové konfigurace dosahuje 121 ExaFlops. To je výpočetní kapacita, jakou před pár lety neměly ani největší národní superpočítačová centra. Propojení přes novou síťovou infrastrukturu Virgo Network umožňuje near-lineární škálování až na milion čipů v jednom logickém clusteru.

Zásadní je také metrika „goodput“ — podíl produktivního výpočetního času. Google u TPU 8t cílí na více než 97 %. Díky automatické detekci chyb, přesměrování kolem vadných spojů a optickému přepínání obvodů (OCS) se minimalizují přestoje, které při frontier tréninku znamenají ztrátu dnů aktivní práce.

TPU 8i: motor pro inference a agentní éru

Zatímco TPU 8t řeší masivní paralelní výpočty, TPU 8i je optimalizován pro rychlé odezvy. Každý čip obsahuje 384 MB on-chip SRAM — trojnásobek oproti Ironwoodu — a 288 GB vysokorychlostní paměti HBM. Tato kombinace má eliminovat tzv. „memory wall“, kdy procesory čekají na data z pomalejší externí paměti.

Google uvádí 80 % lepší poměr výkonu k ceně u inference čipu oproti předchozí generaci. V praxi to znamená, že firmy mohou obsloužit téměř dvojnásobný počet uživatelů při stejných nákladech. Pro moderní Mixture of Experts (MoE) modely, jako je Gemini, je klíčová i dvojnásobná propustnost mezi čipy (19,2 Tb/s) a nová topologie Boardfly, která zmenšuje síťový průměr o více než 50 %.

Speciální Collectives Acceleration Engine (CAE) přímo na čipu pak snižuje latenci globálních operací až 5x. Pro běžného uživatele to znamená rychlejší odpovědi od AI asistentů a plynulejší práci s agenty, které kooperují v reálném čase.

Konkurence s Nvidia a tržní kontext

Google záměrně neporovnává výkon nových TPU přímo s čipy Nvidia, což samo o sobě naznačuje, že se dominantní pozici lídra trhu ještě neohrozil. Nvidia stále ovládá odhadovaně 80–90 % trhu s datacentrovými AI akcelerátory. Google je nicméně významným hráčem — analytici DA Davidson odhadli v září 2025, že byznys TPU spolu s Google DeepMind mohl mít hodnotu přibližně 900 miliard dolarů.

Zajímavým paralelním vývojem je adopce SRAM paměti. Nvidia ve svém březnovém oznámení Groq 3 LPU — technologie získané akvizicí startupu Groq za 20 miliard dolarů — rovněž sází na velké množství SRAM. Google TPU 8i jde stejnou cestou, což naznačuje, že SRAM se stává klíčovou technologií pro low-latency inference.

Poptávka po Google čipech roste. Anthropic se zavázal k využívání několika gigawattů TPU kapacity, Citadel Securities na nich staví kvantitativní výzkumný software a všech 17 národních laboratoří amerického ministerstva energetiky používá AI software postavený na TPU. Pro české a evropské firmy jsou TPU dostupné prostřednictvím Google Cloud v několika evropských regionech včetně západní Evropy.

Energetická efektivita a evropský kontext

V kontextu Evropské unie, kde jsou datacentra pod zvýšeným tlakem kvůli spotřebě energie a uhlíkové stopě, hraje efektivita klíčovou roli. Google uvádí, že TPU 8t i TPU 8i nabízejí až 2x lepší poměr výkonu na watt než Ironwood. Společnost zároveň deklaruje, že její datacentra dnes dodávají šestkrát více výpočetního výkonu na jednotku elektřiny než před pěti lety.

Pro české vývojáře a firmy je relevantní, že oba čipy podporují standardní frameworky — JAX, PyTorch, MaxText, SGLang a vLLM — a nabízejí i tzv. bare metal přístup bez virtualizační režie. Google slibuje obecnou dostupnost „ještě letos“, přesné ceny zatím nezveřejnil. Očekává se tradiční model pronájmu výpočetní kapacity přes Google Cloud.

Co to znamená pro budoucnost AI infrastruktury

Osmá generace TPU není jen iterací hardwaru — je to strategický posun. Specializace čipů na trénink a inference odráží zralost AI průmyslu, kde už není možné efektivně řešit vše univerzálním řešením. Pro evropský trh, který se pod tlakem EU AI Act a energetických regulací snaží o udržitelný rozvoj AI, může být právě efektivita TPU 8t/8i zajímavou alternativou k tradičním GPU clusterům.

Zda Google dokáže z náskoku Nvidie ubrat významnější podíl, závisí nejen na raw výkonu, ale i na ekosystému, podpoře vývojářů a dostupnosti v evropských cloudových regionech. Zatímco Nvidia dominuje trhem s univerzálními GPU, Google sází na vertikální integraci: čipy, síť, software i datacentra navržená jako jeden celek.

Jaký je rozdíl mezi TPU a běžným GPU od Nvidie?

TPU (Tensor Processing Unit) je čip navržený speciálně pro operace s tenzory, které tvoří jádro neuronových sítí. Zatímco GPU od Nvidie je univerzálnější akcelerátor vhodný i pro grafiku, hraní her a široké spektrum výpočetních úloh, TPU jsou optimalizovány primárně pro strojové učení. To znamená vyšší efektivitu při nižší spotřebě energie pro AI úlohy, ale menší flexibilitu pro jiné aplikace.

Může si TPU 8t nebo 8i koupit běžná firma?

Ne přímo. Google TPUs neprodává jako fyzické produkty, ale pronajímá jejich výpočetní kapacitu prostřednictvím své cloudové platformy Google Cloud. Firmy a vývojáři si mohou objednat přístup k TPU clusterům podobně jako u virtuálních serverů. Pro české společnosti jsou dostupné přes evropské Google Cloud regiony, konkrétní ceník závisí na objemu a typu úloh.

Proč je pro inference důležitá SRAM paměť?

SRAM (Static Random-Access Memory) je mnohem rychlejší než běžná DRAM paměť, ale také dražší a s menší kapacitou. Při inference — tedy provozu natrénovaného modelu — jde o to, aby data potřebná pro výpočet byla co nejblíže procesoru. Čím více SRAM čip obsahuje, tím méně často musí čekat na pomalejší externí paměť. To přímo překládá do rychlejších odpovědí AI asistentů a nižších provozních nákladů.