Proč nestačí jen GPU?
Grafické karty ovládly AI infrastrukturu proto, že jsou nesmírně efektivní při paralelním zpracování matematických operací. Jenže moderní AI systémy — zejména agentní — mají dvě zcela odlišné fáze zpracování, které mají rozdílné nároky na hardware.
První fáze se nazývá prefill: model přečte celý vstupní prompt, zpracuje kontext a vytvoří takzvanou KV cache (key-value cache). Tato operace je extrémně paralelní — a GPU ji zvládají výborně. Druhá fáze, decode, generuje výstupní tokeny jeden po druhém. Jde o sekvenční operaci, která je kriticky závislá na paměťové šířce pásma a latenci — a právě tady GPU naráží na své limity.
„GPU jsou velmi dobré v paralelizaci maticové matematiky pro zpracování vstupu. Nejsou dobré pro dekódování, zejména u workloadů citlivých na latenci," říká McGonnell, viceprezident produktu v SambaNova. Tento problém se výrazně zhoršuje u agentních AI, kde model nejen generuje text, ale průběžně volá externí nástroje, API, databáze nebo spouští kód — a přitom čeká na odpovědi.
Trojí architektura: každý čip dělá to, v čem vyniká
Řešením, které SambaNova a Intel navrhují, je heterogenní inference — rozdělení úloh mezi tři typy procesorů podle jejich přirozených silných stránek:
GPU pro prefill
Grafické karty zůstávají na svém místě pro první fázi — zpracování vstupního promptu. Jsou zde nenahraditelné: massivně paralelní architektura umožňuje rychle zpracovat i velmi dlouhé kontexty a vytvořit KV cache, která se pak předává dalším vrstvám systému.
SambaNova RDU pro decode
Nový čip SN50 RDU (Reconfigurable Dataflow Unit) páté generace přebírá nejnáročnější část inference — postupné generování tokenů. SambaNova tvrdí, že oproti Nvidia Blackwell B200 dosahuje:
- 5× vyšší maximální rychlost při práci s modelem Llama 3.3 70B
- 3× vyšší propustnost pro agentní inference workloady
- 8× nižší náklady na inference při práci s modelem GPT-OSS-120B
Čip využívá třívrstvou paměťovou architekturu kombinující velkoobjemovou paměť, vysoce výkonnou HBM a ultrarychlou SRAM přímo na čipu. Klíčovou výhodou je Dataflow architektura, která mapuje provádění modelu přímo na procesor — výrazně tak snižuje zbytečné přesuny dat, které jsou hlavním „žroutem" energie u GPU.
Jeden rack SambaRack SN50 obsahuje 16 čipů SN50 a systém lze škálovat až na 256 akcelerátorů propojených dohromady. Průměrná spotřeba je 20 kW na rack v vzduchově chlazených datových centrech. Čip podporuje modely o velikosti až 10 bilionů parametrů a kontextová okna až 10 milionů tokenů.
Intel Xeon 6 pro agentní koordinaci
Procesory Intel Xeon 6 zastávají roli „mozku" celého systému. Nejde jim o hrubý výpočetní výkon pro AI — starají se o orchestraci agentních úloh: volání nástrojů a API, distribuci workloadů, kompilaci a spouštění kódu, validaci výsledků a celkové řízení systémového chování. Právě tato vrstva je klíčová pro coding agenty a další autonomní AI systémy, kde model nepřetržitě přepíná mezi generováním textu a spouštěním reálných akcí.
Intel vsází na stabilitu ekosystému x86 — desetiletí softwaru, nástrojů a znalostí, které jsou dostupné vývojářům. Zaměření se přesunuje od maximálního výkonu na papíře směrem k efektivitě využití systému jako celku a nákladům na jeden zpracovaný workload.
Proč se o tom mluví právě teď
Důvod je prostý: agentní AI rapidně roste. Systémy jako coding agenti nebo multi-step AI asistenti pro podniky vyžadují kontinuální smyčky inference — model vygeneruje kroky, spustí nástroj, přečte výsledek, vygeneruje další kroky. Tento způsob práce dramaticky zatěžuje GPU, které na tento vzor nebyly původně navrženy.
Podniky zároveň hlásí rostoucí náklady na inference, problémy s kapacitou a nevytíženost části GPU infrastruktury — protože GPU čekají místo, aby pracovaly. Patrick Moorhead, CEO analytické firmy Moor Insights & Strategy, to shrnul výstižně: „Dosáhli jsme bodu, kdy heterogenní computing je správná cesta."
Dostupnost a relevance pro české firmy
Celé řešení — kombinace GPU, SN50 RDU a Xeon 6 v jedné infrastruktuře — bude dostupné ve druhé polovině roku 2026. Cílí na velké podniky, cloudové poskytovatele a takzvané programy suverénní AI (sovereign AI), tedy státní nebo národní AI iniciativy, které chtějí provozovat agentní workloady vlastní infrastrukturou.
Pro české a evropské firmy je relevantní zejména pohled na suverénní AI: státy EU včetně Česka investují do vlastní AI kapacity, aby nebyly zcela závislé na amerických cloudových platformách. Architektura navrhovaná SambaNova a Intelem by mohla být vhodnou základnou pro taková nasazení — zejména tam, kde je požadováno zpracování citlivých dat bez odchodu do zahraničního cloudu.
Přímá dostupnost produktů SambaNova v České republice zatím není potvrzena — firma operuje primárně přes enterprise kanály a cloudové partnery. Procesory Intel Xeon 6 jsou samozřejmě standardně dostupné na globálním trhu, tedy i v Česku.
Konec éry „jeden čip pro vše"?
Partnerství SambaNova a Intelu je součástí širšího trendu: AI hardware přestává být monolitický. Podobně jako v historii serverového trhu, kde vznikly specializované čipy pro sítě, ukládání dat nebo šifrování, se i AI inference dělí na specializované komponenty. GPU zůstanou silné pro trénink a prefill, ale pro decode a agentní orchestraci budou stále více konkurovat specializované architektury.
Nvidia zatím drží dominantní pozici — a právě proto jsou čísla jako „5× rychlejší než B200" nebo „8× nižší náklady" tak zajímavá. Pokud SambaNova tato čísla dodrží v produkčních podmínkách (ne jen v laboratorních testech), může se rovnováha sil v AI datových centrech začít skutečně měnit.
Co je to RDU čip a čím se liší od GPU?
RDU (Reconfigurable Dataflow Unit) je specializovaný AI akcelerátor vyvinutý firmou SambaNova. Na rozdíl od GPU, které jsou navrženy pro masivní paralelní operace (jako je trénink nebo prefill fáze inference), je RDU optimalizováno pro sekvenční generování tokenů (decode fáze) s nízkouou latencí a vysokou paměťovou efektivitou. Klíčová je Dataflow architektura, která mapuje výpočty přímo na čip a minimalizuje zbytečné přesuny dat.
Co znamená „agentní AI" a proč potřebuje jiný hardware?
Agentní AI jsou systémy, které nejen odpovídají na otázky, ale autonomně plánují a provádějí akce — spouštějí kód, volají API, prohledávají databáze, kompilují výsledky a opakují tento cyklus. Na rozdíl od jednoduchých chatbotů vyžadují neustálé střídání mezi generováním textu a reálnými operacemi. Tento vzor zatěžuje GPU neefektivně — proto SambaNova a Intel navrhují specializovat každou vrstvu na jiný typ procesoru.
Kdy bude toto řešení dostupné a pro koho je určeno?
Produkční dostupnost je plánována na druhou polovinu roku 2026. Řešení cílí primárně na velké podniky, cloudové poskytovatele a národní (suverénní) AI programy. Pro menší firmy nebo individuální vývojáře budou relevantní spíše cloudové služby postavené na této infrastruktuře, nikoli přímý nákup hardware.