DeepSeek V4: milionový kontext je výzvou pro inference systémy, ne pro samotný model

11. 5. 2026 Daniel Česák

  DeepSeek V4 je nejnovější model čínské společnosti DeepSeek s neuvěřitelným kontextovým oknem o velikosti 1 milionu tokenů. Zatímco konkurence ukazuje benchmarkové tabulky, u V4 je klíčový příběh jinde: architektura modelu totiž radikálně mění způsob, jakým musí inference fungovat. Společnost Together AI, která model provozuje na grafických kartách NVIDIA Blackwell, nyní podrobně vysvětluje, proč je nasazení V4 spíše systé movým problémem než otázkou výkonu samotného modelu.

Co DeepSeek V4 přináší nového?

DeepSeek V4 Pro je obří model s 1,6 bilionu parametrů, z nichž se při každém dopředném průchodu aktivuje přibližně 49 miliard (architektura Mixture of Experts — MoE). To samo o sobě není mezi špičkovými modely nic neobvyklého — například konkurenční Qwen3.5-397B-A17B nebo Llama 4 Maverick používají podobný princip.

Co dělá V4 výjimečným, je její hybridní architektura pozornosti (attention). DeepSeek totiž kombinuje hned tři různé mechanismy:

Compressed Sparse Attention (CSA) — komprimuje kontext s krokem 4, kde každá položka shrnuje 8 sousedních tokenů. Dotaz si pak vybírá přibližně 128 těchto komprimovaných položek, což poskytuje jemnou, řídkou cestu do vybraných oblastí milionového kontextu.
Heavily Compressed Attention (HCA) — stejný princip, ale s krokem 128. Při 1M tokenech se cache zmenší z 1 milionu pozic na pouhých 8 tisíc komprimovaných položek. Model tak získává hrubý globální přehled o celém kontextu najednou.
Sliding Window Attention (SWA) — zachovává přesnou lokální cestu pro krátké okno (128 tokenů), takže model neztrácí detailní přehled o tom, co bylo právě napsáno.

Tato kombinace snižuje objem KV cache na pouhých 10 % oproti předchozímu DeepSeek V3.2 a inference FLOPs na 27 %. Model byl předtrénován na 32 bilionech tokenů s optimalizátorem Muon a následně doladěn dvoustupňovou post-tréninkovou pipeline.

Benchmarky: k čemu je DeepSeek V4 dobrý?

Podle údajů na Together AI dosahuje DeepSeek V4 Pro působivých výsledků:

93,5 % na LiveCodeBench — vynikající výsledek v kódování, který se blíží specializovaným modelům jako GPT-OSS nebo Claude
90,1 % na GPQA Diamond — náročný benchmark pro vědecké a odborné uvažování
80,6 % na SWE-Bench Verified — reálné softwarové inženýrství, opravy chyb v kódu

Na porovnání: DeepSeek V3.1 (předchozí generace) dosahuje výrazně nižších skóre v agentních úlohách, kde V4 vyniká díky kombinaci dlouhého kontextu a hybridní pozornosti. Konkurenční Claude 4 Sonnet od Anthropicu se na SWE-Bench pohybuje kolem 72–75 %, zatímco DeepSeek V4 Pro s 80,6 % výrazně posouvá laťku pro open-source modely.

Problém jménem KV cache

Nejdůležitější inženýrský poznatek z článku Together AI je tento: DeepSeek V4 útočí na problém KV cache z nového směru. Dosavadní techniky — Group Query Attention (snížení počtu KV hlav), Multi-Head Latent Attention (komprese do latentní reprezentace), FP8/MXFP4 (menší datový typ na prvek) — všechny řešily různé členy stejné rovnice. DeepSeek V4 jde po samotné ose tokenů: komprimuje kontext ještě před uložením do KV cache.

Na first pohled to zní jako jasné vítězství. Realita je ale složitější. Při prvotním nasazení na NVIDIA HGX B200 zjistili inženýři Together AI, že kapacita naservírování modelu není omezená komprimovanou cache (CSA/HCA), ale tím, jak engine zachází s lokální SWA cache. Plná implementace SWA měla překvapivě vyšší stopu na token než předchozí generace V3 — přibližně 3,8 KB na token versus 3,4 KB.

Skutečný zisk přišel až z policy cache: udržováním pouze těch SWA stavů, které se s největší pravděpodobností znovu použijí, zvýšili celkovou kapacitu KV cache na jednom uzlu B200 z přibližně 1,2M tokenů na 3,7M tokenů. To je hlavní lekce: architektura V4 vytváří příležitost pro dlouhý kontext, ale realizovaná kapacita závisí na tom, jak inference engine ukládá, přepočítává a vyřazuje různé typy cache.

Důsledky: co to znamená pro české vývojáře a firmy?

Pro české AI týmy, které uvažují o nasazení DeepSeek V4, je klíčové pochopení jednoho faktu: stejné váhy potřebují různé serving profily podle typu úlohy. Together AI identifikuje několik režimů:

Dlouhý kontext, agenti a coding agents — zde V4 září. Čtou obrovské cache při dekódování, takže komprimovaná KV cache, batching a prefix reuse dávají největší smysl. Pro agentní úlohy jako kódování nad celým repozitářem nebo výzkumné asistenty model výrazně mění cost model z „ceny za token" na „cenu za dokončený úkol".
Krátké konverzace a chat — zde V4 zatím příliš nevyniká. Krátké kontexty nevyužívají výhod komprimované cache a naopak trpí méně zralými kernel pathy pro CSA/HCA. Pro běžný chatbot je tak stále lepší sáhnout po osvědčených modelech jako Claude, GPT nebo DeepSeek V3.1.
RL rollouts — posilované učení a dlouhé trajektorie mají vlastní optimalizační cíle: cenu za jednu dlouhou trajektorii, nikoliv latenci jednoho dotazu.

Pro české firmy to znamená, že if chtějí nasadit V4, musí se zamyslet nad infrastrukturou. Naštěstí je model k dispozici přes API od Together AI, a to za cenu $2,10 za milion vstupních tokenů (při cache hit jen $0,20) a $4,40 za milion výstupních tokenů. To je pro model této velikosti konkurenceschopná cena — srovnatelná s DeepSeek V3.1 ($0,60/$1,70) při výrazně vyšších schopnostech v dlouhém kontextu. Pro srovnání: dedikované GPU instance na H200/B200 jsou k dispozici od $10/hod.

Model je distribuován pod MIT licencí, takže je plně otevřený a použitelný i pro komerční projekty. České a evropské firmy tak nemusí řešit licenční omezení, která se týkají například některých modelů Meta (Llama) nebo proprietárních modelů OpenAI a Anthropicu.

Prefix cache jako storage policy

Jednou z nejzajímavějších inovací V4 je způsob, jakým zachází s prefix cachingem. U běžných modelů je pravidlo jednoduché: sdílený prefix = sdílená KV cache. U V4 je otázka složitější: kterou cache?

Sdílený prefix obsahuje CSA stav, HCA stav, SWA stav a nekomprimované ocasy používané kompresory. CSA a HCA jsou kompaktní a snadno skladovatelné. SWA je přesný lokální stav, který je skladovat náročný — zejména když cache přesahuje GPU paměť.

Technický dokument DeepSeek popisuje tři strategie:

Uložit celou SWA cache — jednoduché, ale roste úměrně délce kontextu
Uložit periodické checkpointy SWA — ukládá stav každých K tokenů, mezeru dopočítá při cache hitu
Přepočítat SWA při hitu — ukládá jen CSA/HCA a SWA rekonstruuje při znovupoužití prefixu. Cena je ohraničená oknem krát počet vrstev: u 128 tokenů a 61 vrstev je to zhruba 8K tokenů přepočtu — proti 1M prefixu zanedbatelné

Together AI v prvotním nasazení používá první strategii (store full). To je pragmatické rozhodnutí — prefix reuse zůstává přímočarý a vyhýbá se komplikacím, zatímco zbytek serving stacku dospívá.

Co si před nasazením V4 otestovat?

Pokud uvažujete o migraci na DeepSeek V4, Together AI doporučuje provést benchmark ve čtyřech oblastech:

Kontextový režim — jak dlouhé kontexty reálně používáte? Pokud pod 100K tokenů, výhody V4 se neprojeví naplno.
Prefix reuse — jak často se dotazy překrývají? U agentních úloh s opakujícím se kontextem je klíčový.
Cache policy — store vs recompute SWA při prefix hitu. Záleží na délce prefixu a frekvenci reuse.
Endpoint profile — stejné váhy, jiný profil. Pro long-context agenty potřebujete větší tensor-parallel, batching a jinou eviction policy než pro chat.

Shrnutí

DeepSeek V4 není jen další model s lepšími benchmarky. Je to architektonický posun, který ukazuje, že budoucnost AI patří modelům navrženým od základu pro efektivní nasazení v reálném provozu. Milionový kontext přestává být marketingovým číslem a stává se prakticky využitelnou realitou — ale až tehdy, když inference engine umí s novou architekturou správně zacházet.

Pro české vývojáře a firmy je V4 dostupný přes Together AI API za konkurenceschopné ceny a pod MIT licencí. Pokud pracujete na projektech, kde potřebujete analyzovat rozsáhlé dokumenty, kódovat nad celými repozitáři nebo provozovat AI agenty, DeepSeek V4 stojí za pozornost — s vědomím, že skutečný výkon ukáže až vaše konkrétní workload a serving konfigurace.

Co přinesla spolupráce Together AI a NVIDIA?

Klíčovou roli v nasazení DeepSeek V4 hraje i hluboká softwarově-hardwarová ko-design mezi Together AI a NVIDIA. Model běží na grafických kartách NVIDIA Blackwell (HGX B200), které přinášejí nativní podporu formátu MXFP4 — přesně ten, ve kterém DeepSeek V4 distribuuje své MoE váhy. Díky tomu není nutná konverze formátů a model běží end-to-end v přirozené přesnosti.

NVIDIA navíc poskytla day-0 podporu pro V4 včetně optimalizací v NVIDIA Dynamo a nové jádro FlashAttention-4, které na B200 dosahuje až 1,3× vyššího výkonu než cuDNN 9.13 a 2,7× oproti Tritonu. FlashAttention-4 řeší zásadní bottleneck moderních GPU — asymetrické škálování, kde výpočetní výkon tensor jader roste mnohem rychleji než propustnost jednotek pro exponenciální funkce (softmax) a sdílená paměť. Tyto optimalizace jsou přímo využitelné pro V4 díky jeho hybridní attention architektuře.

Je DeepSeek V4 dostupný i pro lokální nasazení, nebo jen přes cloudové API?

DeepSeek V4 je MIT licencovaný open-source model, takže je teoreticky možné ho provozovat lokálně. Prakticky je to ale extrémně náročné — model má 1,6 bilionu parametrů a vyžaduje špičkový hardware (minimálně několik NVIDIA Blackwell GPU zapojených do clusteru). Pro většinu týmů je tak API přístup přes Together AI nebo jiné poskytovatele jedinou realistickou cestou.

Jak si DeepSeek V4 stojí v češtině?

DeepSeek modely obecně mají dobrou podporu vícejazyčnosti díky tréninku na rozsáhlých datech. Český jazyk by měl být plně podporován, i když specifické testy na češtině zatím nebyly zveřejněny. Vzhledem k 32 bilionům trénovacích tokenů je pravděpodobné, že čeština je v trénovacích datech zastoupena — u modelů této velikosti se jazyková kvalita obvykle pohybuje na úrovni GPT-4 nebo Claude.

Má smysl přecházet z DeepSeek V3.1 na V4 pro běžné úkoly?

Pro běžný chat, překlad nebo krátké texty nikoliv — DeepSeek V3.1 je v těchto úlohách výkonnostně srovnatelný a levnější. V4 dává smysl tam, kde potřebujete analyzovat rozsáhlé dokumenty (stovky tisíc tokenů), kódovat nad celými repozitáři nebo provozovat komplexní AI agenty. Pro krátké kontexty jsou výhody V4 minimální a cena za výstupní tokeny ($4,40/M) je výrazně vyšší než u V3.1 ($1,70/M).