GLM-5.2: Čínský model s milionem tokenů kontextu vyzývá Claude Fable 5 v programování

24. 6. 2026 Daniel Česák

Když čínská laboratoř Zhipu AI minulý týden tiše uvolnila model GLM-5.2 pod MIT licencí, málokdo čekal, že se během pár dní stane jedním z nejsledovanějších open-source modelů roku. Důvod? V benchmarcích dlouhého kontextu a programování dokáže držet krok s modely jako Claude Fable 5 od Anthropicu — a to za zlomek ceny. Elon Musk dokonce na síti X prohlásil, že čínské modely brzy doženou americkou špičku. Šéf Zhipu AI odpověděl, že to bude dřív, než si Musk myslí. Jenže GLM-5.2 není jen další kapitola v souboji USA vs. Čína. Je to ukázka, jak se architektonické inovace a otevřený přístup stávají účinnou zbraní v závodě o nejschopnější jazykový model.

Co je GLM-5.2 a kdo za ním stojí

GLM-5.2 je nejnovější velký jazykový model (LLM) od Zhipu AI (značka Z.ai), jednoho z nejvýznamnějších čínských startupů v oblasti umělé inteligence. Model navazuje na řadu GLM, která sahá až k prvním verzím z roku 2023, a oproti předchůdci GLM-5.1 přináší zásadní skok v dlouhém kontextu a kódování.

S 753 miliardami parametrů využívá architekturu Mixture of Experts (MoE), což znamená, že pro každý dotaz aktivuje jen část neuronové sítě — podobně jako DeepSeek-V4 nebo Mixtral. Díky tomu je provoz výrazně efektivnější než u modelů s hustou architekturou (například GPT-5.5).

Milion tokenů kontextu: Co to znamená v praxi

Hlavním tahákem GLM-5.2 je plnohodnotné 1M tokenové kontextové okno. Pro představu: milion tokenů odpovídá zhruba 750 tisícům slov, tedy celé trilogii Pána prstenů. Model dokáže pojmout celé kódové báze, vícedenní výzkumné záznamy nebo desítky hodin přepisů schůzek najednou — bez nutnosti informace dělit, sumarizovat nebo restartovat konverzaci.

Trik spočívá v nové architektonické technice nazvané IndexShare, popsané v samostatném vědeckém článku (arXiv:2603.12201). Zhipu AI v ní sdílí indexovací vrstvu napříč každou čtveřicí sparse attention vrstev, čímž snižuje výpočetní náročnost o 2,9× při délce 1M tokenů. V kombinaci s vylepšeným spekulativním dekódováním (MTP — Multi-Token Prediction), které zvyšuje míru akceptace predikovaných tokenů až o 20 %, běží model při dlouhém kontextu rychleji a levněji, než byste u 753miliardového modelu čekali.

Benchmarky: Jak si GLM-5.2 stojí proti konkurenci

Zhipu AI zveřejnila na Hugging Face rozsáhlou sadu benchmarků, která srovnává GLM-5.2 s modely jako Claude Fable 5, Claude Opus 4.8, GPT-5.5, Gemini 3.1 Pro, DeepSeek-V4-Pro, Qwen3.7-Max a MiniMax M3. Výsledky ukazují, že GLM-5.2 není univerzálním vítězem, ale v klíčových disciplínách výrazně vyčnívá:

Programování a softwarové inženýrství

Benchmark	GLM-5.2	Claude Fable 5	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	62,1	69,2	58,6	69,2
DeepSWE	46,2	58	70	58
Terminal Bench 2.1	82,7	78,9	83,4	—
FrontierSWE	74,4	75,1	72,6	—
ProgramBench	63,7	—	70,8	71,9
SWE-Marathon	13,0	26,0	12,0	—

GLM-5.2 překonává GPT-5.5 v SWE-bench Pro (62,1 vs. 58,6) a v Terminal Bench 2.1 dosahuje 82,7 bodů — jen těsně za GPT-5.5 (83,4). V FrontierSWE (74,4) je téměř na úrovni Claude Fable 5 (75,1). Tyto výsledky ukazují model, který je mimořádně silný v reálných programátorských úlohách, nejen v teoretických testech.

Matematické uvažování a vědecké znalosti

Benchmark	GLM-5.2	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
HLE	40,5	49,8	41,4	45
AIME 2026	99,2	95,7	98,3	98,2
GPQA-Diamond	91,2	93,6	93,6	94,3

V matematickém testu AIME 2026 získal GLM-5.2 99,2 % — nejlepší výsledek ze všech porovnávaných modelů. Jde o soutěžní matematiku na úrovni olympiády, kde i desetiny procenta rozhodují. V GPQA-Diamond (91,2) a HLE (40,5) už zaostává za špičkou, ale stále se drží v těsném závěsu.

Agentní schopnosti

Benchmark	GLM-5.2	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
MCP-Atlas	76,8	77,8	75,3	69,2

V agentních testech MCP-Atlas dosahuje GLM-5.2 76,8 bodů — prakticky na úrovni Claude Opus 4.8 (77,8) a nad GPT-5.5 (75,3). To znamená, že model spolehlivě zvládá orchestrátorovou roli v agentních systémech, kde je potřeba kombinovat více nástrojů a udržet kontext napříč desítkami kroků.

Cena a dostupnost: Otevřený model za šestinu ceny

GLM-5.2 je dostupný přes API platformu Z.ai a přes OpenRouter. Ceny zůstaly stejné jako u předchozího modelu GLM-5.1:

Input: 0,95 USD za milion tokenů
Output: 3 USD za milion tokenů

Pro srovnání: GPT-5.5 stojí $3,75 / $15 za milion tokenů, Claude Opus 4.8 pak $15 / $75. GLM-5.2 je tedy 4× až 25× levnější než uzavřené komerční modely, přičemž v mnoha benchmarcích dosahuje srovnatelných nebo lepších výsledků.

Zásadní je ale především MIT licence — modelová váha je volně ke stažení na Hugging Face. GLM-5.2 si můžete spustit lokálně přes vLLM, SGLang, Transformers od Hugging Face, nebo dokonce na čínských čipech Ascend NPU. Žádná regionální omezení, žádné schvalování přístupu.

Musk vs. Zhipu: Krátká výměna, která rozvířila debatu

Krátce po vydání GLM-5.2 se na síti X rozhořela symbolická výměna. Elon Musk napsal, že čínské modely "brzy doženou" americkou špičku. Vedení Zhipu AI odpovědělo, že k tomu dojde ještě dříve, než Musk očekává — a výsledky GLM-5.2 jim dávají za pravdu přinejmenším v některých disciplínách.

Tahle výměna ukazuje, jak moc se stírá rozdíl mezi tím, co bylo ještě před rokem považováno za nedostižnou americkou dominanci, a tím, co dnes dokážou dodat čínské laboratoře jako DeepSeek, Alibaba (Qwen) nebo právě Zhipu AI.

Co to znamená pro Evropu a Česko

Pro české vývojáře a firmy je GLM-5.2 mimořádně zajímavý ze tří důvodů:

1. Otevřený model bez závislosti na USA. MIT licence znamená, že GLM-5.2 můžete provozovat na vlastní infrastruktuře bez obav z budoucího zpoplatnění, omezení API nebo geopolitických restrikcí. V době, kdy USA omezují Evropanům přístup k nejlepším modelům, je to zásadní konkurenční výhoda.

2. Cena. Při 25× nižších nákladech na výstup oproti Claude Opus 4.8 je GLM-5.2 reálnou volbou pro startupy a menší firmy, které si komerční modely nemohou dovolit. Agentní workflow, které by s Claudem vyšlo na stovky dolarů měsíčně, může s GLM-5.2 stát jednotky dolarů.

3. Dlouhý kontext pro české projekty. Milion tokenů kontextu otevírá dveře ke zpracování rozsáhlé české legislativy, technické dokumentace nebo celých kódových bází v jednom sezení. Model podporuje češtinu (stejně jako většina moderních LLM), takže je použitelný pro lokální projekty okamžitě.

Evropská unie navíc přes program Czech AI Factory v Ostravě buduje infrastrukturu pro provoz velkých AI modelů — a právě otevřené modely jako GLM-5.2 jsou přesně tím, co na takové infrastruktuře dává smysl provozovat.

Je GLM-5.2 skutečným konkurentem Claude Fable 5?

Odpověď záleží na úhlu pohledu. V čistě programátorských benchmarcích jako Terminal Bench 2.1 a FrontierSWE je GLM-5.2 Claude Fable 5 velmi blízko a v některých testech ho i překonává. V náročném vědeckém uvažování (HLE, GPQA-Diamond) ale Claude Fable 5 i GPT-5.5 stále vedou o 5–10 procentních bodů.

Skutečná výhoda GLM-5.2 ale není v tom, že by ve všem vítězil — je v kombinaci solidního výkonu, extrémně dlouhého kontextu, MIT licence a dramaticky nižší ceny. Pro mnoho reálných firemních aplikací je tahle kombinace atraktivnější než absolutní špička za dvacetinásobnou cenu.

Podporuje GLM-5.2 češtinu?

Ano, GLM-5.2 podporuje desítky jazyků včetně češtiny. Jako model s 1M kontextovým oknem je vhodný i pro zpracování rozsáhlých českých textů — od legislativních dokumentů po technickou dokumentaci. Kvalita češtiny je srovnatelná s ostatními velkými modely, i když primárním tréninkovým jazykem je angličtina a čínština.

Jaký hardware potřebuji pro lokální provoz GLM-5.2?

GLM-5.2 má 753 miliard parametrů, takže pro plný provoz v BF16 přesnosti potřebujete zhruba 1,5 TB VRAM — typicky 8× GPU NVIDIA H100 nebo A100 (80 GB). Pro kvantizované verze (4-bit) ale stačí výrazně méně, kolem 400 GB VRAM. Pro většinu firem je praktičtější využívat API přes OpenRouter nebo Z.ai platformu.

Jak se GLM-5.2 liší od GLM-5.1?

Největší rozdíl je v kontextovém okně — z původních stovek tisíc tokenů na plnohodnotný 1M tokenů. Dále přibyla architektura IndexShare (2,9× úspora výpočtů při dlouhém kontextu), vylepšené spekulativní dekódování (+20 % míra akceptace) a dva režimy uvažování: max pro nejvyšší výkon a high pro vyvážený poměr výkonu a rychlosti. V benchmarku SWE-bench Pro si polepšil z 58,4 na 62,1 bodu.