Z.AI GLM-5: Jak postavit produkční agentní systémy s modelem, který překonal Gemini

4. 4. 2026 jarvis

Čínské AI studio Z.AI vydalo model GLM-5 — a výsledky jsou překvapivé. Na benchmarku SWE-bench Verified dosáhl skóre 77,8, čímž překonal Gemini 3.0 Pro a stal se jedním z nejlepších open-source modelů pro autonomní kódování. Co víc, GLM-5 podporuje myšlenkový režim, volání nástrojů, streamování a vícekolové konverzace — tedy přesně to, co potřebujete pro produkční AI agenty. A zpřístupnění přes standardní OpenAI-kompatibilní API znamená, že ho dnes může vyzkoušet každý vývojář.

Co je Z.AI a odkud přišel GLM-5?

Za zkratkou GLM stojí čínská společnost Zhipu AI (také označovaná jako Z.AI nebo BigModel), která od roku 2019 vyvíjí vlastní sérii velkých jazykových modelů. Zatímco na Západě dominují OpenAI, Anthropic a Google, Zhipu AI vybudovalo paralelní ekosystém s modely ChatGLM, GLM-4 a nyní GLM-5. Společnost spolupracuje s Tsinghua University a je jednou z nejvýznamnějších čínských AI laboratoří s přístupem do open-source komunity.

GLM-5 byl vydán jako nástupce GLM-4.5 a přináší zásadní skok — jak v architektuře, tak v schopnostech pro takzvané agentní inženýrství (agentic engineering). Nejde tedy jen o chatovacího asistenta, ale o model navržený pro autonomní řešení složitých víceúrovňových úkolů.

Architektura: 745 miliard parametrů s MoE

GLM-5 využívá architekturu Mixture of Experts (MoE) — přístup, který dnes používají i modely jako Mistral Mixtral nebo Google Gemini. Celkový počet parametrů dosahuje 745 miliard, přičemž při každém inferenčním volání jsou aktivovány jen 4 % — konkrétně 8 z 256 expertů, což odpovídá přibližně 44 miliardám aktivních parametrů. To je zhruba dvojnásobek oproti předchozímu GLM-4.5 (355 miliard celkem).

Tato architektura umožňuje vysoký výkon bez nutnosti načítat celý model do paměti při každém dotazu, což snižuje náklady na provoz a latenci. Kontextové okno modelu činí 80 000 tokenů se schopností generovat až 131 072 tokenů výstupu.

Benchmarky: Kde GLM-5 stojí vedle konkurence?

Výsledky na standardizovaných testech jsou klíčovým argumentem pro adopci modelu ve firemním prostředí. GLM-5 dosáhl:

SWE-bench Verified: 77,8 — benchmark zaměřený na reálné opravy chyb v GitHub repozitářích, kde model soutěží s GPT-4o a Claude Sonnet
Terminal Bench 2.0: 56,2 — hodnotí schopnost modelu pracovat autonomně v příkazovém řádku
Vending Bench 2: #1 mezi open-source modely — test dlouhodobých operačních schopností a plánování

Podle dokumentace Z.AI jsou programovací schopnosti GLM-5 na úrovni Claude Opus 4.5 od Anthropicu. V celkovém srovnání GLM-5 překonává Gemini 3.0 Pro. Tato tvrzení je samozřejmě nutné brát s rezervou — každý výrobce modelu si vybírá benchmarky, které mu vycházejí nejlépe — avšak výsledky na SWE-bench jsou nezávisle ověřitelné.

Čtyři klíčové funkce pro produkční AI agenty

1. Myšlenkový režim (Thinking Mode)

Jednou z nejzajímavějších vlastností GLM-5 je volitelný myšlenkový režim (thinking mode), inspirovaný přístupem OpenAI o-series a Anthropic Extended Thinking. Aktivuje se jednoduše přidáním parametru "thinking": {"type": "enabled"} do API dotazu.

V tomto režimu model před finální odpovědí generuje interní řetěz uvažování (chain of thought), dostupný v poli reasoning_content. To je cenné zejména při řešení složitých problémů — ladění kódu, plánování víceúrovňových úkolů nebo analýze dat. Myšlenkový režim lze také vypnout pro situace, kde potřebujete rychlou odpověď s nižší latencí.

2. Volání nástrojů (Tool Calling)

Agentní systémy bez volání nástrojů jsou jako robot bez rukou — umí přemýšlet, ale nemůže nic udělat. GLM-5 podporuje function calling kompatibilní s OpenAI formátem: vývojář definuje seznam dostupných funkcí (vyhledávání, databázové dotazy, spouštění kódu, přístup k API) a model sám rozhoduje, které nástroje zavolat a v jakém pořadí.

Tato funkce je zásadní pro budování agentů schopných autonomně provádět akce — například agent pro zákaznickou podporu, který prohledá databázi, odešle e-mail a zapíše výsledek do CRM systému bez lidského zásahu.

3. Streamování (Streaming)

Pro produkční aplikace je klíčové, aby uživatel viděl odpověď postupně — ne čekat desítky sekund na kompletní výstup. GLM-5 podporuje server-sent events (SSE) streaming aktivovaný parametrem "stream": true. V Pythonu pomocí SDK iterujete přes jednotlivé chunky:

for chunk in response:
    print(chunk.choices[0].delta.content, end="")

Při aktivovaném myšlenkovém režimu přichází nejprve proud pole reasoning_content a následně finální odpověď v content — vývojář tak může streamovat obojí nezávisle.

4. Vícekolové konverzace (Multi-Turn Workflows)

Reálné agentní systémy vyžadují udržení kontextu přes desítky i stovky výměn. GLM-5 používá standardní formát role-based message history: pole messages obsahuje objekty s poli role (user/assistant/tool) a content. Výsledky volání nástrojů se vkládají jako zprávy s rolí tool, čímž model ví, co bylo vykonáno a jaký byl výsledek.

Jak začít: API a SDK

Z.AI nabízí přístup přes vlastní API endpoint https://api.z.ai/api/paas/v4/chat/completions s autentizací pomocí Bearer tokenu. Díky OpenAI-kompatibilitě stačí ve stávajícím kódu změnit base_url — přechod z GPT-4 na GLM-5 je otázka jednoho řádku kódu.

Pro Python existuje dedikovaný balíček:

pip install zai-sdk

Podporované jsou také Java (přes Maven/Gradle) a přímé HTTP POST požadavky přes cURL. Základ volání s myšlenkovým režimem vypadá takto:

from zai import ZAI

client = ZAI(api_key="your-api-key", base_url="https://api.z.ai/api/paas/v4")

response = client.chat.completions.create(
    model="glm-5",
    messages=[{"role": "user", "content": "Analyzuj tento kód a navrhni opravy"}],
    thinking={"type": "enabled"},
    max_tokens=4096,
    stream=True
)

Model je dostupný také přes platformu OpenRouter a je hostován na NVIDIA NIM, což usnadňuje nasazení v cloudové infrastruktuře.

Cena: Kolik GLM-5 stojí?

Přes OpenRouter jsou ceny následující: 0,72 USD za milion vstupních tokenů a 2,30 USD za milion výstupních tokenů. V porovnání s GPT-4o (5 USD / 15 USD za milion tokenů) nebo Claude Sonnet (3 USD / 15 USD) jde o výrazně nižší náklady — zejména pro aplikace s vysokým objemem výstupního textu, jako jsou právě agentní systémy generující dlouhé sekvence akcí.

GLM-5.1: Už je tu aktualizace

V průběhu března 2026 Z.AI vydalo verzi GLM-5.1, zaměřenou ještě více na agentní výkon. Podle prvních recenzí model překonal Qwen 3.5 a Mistral v benchmarcích pro autonomní kódování a víceúrovňové plánování. Dostupné jsou varianty KAT-Coder-Pro V1 (profesionální vývoj softwaru) a Air V1 (lehká verze pro latency-senzitivní prostředí), přičemž kódovací plány začínají přibližně na 10 dolarech měsíčně.

Co to znamená pro české vývojáře a firmy?

GLM-5 není dostupný v české lokalizaci — dokumentace a rozhraní jsou primárně v angličtině a čínštině. Pro české uživatele to znamená, že práce s modelem vyžaduje znalost angličtiny, avšak samotné generování textů v češtině funguje. Model zvládá vícejazyčné výstupy, byť kvalita češtiny je nižší než u modelů explicitně trénovaných na evropských jazycích.

Pro firmy je nejzajímavější cenová dostupnost kombinovaná s výkonem na agentic benchmarcích. Pokud stavíte interní nástroj pro automatizaci kódu, analýzu dokumentů nebo zákaznickou podporu a nechcete platit prémiové ceny OpenAI nebo Anthropicu, GLM-5 je legitimní alternativa k otestování. Z pohledu EU AI Act je třeba počítat s tím, že jde o model čínského původu — pro zpracování citlivých dat doporučujeme konzultaci s právním oddělením ohledně datové suverenity.

Je GLM-5 open-source model, nebo jde o komerční API?

GLM-5 je dostupný primárně přes komerční API Z.AI s cenami 0,72 USD za milion vstupních a 2,30 USD za milion výstupních tokenů. Váhy modelu nejsou volně ke stažení jako u Llama nebo Mistral — jde tedy o hostovaný model s API přístupem, podobně jako GPT-4o nebo Claude. Přes NVIDIA NIM je možné nasazení ve vlastní cloudové infrastruktuře, avšak podmínky licence je potřeba ověřit.

Jak se GLM-5 liší od jiných agentních modelů jako Claude Sonnet nebo GPT-4o?

GLM-5 je speciálně optimalizován pro agentní úlohy — SWE-bench skóre 77,8 je srovnatelné s nejlepšími modely pro kódování. Hlavní výhody jsou nižší cena a OpenAI-kompatibilní API umožňující snadnou migraci. Nevýhodou je menší ekosystém nástrojů, méně komunitní podpory a otázky kolem důvěryhodnosti čínského poskytovatele při zpracování citlivých dat ve firemním prostředí.

Mohu GLM-5 použít pro agenta v češtině?

Ano, GLM-5 generuje česky, avšak bez explicitního tréninku na českém jazyce. Výsledky jsou použitelné pro technické úlohy a kódování, kde je čeština jen doprovodným textem. Pro aplikace vyžadující precizní českou gramatiku a styl (redakční systémy, právní dokumenty) doporučujeme srovnávací testování s modely jako GPT-4o nebo Claude, které mají rozsáhlejší tréninkovou sadu pro středoevropské jazyky.