Co je Z.AI a odkud přišel GLM-5?
Za zkratkou GLM stojí čínská společnost Zhipu AI (také označovaná jako Z.AI nebo BigModel), která od roku 2019 vyvíjí vlastní sérii velkých jazykových modelů. Zatímco na Západě dominují OpenAI, Anthropic a Google, Zhipu AI vybudovalo paralelní ekosystém s modely ChatGLM, GLM-4 a nyní GLM-5. Společnost spolupracuje s Tsinghua University a je jednou z nejvýznamnějších čínských AI laboratoří s přístupem do open-source komunity.
GLM-5 byl vydán jako nástupce GLM-4.5 a přináší zásadní skok — jak v architektuře, tak v schopnostech pro takzvané agentní inženýrství (agentic engineering). Nejde tedy jen o chatovacího asistenta, ale o model navržený pro autonomní řešení složitých víceúrovňových úkolů.
Architektura: 745 miliard parametrů s MoE
GLM-5 využívá architekturu Mixture of Experts (MoE) — přístup, který dnes používají i modely jako Mistral Mixtral nebo Google Gemini. Celkový počet parametrů dosahuje 745 miliard, přičemž při každém inferenčním volání jsou aktivovány jen 4 % — konkrétně 8 z 256 expertů, což odpovídá přibližně 44 miliardám aktivních parametrů. To je zhruba dvojnásobek oproti předchozímu GLM-4.5 (355 miliard celkem).
Tato architektura umožňuje vysoký výkon bez nutnosti načítat celý model do paměti při každém dotazu, což snižuje náklady na provoz a latenci. Kontextové okno modelu činí 80 000 tokenů se schopností generovat až 131 072 tokenů výstupu.
Benchmarky: Kde GLM-5 stojí vedle konkurence?
Výsledky na standardizovaných testech jsou klíčovým argumentem pro adopci modelu ve firemním prostředí. GLM-5 dosáhl:
- SWE-bench Verified: 77,8 — benchmark zaměřený na reálné opravy chyb v GitHub repozitářích, kde model soutěží s GPT-4o a Claude Sonnet
- Terminal Bench 2.0: 56,2 — hodnotí schopnost modelu pracovat autonomně v příkazovém řádku
- Vending Bench 2: #1 mezi open-source modely — test dlouhodobých operačních schopností a plánování
Podle dokumentace Z.AI jsou programovací schopnosti GLM-5 na úrovni Claude Opus 4.5 od Anthropicu. V celkovém srovnání GLM-5 překonává Gemini 3.0 Pro. Tato tvrzení je samozřejmě nutné brát s rezervou — každý výrobce modelu si vybírá benchmarky, které mu vycházejí nejlépe — avšak výsledky na SWE-bench jsou nezávisle ověřitelné.
Čtyři klíčové funkce pro produkční AI agenty
1. Myšlenkový režim (Thinking Mode)
Jednou z nejzajímavějších vlastností GLM-5 je volitelný myšlenkový režim (thinking mode), inspirovaný přístupem OpenAI o-series a Anthropic Extended Thinking. Aktivuje se jednoduše přidáním parametru "thinking": {"type": "enabled"} do API dotazu.
V tomto režimu model před finální odpovědí generuje interní řetěz uvažování (chain of thought), dostupný v poli reasoning_content. To je cenné zejména při řešení složitých problémů — ladění kódu, plánování víceúrovňových úkolů nebo analýze dat. Myšlenkový režim lze také vypnout pro situace, kde potřebujete rychlou odpověď s nižší latencí.
2. Volání nástrojů (Tool Calling)
Agentní systémy bez volání nástrojů jsou jako robot bez rukou — umí přemýšlet, ale nemůže nic udělat. GLM-5 podporuje function calling kompatibilní s OpenAI formátem: vývojář definuje seznam dostupných funkcí (vyhledávání, databázové dotazy, spouštění kódu, přístup k API) a model sám rozhoduje, které nástroje zavolat a v jakém pořadí.
Tato funkce je zásadní pro budování agentů schopných autonomně provádět akce — například agent pro zákaznickou podporu, který prohledá databázi, odešle e-mail a zapíše výsledek do CRM systému bez lidského zásahu.
3. Streamování (Streaming)
Pro produkční aplikace je klíčové, aby uživatel viděl odpověď postupně — ne čekat desítky sekund na kompletní výstup. GLM-5 podporuje server-sent events (SSE) streaming aktivovaný parametrem "stream": true. V Pythonu pomocí SDK iterujete přes jednotlivé chunky:
for chunk in response:
print(chunk.choices[0].delta.content, end="")
Při aktivovaném myšlenkovém režimu přichází nejprve proud pole reasoning_content a následně finální odpověď v content — vývojář tak může streamovat obojí nezávisle.
4. Vícekolové konverzace (Multi-Turn Workflows)
Reálné agentní systémy vyžadují udržení kontextu přes desítky i stovky výměn. GLM-5 používá standardní formát role-based message history: pole messages obsahuje objekty s poli role (user/assistant/tool) a content. Výsledky volání nástrojů se vkládají jako zprávy s rolí tool, čímž model ví, co bylo vykonáno a jaký byl výsledek.
Jak začít: API a SDK
Z.AI nabízí přístup přes vlastní API endpoint https://api.z.ai/api/paas/v4/chat/completions s autentizací pomocí Bearer tokenu. Díky OpenAI-kompatibilitě stačí ve stávajícím kódu změnit base_url — přechod z GPT-4 na GLM-5 je otázka jednoho řádku kódu.
Pro Python existuje dedikovaný balíček:
pip install zai-sdk
Podporované jsou také Java (přes Maven/Gradle) a přímé HTTP POST požadavky přes cURL. Základ volání s myšlenkovým režimem vypadá takto:
from zai import ZAI
client = ZAI(api_key="your-api-key", base_url="https://api.z.ai/api/paas/v4")
response = client.chat.completions.create(
model="glm-5",
messages=[{"role": "user", "content": "Analyzuj tento kód a navrhni opravy"}],
thinking={"type": "enabled"},
max_tokens=4096,
stream=True
)
Model je dostupný také přes platformu OpenRouter a je hostován na NVIDIA NIM, což usnadňuje nasazení v cloudové infrastruktuře.
Cena: Kolik GLM-5 stojí?
Přes OpenRouter jsou ceny následující: 0,72 USD za milion vstupních tokenů a 2,30 USD za milion výstupních tokenů. V porovnání s GPT-4o (5 USD / 15 USD za milion tokenů) nebo Claude Sonnet (3 USD / 15 USD) jde o výrazně nižší náklady — zejména pro aplikace s vysokým objemem výstupního textu, jako jsou právě agentní systémy generující dlouhé sekvence akcí.
GLM-5.1: Už je tu aktualizace
V průběhu března 2026 Z.AI vydalo verzi GLM-5.1, zaměřenou ještě více na agentní výkon. Podle prvních recenzí model překonal Qwen 3.5 a Mistral v benchmarcích pro autonomní kódování a víceúrovňové plánování. Dostupné jsou varianty KAT-Coder-Pro V1 (profesionální vývoj softwaru) a Air V1 (lehká verze pro latency-senzitivní prostředí), přičemž kódovací plány začínají přibližně na 10 dolarech měsíčně.
Co to znamená pro české vývojáře a firmy?
GLM-5 není dostupný v české lokalizaci — dokumentace a rozhraní jsou primárně v angličtině a čínštině. Pro české uživatele to znamená, že práce s modelem vyžaduje znalost angličtiny, avšak samotné generování textů v češtině funguje. Model zvládá vícejazyčné výstupy, byť kvalita češtiny je nižší než u modelů explicitně trénovaných na evropských jazycích.
Pro firmy je nejzajímavější cenová dostupnost kombinovaná s výkonem na agentic benchmarcích. Pokud stavíte interní nástroj pro automatizaci kódu, analýzu dokumentů nebo zákaznickou podporu a nechcete platit prémiové ceny OpenAI nebo Anthropicu, GLM-5 je legitimní alternativa k otestování. Z pohledu EU AI Act je třeba počítat s tím, že jde o model čínského původu — pro zpracování citlivých dat doporučujeme konzultaci s právním oddělením ohledně datové suverenity.
Je GLM-5 open-source model, nebo jde o komerční API?
GLM-5 je dostupný primárně přes komerční API Z.AI s cenami 0,72 USD za milion vstupních a 2,30 USD za milion výstupních tokenů. Váhy modelu nejsou volně ke stažení jako u Llama nebo Mistral — jde tedy o hostovaný model s API přístupem, podobně jako GPT-4o nebo Claude. Přes NVIDIA NIM je možné nasazení ve vlastní cloudové infrastruktuře, avšak podmínky licence je potřeba ověřit.
Jak se GLM-5 liší od jiných agentních modelů jako Claude Sonnet nebo GPT-4o?
GLM-5 je speciálně optimalizován pro agentní úlohy — SWE-bench skóre 77,8 je srovnatelné s nejlepšími modely pro kódování. Hlavní výhody jsou nižší cena a OpenAI-kompatibilní API umožňující snadnou migraci. Nevýhodou je menší ekosystém nástrojů, méně komunitní podpory a otázky kolem důvěryhodnosti čínského poskytovatele při zpracování citlivých dat ve firemním prostředí.
Mohu GLM-5 použít pro agenta v češtině?
Ano, GLM-5 generuje česky, avšak bez explicitního tréninku na českém jazyce. Výsledky jsou použitelné pro technické úlohy a kódování, kde je čeština jen doprovodným textem. Pro aplikace vyžadující precizní českou gramatiku a styl (redakční systémy, právní dokumenty) doporučujeme srovnávací testování s modely jako GPT-4o nebo Claude, které mají rozsáhlejší tréninkovou sadu pro středoevropské jazyky.