Kouzlo architektury: 35 miliard parametrů, platíte jen za tři
Označení 35B-A3B popisuje klíčový trik: model má celkem 35 miliard parametrů, ale při každém inferenčním kroku aktivuje pouze přibližně 3 miliardy z nich. Jde o architekturu sparse Mixture of Experts (MoE) — model se skládá ze stovek specializovaných „expertních" podsítí a pro každý token vybere jen ty relevantní.
Výsledek je pozoruhodný: výpočetní náklady odpovídají modelu se třemi miliardami parametrů, ale kapacita naučených znalostí je 35miliardová. Recenze na BuildFastWithAI to popisuje jako poměr efektivity 12:1 — za cenu malého modelu dostanete výkon velkého.
Prakticky to znamená, že Qwen3.6-35B-A3B spustíte na MacBooku s 64 GB RAM nebo na grafické kartě RTX 4090 se 32 GB VRAM. Na RTX 4090 přes optimalizovaný Unsloth GGUF model dosahuje rychlosti přes 120 tokenů za sekundu — to je komfortní konverzační tempo pro běžné použití i náročné agenické úlohy.
Benchmarky: kde Qwen3.6 zářil a kde má ještě prostor
Výsledky na SWE-bench Verified — nejdůležitějším měřítku schopnosti autonomně opravovat reálné bugy v GitHubu — jsou impresivní:
- Qwen3.6-35B-A3B: 73,4 %
- Gemma 4-31B (Google): 52,0 %
- Claude Sonnet 4.5 (Anthropic): srovnatelné výsledky na čistých kódovacích benchmarcích
Na MCPMark — benchmarku měřícím schopnost využívat nástroje (tool use), což je základ agenických systémů — Qwen3.6 dosáhl 37,0 %, zatímco Gemma 4-31B jen 18,1 %. Více než dvojnásobek. Pro vývojáře budujících AI agenty, kteří volají API, prohledávají databáze nebo ovládají prohlížeč, je to klíčový ukazatel.
Na Terminal-Bench 2.0, který testuje schopnost řídit terminál a provádět příkazy, model dosáhl skóre 51,5. Nezávislý výzkumník Simon Willison, který testoval model lokálně, napsal, že Qwen3.6 na některých tvůrčích úlohách překonal i Claude Opus 4.7.
Myšlení jako Claude nebo o1: thinking mode a jeho záchrana kontextu
Stejně jako nejnovější modely Anthropicu nebo OpenAI, podporuje Qwen3.6 dva režimy provozu:
- Thinking mode — model si nejprve promyslí problém krok za krokem (Chain-of-Thought), pak teprve odpoví. Vhodný pro matematiku, kódování a složité agenické úlohy.
- Non-thinking mode — přímá, rychlá odpověď bez viditelného uvažování. Vhodný pro konverzaci, shrnutí nebo jednoduché dotazy.
Přepínání probíhá jednoduše parametrem v API — není třeba stahovat jiný model. Unikátní vlastností je Thinking Preservation: model si pamatuje svůj myšlenkový kontext i mezi konverzačními tahy. U vícekrokových agenických workflow, kde jeden agent volá dalšího a výsledky se předávají dál, je to velká výhoda oproti modelům, které myšlenku zahazují po každé odpovědi.
Kontext 262 tisíc tokenů — a přes milion s rozšířením
Qwen3.6-35B-A3B nativně pracuje s kontextem 262 144 tokenů — to odpovídá zhruba 200 tisícům slov nebo celé kodové základně středně velkého projektu v jednom promptu. Pomocí techniky YaRN scaling je možné kontext rozšířit až na více než milion tokenů.
Pro srovnání: GPT-4o zvládá 128 000 tokenů a i nejnovější Claude Opus 4.7 pracuje s oknem 200 000 tokenů v základní konfiguraci. Qwen3.6 tedy v tomto ohledu překonává i proprietární špičku.
Spuštění za pět minut: Ollama, vLLM nebo GGUF
Alibaba model uvolnila na Hugging Face pod licencí Apache 2.0 — to znamená volné komerční použití bez poplatků. Způsoby nasazení jsou tři:
- Ollama: nejjednodušší cesta — stačí příkaz
ollama run qwen3.6a model funguje lokálně - vLLM: produkční nasazení se správou fronty, tool use a OpenAI-kompatibilním API
- Unsloth GGUF: kvantizované verze optimalizované pro Apple Silicon a single-GPU stroje
Cloudové API přes Alibaba Cloud Bailian je v přípravě. Pro české a slovenské firmy, které hledají výkonný model bez závislosti na amerických cloudech nebo bez nutnosti sdílet data se třetí stranou, jde o zajímavou alternativu — model lze provozovat kompletně on-premise.
Čeština: co Qwen3.6 umí a co ne
Qwen3 série (na jejíž základech Qwen3.6 staví) deklaruje podporu více než 100 jazyků včetně češtiny. V praxi je česká podpora u čínských modelů obvykle slabší než u modelů trénovaných na primárně anglických datech — Qwen3.6 není výjimkou. Pro technické úlohy v angličtině (kódování, analýza kódu, agenické pipeline) model exceluje. Pro psaní českých textů nebo porozumění česky psané dokumentaci je výkon dobrý, ale ne na úrovni Claude nebo GPT-4o.
Čeští vývojáři ocení model především jako levný lokální kódovací engine pro CI/CD pipeline, code review agenty nebo automatizaci — nasazení na vlastním hardware bez cloudových nákladů a GDPR rizik spojených s odesíláním kódu třetím stranám.
Alibaba kontra OpenAI, Anthropic a Google: bitva o open source
Vydání Qwen3.6 přichází v době, kdy se otevřené modely dostávají na výkonnostní úroveň, která ještě před rokem patřila výhradně proprietárním systémům. Alibabě se podařilo to, o co usiluje i Meta s Llamou: ukázat, že open source AI není kompromis.
Zatímco Google's Gemma 4 se soustředí na multimodalitu a integraci do Google ekosystému, Qwen3.6 vsadil na výkon v agenickém kódování a tool use — oblasti, kde vývojáři cítí největší bolest. Výsledek? Na SWE-bench Qwen3.6 překonává Gemmu o 21 procentních bodů. To není malý rozdíl.
Proprietárním modelům zatím vévodí Claude Sonnet 4.5 a GPT-4o, ale Qwen3.6 se přibližuje a na některých specifických benchmarcích je překonává — a to zadarmo, lokálně, bez poplatků za token.
Mohu Qwen3.6-35B-A3B používat komerčně zdarma?
Ano. Model je vydán pod licencí Apache 2.0, která povoluje komerční použití bez poplatků a bez nutnosti zveřejňovat zdrojový kód. Jedinou podmínkou je zachování uvedení původu modelu v dokumentaci.
Jaký hardware potřebuji k lokálnímu spuštění Qwen3.6?
Minimální požadavky jsou 64 GB RAM (například MacBook Pro M3 Max) nebo grafická karta NVIDIA RTX 4090 s 32 GB VRAM. Na RTX 4090 přes Unsloth GGUF model generuje přes 120 tokenů za sekundu. Pro produkční nasazení se více GPU doporučuje pro paralelní zpracování požadavků.
Jak Qwen3.6 zvládá češtinu?
Model deklaruje podporu více než 100 jazyků včetně češtiny. Nejsilnější je v technických anglicky psaných úlohách — kódování, analýza a agenické workflow. Pro česky psané texty a dokumenty podá dobrý výkon, ale špičkové modely jako Claude nebo GPT-4o stále vedou v jazykových nuancích češtiny.