Co je Qwen3.6-27B?
Qwen3.6-27B je nejnovější open-source jazykový model z dílny Alibaba Cloud. Jde o dense model s 27 miliardami parametrů, který kombinuje tradiční plnou pozornost (full attention) s efektivnější lineární pozorností (linear attention) — konkrétně 48 ze 64 vrstev používá lineární attention, což výrazně urychluje inferenci oproti klasickým transformer modelům.
Model byl oficiálně představen 22. dubna 2026 a ihned zaujal komunitní výsledky. Je postaven na architektuře Qwen3.5 a podporuje jak thinking mód (kde model uvažuje nahlas před odpovědí, podobně jako o1 od OpenAI), tak klasický non-thinking mód pro rychlé odpovědi. Díky podpoře multimodality zvládá i zpracování obrázků, což se hodí například při analýze screenshotů kódu nebo UI designu.
Výkon, který bere dech
Hlavní devizou modelu je agentic coding — tedy schopnost samostatně pracovat s kódem, opravovat bugy, psát testy a orientovat se v celých kódových základnách. V těchto úlohách Qwen3.6-27B překonává i svého předchůdce Qwen3.5-397B-A17B (model s 397 miliardami celkových parametrů, z toho 17 miliard aktivních):
- SWE-bench Verified: 77,2 % (Qwen3.5-397B: 76,2 %) — benchmark reálných GitHub issues
- SWE-bench Pro: 53,5 % (Qwen3.5-397B: 50,9 %) — náročnější scénáře
- SWE-bench Multilingual: 71,3 % (Qwen3.5-397B: 69,3 %) — kódování ve více jazycích
- Terminal-Bench 2.0: 59,3 % (Qwen3.5-397B: 52,5 %) — práce s příkazovou řádkou
- SkillsBench Avg5: 48,2 % (Qwen3.5-397B: 30,0 %) — praktické programátorské dovednosti
Pro srovnání — model poráží i Gemma4-31B od Googlu (52 % na SWE-bench Verified) a přibližuje se k uzavřeným komerčním modelům jako Claude 4.5 Opus (80,9 %).
Pro koho je model určen?
Díky 27 miliardám parametrů je Qwen3.6-27B ideální volbou pro všechny, kdo chtějí provozovat výkonný AI model lokálně. Zatímco modely velikosti 70B a větší vyžadují profesionální serverové GPU (často s 48+ GB VRAM), Qwen3.6-27B v kvantizaci Q5_K_M zabere přibližně 20 GB VRAM, což zvládne i sestava se dvěma spotřebitelskými GPU (např. 2× RTX 3060 12 GB nebo 2× RTX 4060 Ti 16 GB).
Model je dostupný v GGUF kvantizacích díky komunitě Unsloth a LM Studio, takže jej lze snadno spustit přes Ollama, llama.cpp nebo LM Studio na Windows, macOS i Linuxu.
Architektura: Hybridní attention jako klíč k rychlosti
Zatímco většina open-source modelů používá čistě transformer architekturu s plnou attention, Qwen3.6-27B kombinuje dva přístupy. Ze 64 vrstev jich 48 používá lineární attention (méně výpočetně náročnou) a zbylých 16 v pravidelném intervalu plnou attention. Tento hybrid přináší znatelně nižší latenci — pro 27B model je inference srovnatelně rychlá s mnohem menšími modely.
Dalším chytrým trikem je Grouped Query Attention (GQA) v poměru 6:1 — model má 24 hlav, ale jen 4 klíč-hodnota hlavy, což dramaticky snižuje velikost KV cache a umožňuje 262 000 tokenů kontextu. Pro běžné programátorské úlohy to znamená, že do kontextu vleze celá kódová základna středně velkého projektu.
Dostupnost v Česku a praktické využití
Model je zcela zdarma pod licencí Apache 2.0, což znamená, že jej můžete použít komerčně bez omezení. Stáhnout si ho můžete z Hugging Face nebo z ModelScope.
Pro české vývojáře je Qwen3.6-27B obzvlášť zajímavý. Díky 262K kontextovému oknu do něj lze nahrát celé PHP projekty, Drupal moduly, Symfony či Laravel aplikace. Model si poradí s moderním PHP 8.x, TypeScriptem, JavaScriptem i Pythonem. Vzhledem k tomu, že běží lokálně, není třeba řešit GDPR problémy spojené s posíláním kódu na cloudové API.
Na lokálním serveru s dvěma GPU (např. 2× 16 GB) lze model pohodlně provozovat v kvantizaci Q5_K_M nebo dokonce Q6_K s rozdělením zátěže mezi obě karty. Ollama podporuje multi-GPU automaticky, u llama.cpp stačí přidat parametr --tensor-split 16,16.
Srovnání s konkurencí
| Model | Velikost | SWE-bench Ver. | SkillsBench | Kontext |
|---|---|---|---|---|
| Qwen3.6-27B | 27B | 77,2 % | 48,2 % | 262K |
| Qwen3.5-397B-A17B | 397B (17B active) | 76,2 % | 30,0 % | 128K |
| Gemma4-31B | 31B | 52,0 % | 23,6 % | 256K |
| Claude 4.5 Opus | uzavřený | 80,9 % | 45,3 % | — |
Jak začít?
Nejjednodušší způsob, jak Qwen3.6-27B vyzkoušet, je přes Ollamu:
ollama run unsloth/qwen3.6-27b-instruct:q5_k_m
Pokud preferujete llama.cpp, stáhněte GGUF soubor z Unsloth repozitáře a spusťte:
./llama-cli -m Qwen3.6-27B-Q5_K_M.gguf --ctx-size 65536
Model si můžete také vyzkoušet online zdarma na Qwen Studio bez nutnosti instalace.
Je Qwen3.6-27B opravdu lepší v kódování než Qwen3-Coder-30B-A3B?
Podle dostupných benchmarků Qwen3.6-27B výrazně překonává nejen svého MoE sourozence Qwen3.6-35B-A3B (viz SkillsBench 48,2 vs. 28,7), ale je i z novější generace než Qwen3-Coder-30B-A3B. V praxi to znamená výrazně lepší výsledky v agentním kódování, opravách bugů a práci s repozitářem.
Potřebuji k provozu modelu speciální hardware?
Model v kvantizaci Q4_K_M zabere přibližně 17 GB VRAM — vejde se tedy i na jednu grafiku s 24 GB (RTX 4090, RTX 3090). Dvě GPU s 12-16 GB stačí pro Q5_K_M nebo Q6_K. Běžet bude i na CPU (přes llama.cpp), ale výrazně pomaleji. Pro běžné kancelářské úlohy stačí 16-32 GB RAM a moderní procesor.
Má smysl model používat i na jiné úlohy než programování?
Ano. Ačkoliv je primárně zaměřený na kód, Qwen3.6-27B dosahuje skvělých výsledků i v obecných reasoning úlohách — například 87,8 % na GPQA Diamond (vědecké uvažování). Díky multimodální podpoře zvládá i analýzu obrázků, což se hodí například při čtení diagramů nebo screenshotů. Pro psaní textů a překlady je rovněž plně dostačující.