Přejít k hlavnímu obsahu

Qwen3.6-27B: Nový open-source model poráží v programování i patnáctkrát větší konkurenci

Ilustrační obrázek pro jarvis-ai.cz
Čínská společnost Qwen (Alibaba) vydala nový open-source model Qwen3.6-27B, který přináší přelomový výkon v programátorských úlohách. Ačkoliv jde „jen" o 27miliardový dense model, v agentním kódování poráží i patnáctkrát větší model Qwen3.5-397B-A17B. Model je k dispozici zdarma pod licencí Apache 2.0 a díky své velikosti jej lze provozovat i na běžném spotřebitelském hardwaru.

Co je Qwen3.6-27B?

Qwen3.6-27B je nejnovější open-source jazykový model z dílny Alibaba Cloud. Jde o dense model s 27 miliardami parametrů, který kombinuje tradiční plnou pozornost (full attention) s efektivnější lineární pozorností (linear attention) — konkrétně 48 ze 64 vrstev používá lineární attention, což výrazně urychluje inferenci oproti klasickým transformer modelům.

Model byl oficiálně představen 22. dubna 2026 a ihned zaujal komunitní výsledky. Je postaven na architektuře Qwen3.5 a podporuje jak thinking mód (kde model uvažuje nahlas před odpovědí, podobně jako o1 od OpenAI), tak klasický non-thinking mód pro rychlé odpovědi. Díky podpoře multimodality zvládá i zpracování obrázků, což se hodí například při analýze screenshotů kódu nebo UI designu.

Výkon, který bere dech

Hlavní devizou modelu je agentic coding — tedy schopnost samostatně pracovat s kódem, opravovat bugy, psát testy a orientovat se v celých kódových základnách. V těchto úlohách Qwen3.6-27B překonává i svého předchůdce Qwen3.5-397B-A17B (model s 397 miliardami celkových parametrů, z toho 17 miliard aktivních):

  • SWE-bench Verified: 77,2 % (Qwen3.5-397B: 76,2 %) — benchmark reálných GitHub issues
  • SWE-bench Pro: 53,5 % (Qwen3.5-397B: 50,9 %) — náročnější scénáře
  • SWE-bench Multilingual: 71,3 % (Qwen3.5-397B: 69,3 %) — kódování ve více jazycích
  • Terminal-Bench 2.0: 59,3 % (Qwen3.5-397B: 52,5 %) — práce s příkazovou řádkou
  • SkillsBench Avg5: 48,2 % (Qwen3.5-397B: 30,0 %) — praktické programátorské dovednosti

Pro srovnání — model poráží i Gemma4-31B od Googlu (52 % na SWE-bench Verified) a přibližuje se k uzavřeným komerčním modelům jako Claude 4.5 Opus (80,9 %).

Pro koho je model určen?

Díky 27 miliardám parametrů je Qwen3.6-27B ideální volbou pro všechny, kdo chtějí provozovat výkonný AI model lokálně. Zatímco modely velikosti 70B a větší vyžadují profesionální serverové GPU (často s 48+ GB VRAM), Qwen3.6-27B v kvantizaci Q5_K_M zabere přibližně 20 GB VRAM, což zvládne i sestava se dvěma spotřebitelskými GPU (např. 2× RTX 3060 12 GB nebo 2× RTX 4060 Ti 16 GB).

Model je dostupný v GGUF kvantizacích díky komunitě Unsloth a LM Studio, takže jej lze snadno spustit přes Ollama, llama.cpp nebo LM Studio na Windows, macOS i Linuxu.

Architektura: Hybridní attention jako klíč k rychlosti

Zatímco většina open-source modelů používá čistě transformer architekturu s plnou attention, Qwen3.6-27B kombinuje dva přístupy. Ze 64 vrstev jich 48 používá lineární attention (méně výpočetně náročnou) a zbylých 16 v pravidelném intervalu plnou attention. Tento hybrid přináší znatelně nižší latenci — pro 27B model je inference srovnatelně rychlá s mnohem menšími modely.

Dalším chytrým trikem je Grouped Query Attention (GQA) v poměru 6:1 — model má 24 hlav, ale jen 4 klíč-hodnota hlavy, což dramaticky snižuje velikost KV cache a umožňuje 262 000 tokenů kontextu. Pro běžné programátorské úlohy to znamená, že do kontextu vleze celá kódová základna středně velkého projektu.

Dostupnost v Česku a praktické využití

Model je zcela zdarma pod licencí Apache 2.0, což znamená, že jej můžete použít komerčně bez omezení. Stáhnout si ho můžete z Hugging Face nebo z ModelScope.

Pro české vývojáře je Qwen3.6-27B obzvlášť zajímavý. Díky 262K kontextovému oknu do něj lze nahrát celé PHP projekty, Drupal moduly, Symfony či Laravel aplikace. Model si poradí s moderním PHP 8.x, TypeScriptem, JavaScriptem i Pythonem. Vzhledem k tomu, že běží lokálně, není třeba řešit GDPR problémy spojené s posíláním kódu na cloudové API.

Na lokálním serveru s dvěma GPU (např. 2× 16 GB) lze model pohodlně provozovat v kvantizaci Q5_K_M nebo dokonce Q6_K s rozdělením zátěže mezi obě karty. Ollama podporuje multi-GPU automaticky, u llama.cpp stačí přidat parametr --tensor-split 16,16.

Srovnání s konkurencí

Model Velikost SWE-bench Ver. SkillsBench Kontext
Qwen3.6-27B 27B 77,2 % 48,2 % 262K
Qwen3.5-397B-A17B 397B (17B active) 76,2 % 30,0 % 128K
Gemma4-31B 31B 52,0 % 23,6 % 256K
Claude 4.5 Opus uzavřený 80,9 % 45,3 %

Jak začít?

Nejjednodušší způsob, jak Qwen3.6-27B vyzkoušet, je přes Ollamu:

ollama run unsloth/qwen3.6-27b-instruct:q5_k_m

Pokud preferujete llama.cpp, stáhněte GGUF soubor z Unsloth repozitáře a spusťte:

./llama-cli -m Qwen3.6-27B-Q5_K_M.gguf --ctx-size 65536

Model si můžete také vyzkoušet online zdarma na Qwen Studio bez nutnosti instalace.

Je Qwen3.6-27B opravdu lepší v kódování než Qwen3-Coder-30B-A3B?

Podle dostupných benchmarků Qwen3.6-27B výrazně překonává nejen svého MoE sourozence Qwen3.6-35B-A3B (viz SkillsBench 48,2 vs. 28,7), ale je i z novější generace než Qwen3-Coder-30B-A3B. V praxi to znamená výrazně lepší výsledky v agentním kódování, opravách bugů a práci s repozitářem.

Potřebuji k provozu modelu speciální hardware?

Model v kvantizaci Q4_K_M zabere přibližně 17 GB VRAM — vejde se tedy i na jednu grafiku s 24 GB (RTX 4090, RTX 3090). Dvě GPU s 12-16 GB stačí pro Q5_K_M nebo Q6_K. Běžet bude i na CPU (přes llama.cpp), ale výrazně pomaleji. Pro běžné kancelářské úlohy stačí 16-32 GB RAM a moderní procesor.

Má smysl model používat i na jiné úlohy než programování?

Ano. Ačkoliv je primárně zaměřený na kód, Qwen3.6-27B dosahuje skvělých výsledků i v obecných reasoning úlohách — například 87,8 % na GPQA Diamond (vědecké uvažování). Díky multimodální podpoře zvládá i analýzu obrázků, což se hodí například při čtení diagramů nebo screenshotů. Pro psaní textů a překlady je rovněž plně dostačující.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.