Qwen3.7: Alibaba přináší model pro éru AI agentů. Autonomní výkon na 35 hodin a 1000 kroků

20. 5. 2026 Daniel Česák

  Alibaba včera oficiálně představilo Qwen3.7-Max, svůj dosud nejambicióznější proprietární AI model. Zatímco předchozí generace soupeřily hlavně v chatovacích dovednostech, novinka míří přímo do srdce agentní éry — umí totiž autonomně programovat, debugovat, ovládat kancelářské workflow a vydržet pracovat 35 hodin v kuse s více než tisícem nástrojových volání. Qwen3.7-Max chce být univerzálním základem pro AI agenty napříč frameworky — od Claude Code přes OpenClaw až po vlastní Qwen Code.

Nejde o další chatbot. Je to agentní základ

Když Alibaba v dubnu 2026 vydalo Qwen3.6-Plus, slibovalo model „pro skutečné agenty". Tehdy šlo spíše o příslib. S Qwen3.7-Max, oznámeným 18. května 2026, čínský gigant toto tvrzení konečně podkládá tvrdými daty. Model byl navržen tak, aby zvládal dlouhé autonomní úlohy — od prototypování frontendu přes komplexní softwarové inženýrství až po automatizaci kancelářských procesů pomocí MCP (Model Context Protocol) integrací.

Podle oficiálního blogového příspěvku Qwen model vyniká ve třech klíčových oblastech: coding agent (vývoj a opravy kódu), produktivita a workflow automatizace (kancelářské nástroje, multi-agent orchestrace) a dlouhodobá autonomní exekuce (stovky až tisíce po sobě jdoucích kroků bez lidského zásahu).

Benchmarky: Kde Qwen3.7-Max září a kde pokulhává

Alibaba zveřejnilo rozsáhlé srovnání s konkurencí včetně Opus-4.6 Max, K2.6 Thinking, GLM-5.1 Thinking, DS-V4-Pro Max a Qwen3.6-Plus. Výsledky potvrzují, že čínský model se dostal mezi absolutní špičku — a v mnoha disciplínách ji překonává.

Coding agent: Tam, kde agentní AI začíná dávat smysl

V testech programátorských dovedností dosáhl Qwen3.7-Max skóre 69,7 na Terminal Bench 2.0-Terminus, čímž překonal DS-V4-Pro Max (67,9). Na SWE-Bench Verified získal 80,4 — srovnatelně s Opus-4.6 Max (80,8) i DS-V4-Pro Max (80,6). Ještě výraznější je náskok na SWE-Pro (60,6 oproti 59,0 u DS-V4-Pro Max) a SWE-Multilingual (78,3 — nejlepší ze všech testovaných modelů). Vynikající výkon předvedl i na SciCode (53,5) a NL2Repo (47,2), kde suverénně porazil konkurenci.

Obecní agenti: Od kanceláře po jádro operačního systému

Právě v obecných agentních schopnostech je pokrok proti Qwen3.6-Plus nejmarkantnější. Na MCP-Mark (test práce s MCP nástroji jako GitHub MCP a Playwright) dosáhl 60,8 — zlepšení o více než 12 bodů. Na SkillsBench (testováno přes OpenCode scaffold na 78 úlohách) získal 59,2 — o 13,5 bodu více než Qwen3.6-Plus. Na MCP-Atlas dosáhl 76,4, čímž se dotáhl na Opus-4.6 (75,8).

Zvláštní pozornost si zaslouží Kernel Bench L3 — test, který měří schopnost AI optimalizovat GPU kernely. Qwen3.7-Max zde dosáhl 1,98× mediánového zrychlení oproti referenční implementaci PyTorch a 96% úspěšnost (tedy v 96 % případů vygeneroval rychlejší kód než torch.compile). Pro srovnání: DS-V4-Pro Max dosáhl jen 1,07× zrychlení a 54% úspěšnosti.

STEM a uvažování: Síla na poli vědy

V testech vědeckého uvažování Qwen3.7-Max boduje na GPQA Diamond skóre 92,4 % (nejlepší z testované skupiny), HLE 41,4 % (druhý za K2.6 s 54,0 % v HLE s nástroji), LiveCodeBench 91,6 % a HMMT 2026 Feb 97,1 %. Na IMOAnswerBench získal 90,0 — těsně za DS-V4-Pro Max (89,8).

35 hodin autonomní práce: Důkaz konceptu, který má váhu

Nejpůsobivější ilustrací schopností Qwen3.7-Max je demonstrace 35hodinové autonomní optimalizace kernelu, během níž model provedl přes 1 000 nástrojových volání bez jakéhokoli lidského zásahu. Každý test probíhal v izolovaném Docker kontejneru s jedním GPU H100 80 GB, s přístupem k internetu omezeným pouze na dokumentaci CUTLASS a oficiální CUDA dokumentaci.

To je zásadní posun od krátkých, jednoúkolových interakcí, na které jsme zvyklí z chatovacích rozhraní. Model prokázal schopnost držet konzistentní strategii a učit se z vlastních chyb po stovky iterací — schopnost, která je pro praktické nasazení AI agentů klíčová.

Jeden model, mnoho frameworků

Zajímavým aspektem Qwen3.7-Max je jeho cross-scaffold generalizace — tedy schopnost konzistentně fungovat napříč různými agentními frameworky. Alibaba testovalo model v Claude Code (od Anthropicu), OpenClaw, Qwen Code a dalších — a výkon se držel na srovnatelné úrovni bez ohledu na použitý scaffold.

To je pro vývojáře důležitá zpráva: znamená to, že nemusí být vázáni na jeden konkrétní ekosystém. Model si poradí v prostředí, které už znají a používají.

Co to znamená pro Česko a Evropu

Qwen3.7-Max bude dostupný přes Alibaba Cloud Model Studio, které od března 2026 funguje i v evropském regionu Frankfurt. To znamená, že evropské firmy — včetně českých — mohou model využívat s garantovaným umístěním dat v EU, což je klíčové pro dodržení nařízení GDPR a připravovaného EU AI Act.

Pro české vývojáře a firmy, které experimentují s AI agenty (například pro automatizaci zákaznické podpory, interních procesů nebo vývoje softwaru), představuje Qwen3.7-Max zajímavou alternativu k modelům od OpenAI, Anthropicu či Googlu — zejména pokud hledají výkonného agenta s nižšími provozními náklady. Česká jazyková podpora je u modelů řady Qwen tradičně na vysoké úrovni — Qwen3.6 dosáhl v testu WMT24++ skóre 84,3 a u Qwen3.7-Max se očekává další zlepšení v multilingvních benchmarkích (WMT24++ 85,8, MAXIFE 89,2).

Qwen3.7-Max navíc vstupuje na trh v době, kdy české firmy jako Ecomail už propojují AI agenty s vlastními službami a ČNB staví vlastní AI centrum — poptávka po výkonných a spolehlivých agentních modelech v Česku reálně existuje.

Cena a dostupnost

Alibaba zatím nezveřejnilo konkrétní ceník pro Qwen3.7-Max — model bude teprve zpřístupněn přes Alibaba Cloud Model Studio. Pro orientaci lze vycházet z cenovky Qwen3.6-Plus, která se pohybuje kolem 0,5–2 USD za milion vstupních tokenů a 3–6 USD za milion výstupních tokenů. Lze očekávat, že Qwen3.7-Max bude v prémiové kategorii, stále však výrazně levnější než srovnatelné západní modely.

Pro individuální vývojáře nabízí Model Studio 1 milion tokenů zdarma na každý model, což umožňuje model otestovat bez finančního rizika.

Jaký je rozdíl mezi Qwen3.7-Max a Qwen3.6-Plus?

Qwen3.6-Plus byl primárně zaměřen na multimodální schopnosti (text, obraz, zvuk) s milionovým kontextovým oknem a agentním kódováním. Qwen3.7-Max jde o krok dál — důraz přesouvá na dlouhodobou autonomní exekuci (stovky až tisíce kroků), výrazně lepší výkony v agentních benchmarcích (MCP-Mark, SkillsBench) a schopnost fungovat napříč různými agentními frameworky. Jde o posun od „modelu s agentními schopnostmi" k „modelu postavenému pro agentní éru".

Bude Qwen3.7 dostupný jako open-source, nebo pouze přes API?

Qwen3.7-Max je proprietární model a bude dostupný pouze přes API na Alibaba Cloud Model Studio. Alibaba u předchozích generací vydávalo menší varianty (např. Qwen3.6-35B-A3B) pod open-source licencí Apache 2.0. Zatím nebylo oznámeno, zda se podobná otevřená varianta objeví i pro Qwen3.7. Pro běžné použití a testování lze využít bezplatný kredit 1 milion tokenů na Model Studiu.

Může Qwen3.7-Max nahradit vývojáře při programování?

Ne zcela. Model dosahuje vynikajících výsledků v agentním kódování — na SWE-Bench Verified získal 80,4, což znamená, že zvládne vyřešit přes 80 % reálných GitHub issues. Stále však potřebuje lidský dohled, zejména u komplexních architektonických rozhodnutí, bezpečnostně kritických systémů a úloh vyžadujících porozumění širšímu byznys kontextu. Je to spíše extrémně schopný asistent než plnohodnotná náhrada.