Qwen3.7-Plus: Alibaba představuje autonomního agenta, který dokáže „vidět“ a ovládat váš počítač

6. 6. 2026 Miriam Česáková

Alibaba Cloud právě vstoupila do nejnapěřejší části technologického závodu o budoucnost umělé inteligence. Jejich nový model Qwen3.7-Plus není jen dalším vylepšením jazykového modelu; je to pokus o vytvoření skutečného autonomního agenta. Na rozdíl od běžných chatbotů, které pouze generují text, Qwen3.7-Plus dokáže interpretovat vizuální obsah obrazovky, ovládat myš a klávesnici v rámci grafických rozhraní (GUI) a zároveň vykonávat příkazy v terminálu. Tento hybridní přístup staví Alibabu přímo proti lídrům trhu, jako jsou OpenAI a Anthropic.

Od textu k akci: Co dělá Qwen3.7-Plus jiným?

Většina současných modelů funguje na principu „otázka–odpověď“. I když pokročilé modely dokážou psát kód, stále vyžadují, aby člověk tento kód zkopíroval, spustil a v případě chyby zpětně informoval model. Qwen3.7-Plus tento cyklus uzavírá. Model je postaven na architektuře, která integruje vizuální vnímání přímo do rozhodovací smyčky agenta.

To znamená, že model nepracuje jen s textovými tokeny, ale „vidí“ screenshoty aplikací, grafické prvky a strukturu webových stránek. Díky tomu může plnit úkoly typu „computer use“ (používání počítače), kde AI sama naviguje v prohlížeči, kliká na tlačítka nebo vyhledává informace v desktopových aplikacích. Tato schopnost se nazývá GUI grounding – tedy schopnost modelu přesně identifikovat, který pixel na obrazovce odpovídá konkrétnímu ovládacímu prvku.

Extrémní autonomie: Programování za 11 hodin

Jedním z nejvíce ohromujících důkazů schopností nového modelu je demo, kde agent pracoval bez lidského zásahu přes 11 hodin. Výsledkem byla kompletní aplikace pro výuku anglické slovní zásoby. Během tohoto procesu model:

Sestavil dokumentaci požadavků.
Vygeneroval více než 10 000 řádků kódu.
Provedl instalaci, vytvořil testovací scénáře a samostatně řešil chyby v GUI (grafickém rozhraní).

Tento proces zahrnoval přes 1 000 jednotlivých volání agenta, což demonstruje schopnost modelu udržet komplexní plánování v dlouhém časovém horizontu.

Benchmarky: Kde Qwen vítězí a kde selhává?

Abychom pochopili, jak se Qwen3.7-Plus postaví proti gigantům jako GPT-5.4, Claude Opus 4.6 nebo Gemini 3.1 Pro, musíme se podívat na tvrdá data. Podle dostupných testů vyniká model zejména v oblasti ovládání rozhraní.

V benchmarku ScreenSpot Pro dosáhl Qwen3.7-Plus skóre 79.0, což jej staví do přímého souboje s nejlepšími modely na trhu v oblasti GUI automatizace. Tento parametr je kritický pro budoucí generaci asistentů, kteří budou za nás vyřizovat e-maily, objednávat letenky nebo konfigurovat cloudové servery.

Nicméně, model není dokonalý. Zatímco v ovládání počítače dominuje, u čistě vědeckých a komplexních logických úloh (např. benchmark MedXpertQA-MM) stále zaostává za modely jako Gemini 3.1 Pro nebo GPT-5.4. Qwen je tedy momentálně špičkovým „operátorem“, ale v hlubokém abstraktním uvažování stále hledá svou rovnováhu.

Model	GUI Grounding (ScreenSpot Pro)	Hlavní zaměření
Qwen3.7-Plus	79.0	Autonomní agenti, GUI/CLI ovládání
GPT-5.4 (xhigh)	Vysoké (srovnatelné)	Multimodalita, komplexní uvažování
Claude Opus 4.6	Špičkové v kódu	Programování, nuance v textu

Cena a dostupnost: Strategická výhoda Alibaby

Z ekonomického hlediska je Qwen3.7-Plus velmi agresivní. Alibaba Cloud nabízí tento model za zlomek ceny oproti americkým konkurentům. Zatímco špičkové modely od OpenAI nebo Anthropic mohou být pro firmy při masivním nasazení extrémně nákladné, cena Qwen3.7-Plus je nastavena následovně:

Input (vstupní tokeny): $0.40 za 1 milion tokenů (cca 9,20 Kč)
Output (výstupní tokeny): $2.40 za 1 milion tokenů (cca 55,20 Kč)

Pro srovnání, jeho „větší bratr“ Qwen3.7-Max je výrazně dražší ($2.50 za vstupní tokeny). Tato cenová politika umožňuje vývojářům a firmám experimentovat s agentními systémy, které vyžadují tisíce volání modelu za sebou, aniž by to znamenalo okamžitý finanční kolaps.

Co to znamená pro český trh a firmy v EU?

Pro české vývojáře a technologické firmy přináší Qwen3.7-Plus dvě zásadní možnosti. Za prvé, model je dostupný přes API a podporuje protokol Anthropic, což znamená snadnou integraci do stávajících nástrojů. Za druhé, jeho schopnost pracovat s terminálem a GUI může výrazně zlevnit automatizaci v IT operacích (DevOps) i v administrativě.

Je však třeba brát v úvahu regulaci EU AI Act. Jelikož jde o model od čínského poskytovatele, firmy v EU musí dbát na to, jakým způsobem model zpracovává data, zejména pokud jde o citlivé informace při ovládání uživatelských rozhraní. Pokud plánujete nasadit Qwen jako autonomního agenta pro práci s firemními daty, doporučujeme využívat instance v rámci cloudových služeb, které splňují evropské standardy ochrany soukromí.

Dostupnost češtiny: Ačkoliv je Qwen známý svou vynikající multilingvální schopností, u specifických agentních úloh (např. klikání na tlačítka v českých e-shopových systémech) je nutné provést testování. Model rozumí textu v mnoha jazycích, ale jeho schopnost „vidět“ a chápat kontext českého uživatelského prostředí závisí na kvalitě vizuálního tréninku.

Závěr

Qwen3.7-Plus není jen další krok v evoluci LLM. Je to signál, že éra „pouhých chatbotů“ končí a nastupuje éra autonomních pracovníků. Alibaba se tímto krokem snaží demokratizovat přístup k pokročilým agentům skrze velmi konkurenceschopnou cenu, což může změnit dynamiku trhu pro evropské startupy i velké korporace.

Může Qwen3.7-Plus pracovat přímo s mým počítačem a vidět mé soukromé data?

Model sám o sobě nemá přístup k vašemu počítači. Musí být implementován prostřednictím aplikace nebo rozšíření (např. "Qwen for Chrome"), které mu s vaším výslovným svolením poskytne snímky obrazovky nebo přístup k terminálu.

Je tento model vhodný pro vývojáře v ČR?

Ano, díky podpoře Anthropic API protokolu a velmi nízké ceně za tokeny je to vynikající volba pro automatizaci testování kódu nebo tvorbu skriptů. Je však nutné sledovat shodu s EU regulacemi při práci s citlivými daty.

Jak se liší od běžného ChatGPT?

ChatGPT je primárně textový/multimodální asistent pro interakci. Qwen3.7-Plus je navržen jako „agent“, což znamená, že jeho cílem není jen odpovědět, ale provést sekvenci akcí v reálném softwaru (klikání, psaní kódu a jeho okamžité spouštění).