Dlouhá éra, kdy automatizace byla svázána s technologickou vyspělostí softwaru (tzv. API – rozhraní pro komunikaci mezi programy), se začíná měnit. Microsoft v rámci své platformy Copilot Studio oznámil integraci schopnosti „computer use“. Tato funkce, momentálně v rámci raného výzkumného preview, umožňuje AI agentům „vidět“ a „ovládat“ obrazovku stejně jako lidský operátor.
Jak funguje AI, která „vidí“ vaši obrazovku?
Tradiční automatizace (RPA – Robotic Process Automation) byla často křehká. Pokud se v aplikaci změnila barva tlačítka nebo jeho pozice, proces selhal. Nový přístup Microsoftu využívá hluboké uvažování (deep reasoning). Agent nehledá jen konkrétní pixel na obrazovce, ale rozumí kontextu toho, co vidí.
Díky integraci pokročilých modelů dokáže agent v reálném čase vyhodnotit, že se například otevřelo vyskakovací okno, které nečekal, a pokusí se ho zavřít, aby mohl pokračovat v úkolu. Tento proces zahrnuje:
- Percepci: Analýza vizuálního obsahu prohlížeče (Edge, Chrome, Firefox) nebo desktopové aplikace.
- Plánování: Rozdělení komplexního úkolu (např. „Najdi fakturu v e-mailu a zadej ji do našeho účetního systému“) na jednotlivé kroky.
- Akci: Simulace pohybu myši, klikání na prvky, výběr z menu a psaní textu do polí.
Tento posun je zásadní pro firmy, které stále využívají starší (legacy) systémy, které nemají možnost propojení přes moderní API. Agent se stává „digitálním kolegou“, který se naučí pracovat s vaším starým softwarem stejně jako vy.
Srovnání s konkurencí: Kdo vede v boji o desktopové agenty?
Microsoft není jediným hráčem na poli „computer use“. V posledních měsících jsme viděli významné kroky od dalších lídrů trhu:
- Anthropic: Jejich model Claude 3.5 Sonnet představil velmi podobnou schopnost ovládání počítače, která se zaměřuje na vysokou míru přesnosti v prohlížeči.
- OpenAI: Pracuje na podobných agentních schopnostech pro své modely GPT, které mají být hluboce integrovány do operačního systému Windows.
- Google: Skrze Gemini se snaží o podobnou integraci do Google Workspace, ale zatím se více soustředí na práci v rámci cloudových dokumentů než na přímé ovládání desktopového OS.
Výhodou Microsoftu je však ekosystém. Copilot Studio není jen model, je to platforma, která umožňuje vývojářům (makerům) stavět celé pracovní procesy (workflows), které jsou přímo propojeny s daty v Microsoft 365 a Dynamics 365.
Praktický dopad: Co to znamená pro české firmy?
Pro český trh, který je silný v oblasti služeb, výroby a středně velkých firem, má tato novinka obrovský potenciál. Mnoho českých firem stále pracuje s lokálními, specifickými softwaremi pro účetnictví, skladování nebo řízení výroby, které jsou často uzavřené a nemají API pro snadné propojení s moderní AI.
Příklady využití:
- Účetní služby: Agent může automaticky přepisovat data z PDF faktur přímo do staršího účetního programu, kde by jinak musel člověk ručně přepisovat čísla.
- Zákaznická podpora: Agent může v reálném čase procházet interní databáze a zákaznické portály, aby našel odpověď pro operátora.
- Administrativa: Automatické vyřizování objednávek v e-shopu, které vyžadují manuální potvrzení v administraci webu.
Z hlediska EU regulace (AI Act) a ochrany dat je důležité zdůraznit, že Microsoft uvádí, že data zůstávají v rámci hranic Microsoft Cloud a nejsou využívána k trénování základních modelů (Frontier models). To je pro evropské firmy, které musí dodržovat přísné normy GDPR, klíčový faktor pro adopci těchto nástrojů.
Cena a dostupnost
Microsoft Copilot Studio není bezplatný nástroj. Pro podnikové uživatele je obvykle součástí širšího licencování Microsoft 365 nebo Dynamics 365. Cenová politika: Microsoft standardně nabízí předplatné pro Copilot Studio v rámci enterprise licencí, kde se cena pohybuje v řádech desítek až stovek USD měsíčně za kapacitu/uživatele (přesné částky se liší podle typu smlouvy s Microsoftem). Pro běžné uživatele v rámci osobních verzí Copilot je dostupná omezená verze zdarma, ale plná agentní schopnost „computer use“ je určena primárně pro business segment.
Lokalizace: Ačkoliv je primární vývoj zaměřen na angličtinu, Microsoft postupně rozšiřuje podporu pro evropské jazyky. Pro český trh je klíčové, že agent dokáže interagovat s českým textem a českými webovými stránkami, což je pro českou sféru zásadní.
Je ovládání počítače pomocí AI bezpečné? Mohlo by AI omylem smazat důležitá data?
Microsoft implementuje robustní bezpečnostní rámce a governance. Agenti v Copilot Studio fungují v kontrolovaném prostředí. Nicméně, protože jde o „research preview“, je nutné počítat s tím, že agent může udělat chybu. Doporučuje se začít s úkoly, které vyžadují lidský dohled (human-in-the-loop), než se agentovi svěří plná kontrola nad kritickými systémy.
Musím mít pro každou aplikaci vytvořit speciální přípravu, aby ji AI ovládla?
Ne, to je právě hlavní výhoda. Na rozdíl od tradiční automatizace, kde musíte definovat každý krok a každé pole, AI agent díky schopnosti „computer use“ vidí rozhraní a rozumí mu pomocí vizuálního uvažování. Stačí mu zadat cíl.
Bude tato funkce fungovat i na macOS nebo pouze na Windows?
Aktuální oznámení se zaměřuje na desktopové aplikace a prohlížeče běžně používané v korporátním prostředí, což primárně zahrnuje Windows a prohlížeče jako Edge či Chrome. Detailní podpora pro macOS závisí na budoucích aktualizacích Microsoftu.