Přejít k hlavnímu obsahu

Oppo zveřejnilo X-OmniClaw: Android AI agent, který vidí, slyší a ovládá aplikace přímo v telefonu

Ilustrační obrázek pro jarvis-ai.cz
Oppo vstupuje na pole mobilních AI agentů s otevřeným zdrojovým kódem. Model X-OmniClaw od výzkumného týmu Multi-X běží přímo na Android zařízení, propojuje kameru, obrazovku a hlas do jednoho systému a dokáže autonomně ovládat aplikace — od porovnávání cen přes tvorbu fotoalb až po učení se zkratek do hluboko zanořených nabídek. A to vše bez nutnosti kopírovat data do cloudu.

Agent v kapse: X-OmniClaw běží přímo na vašem telefonu

Výzkumný tým Multi-X společnosti Oppo zveřejnil technickou zprávu a open-source kód agenta X-OmniClaw — systému, který kombinuje kameru, obrazovku a hlasové ovládání do jednoho autonomního asistenta pro Android. Na rozdíl od konkurenčních řešení, která spouštějí agenty ve virtualizovaných kopiích telefonu v datových centrech (například RedFinger, Alibaba Wuying nebo Tencent Cloud Phone), X-OmniClaw pracuje přímo na fyzickém zařízení. To znamená přístup k lokálním senzorům, foťáku a osobním datům bez nahrávání do cloudu.

Technická zpráva vyšla na arXiv 7. května 2026 a veškerý kód je dostupný na GitHubu pod licencí Apache 2.0. Projekt staví na kódové základně HermesApp a inspiruje se konceptem OpenClaw — známého open-source agenta zaměřeného především na počítače.

Tři pilíře: vnímání, paměť a akce

Architektura X-OmniClaw stojí na třech hlavních komponentách, které výzkumníci nazývají Omni Perception, Omni Memory a Omni Action.

Omni Perception: jedno potrubí pro všechny vstupy

Agent spojuje tři vstupní kanály do jednoho. Vizuálně-jazykový model (VLM) nejprve interpretuje scénu z kamery spolu s uživatelským požadavkem — například „Kolik to stojí na Taobao?“ — a teprve poté předá strukturovaný záměr k provedení. Klíčovou roli hraje modul časového zarovnání, který synchronizuje snímky obrazovky, zvukový vstup a reálný obraz z kamery do soudržného kontextu. Bez něj by agent nevěděl, že otázka položená hlasem se vztahuje k produktu, na který zrovna míříte foťákem.

Omni Memory: galerie jako prohledávatelná databáze

Zajímavou funkcí je dlouhodobá paměť postavená na lokálních datech. Během nečinnosti agent zpracovává fotky z galerie do kompaktních textových popisů — objektů, scén a událostí — a ukládá je do Markdown souboru image-memory.md. Každý záznam prochází filtrem, který odstraňuje citlivé informace. Výzkumníci v technické zprávě přiznávají, že aktuální řešení zatím posílá snímky ke zpracování do cloudového vizuálního modelu, ale jako další krok plánují přesun na plně lokální modely, aby surové obrázky nikdy neopustily telefon.

Omni Action: učení místo opakování

Místo aby agent plánoval každou akci od nuly, klonuje chování uživatele do znovupoužitelných dovedností. Když ručně proklikáte cestu k hluboce zanořené stránce (například slevové nabídce v aplikaci Meituan), X-OmniClaw si extrahuje příkaz pro spuštění dané stránky a příště tam skočí přes deeplink — bez zdlouhavého opakování tapnutí. Pro detekci klikatelných prvků kombinuje XML strukturu aplikace s vizuálním grounding modelem a OCR, což pomáhá hlavně v rozhraních plných reklam, kde čisté XML selhává.

Co X-OmniClaw zvládne v praxi

Výzkumníci předvedli čtyři scénáře z reálného světa:

  • Cena na první pohled: Namíříte kameru na produkt, zeptáte se na cenu — agent otevře nákupní aplikaci, projede výsledky, pořídí snímky obrazovky a přečte ceny i prodejní čísla.
  • Digitální učitel (ScreenAvatar): Agent funguje jako plovoucí asistent, který sám řeší cvičení na obrazovce — jedno po druhém, včetně výběru správných odpovědí.
  • Fotoalbum na povel: Hlasový příkaz „udělej video z fotek papoušků“ stačí k tomu, aby agent prohledal paměť galerie, našel odpovídající snímky a přesunul je do CapCut pro automatické video.
  • Zkratky na jedno slovo: Jednou nahrajete cestu do hluboké nabídky a příště stačí hlasový povel — agent použije deeplink i tam, kde aplikace veřejné deeplinky nenabízí.

Jak si stojí proti konkurenci

X-OmniClaw přichází do prostoru, který se rychle zaplňuje. OpenClaw, vyvíjený Peterem Steinbergerem, se soustředí na počítače a servery — jeho hlavní doménou je automatizace vývojářských workflow. Hermes Agent od Nous Research zase sází na emergentní schopnosti modelů. X-OmniClaw se odlišuje důrazem na edge-native architekturu — běží na fyzickém telefonu a cloud volá jen když musí.

Google nedávno s modelem Gemma 4 ukázal, že plně lokální model na smartphonu už zvládá agentní úkoly (dotazy na Wikipedii, generování QR kódů, otevírání mood trackerů). X-OmniClaw je ovšem koncipován jako otevřená platforma — podporuje připojení různých LLM modelů přes API (OpenRouter, Anthropic Claude, OpenAI GPT, Moonshot Kimi, MiniMax a přes Ollamu i lokální modely).

Metodicky X-OmniClaw navazuje na ByteDance UI-TARS — čistě vizuálního GUI agenta, který pracuje jen se snímky obrazovky a souřadnicemi. Oppo k tomuto přístupu přidává strukturální XML data a on-device provádění, čímž snižuje chybovost čistě vizuálních pipeline na dynamických rozhraních.

Technické detaily pro vývojáře

Projekt je napsaný z 95 % v Kotlin, menší část tvoří Python a Java. Vyžaduje Android 8.0 a vyšší a nabízí APK ke stažení na GitHub Releases. Od dubna 2026 podporuje:

  • Více paralelních relací s izolovaným během — každý agent běží ve vlastním vlákně s přesným zastavením
  • Plánovanou automatizaci v intervalech, ve všední dny nebo týdenních plánech
  • Hlasově-vizuální smyčku — nahrávání, snímky, rozhodnutí a provedení v jednom toku
  • 10 předpřipravených dovedností (skills) pro galerii, vyhledávání, správu modelů a další

Pro běh agenta je nutné poskytnout API klíč k některému z podporovaných poskytovatelů LLM. Konfigurace se ukládá lokálně do souboru na SD kartě a nastavuje se přímo v aplikaci. Pro přepis řeči lze použít například SiliconFlow SenseVoice Small, pro vizuální porozumění VLM model přes OpenRouter.

Co to znamená pro české uživatele

Jakkoli zní X-OmniClaw technicky působivě, pro běžného českého uživatele má zatím spíše experimentální charakter. Není lokalizován do češtiny — veškeré rozhraní, dokumentace i podporované jazykové modely komunikují primárně anglicky, případně čínsky. Hlasové ovládání češtinu zatím nepodporuje. Instalace vyžaduje ruční stažení APK z GitHubu (tzv. sideloading), což s sebou nese bezpečnostní rizika, pokud nevíte, co děláte.

Přesto jde o důležitý signál. Otevřený kód znamená, že kdokoliv — včetně českých vývojářů — může X-OmniClaw upravit, přeložit do češtiny a napojit na lokální modely. S rostoucí dostupností open-source jazykových modelů s podporou slovanských jazyků se otevírá cesta k autonomnímu asistentovi, který skutečně rozumí česky a běží plně na vašem telefonu.

Potřebuje X-OmniClaw neustálé připojení k internetu?

Částečně. Základní operace pro vnímání a ovládání běží na zařízení, ale pro komplexní uvažování agent volá cloudový jazykový model. Technicky je možné jej napojit na lokální model přes Ollamu a provozovat zcela offline, ale výkon bude záviset na výkonu vašeho zařízení a kvalitě lokálního modelu.

Podporuje X-OmniClaw iPhony nebo jiné platformy?

Ne, X-OmniClaw je určen výhradně pro Android 8.0 a vyšší. Pro iOS neexistuje žádná verze, což je dáno uzavřeností ekosystému Apple, který neumožňuje stejnou úroveň systémových oprávnění potřebných pro autonomní ovládání aplikací.

Jaký model je pro X-OmniClaw nejvhodnější?

Tým Oppo doporučuje modely s multimodální podporou (schopnost zpracovávat obrázky), jako jsou Qwen 3.6 Flash přes OpenRouter, Claude Opus 4 od Anthropic nebo GPT-4.1 od OpenAI. Pro přepis řeči se osvědčil SenseVoice Small přes SiliconFlow.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.