Přejít k hlavnímu obsahu

Perceptron Mk1: Nový AI model pro analýzu videa je o 80–90 % levnější než GPT-5, Claude a Gemini

Ilustrační obrázek pro jarvis-ai.cz
Americký startup Perceptron v úterý 12. května 2026 představil svůj vlajkový model Perceptron Mk1 — multimodální systém pro analýzu videa a prostorového usuzování, který podle oficiálních benchmarků překonává špičkové modely od OpenAI, Anthropic i Googlu. Překvapivé však není jen jeho výkon, ale především cena: za používání API zaplatí vývojáři 80–90 % méně než u konkurence. Pro české firmy a vývojáře to otevírá nové možnosti v oblasti automatizace, robotiky a bezpečnostních systémů.

Malý startup s velkými ambicemi

Perceptron Inc. je teprve dvouletý startup sídlící v Bellevue ve státě Washington. Založili jej Armen Aghajanyan a Akshat Shrivastava, bývalí výzkumníci z prestižního laboratoře Meta FAIR. Oba autoři se podíleli na vývoji modelů Chameleon a MoMa — rodin multimodálních modelů s tzv. early-fusion architekturou. Právě tato zkušenost jim umožnila během 16 měsíců vyvinout od základů nový „recept“ pro porozumění fyzickému světu.

Společnost oficiálně vznikla v listopadu 2024 a od začátku si dala za cíl vytvořit umělou inteligenci, která dokáže nejen rozpoznat objekty na obrazech, ale skutečně chápat příčinné souvislosti, dynamiku objektů a zákony fyziky — oblast, kterou Perceptron označuje jako „physical AI“.

Benchmarky: Kde Mk1 dominuje

Perceptron Mk1 byl testován na řadě specializovaných benchmarků zaměřených na prostorové a temporální usuzování. Výsledky mluví jasně:

  • EmbSpatialBench: 85,1 bodu — lepší než Google Robotics-ER 1.5 (78,4) a Alibaba Q3.5-27B (přibližně 84,5).
  • RefSpatialBench: 72,4 bodu — obrovský náskok před GPT-5m (9,0) a Claude Sonnet 4.5 (2,2).
  • EgoSchema (Hard Subset): 41,4 bodu — na úrovni Alibaba Q3.5-27B a výrazně nad Gemini 3.1 Flash-Lite (25,0).
  • VSI-Bench: 88,5 bodu — nejvyšší zaznamenané skóre mezi porovnávanými modely.

Na grafech tzv. „Efficiency Frontier“, které kreslí vztah mezi výkonem a cenou, se Mk1 nachází v unikátní pozici: dosahuje výsledků srovnatelných s top modely GPT-5 a Gemini 3.1 Pro, ale s cenovým profilem blízkým levnějším „Lite“ variantám.

Cenovka, která mění pravidla hry

Perceptron Mk1 stojí 0,15 USD za milion vstupních tokenů a 1,50 USD za milion výstupních tokenů. Při průměrném smíšeném nákladu se dostáváme na přibližně 0,30 USD za milion tokenů.

Pro srovnání: podle dat Perceptronu se smíšený náklad u GPT-5 pohybuje kolem 2,00 USD a u Gemini 3.1 Pro přibližně 3,00 USD za milion tokenů. To znamená, že Mk1 je skutečně osm až desetkrát levnější.

Tato agresivní cenová strategie není náhoda — startup ji záměrně nastavil tak, aby pokročilá video AI byla dostupná pro velkoprůmyslové nasazení, nikoli jen pro experimenty ve výzkumných laboratořích. Pro české firmy to znamená, že analytika videa v reálném čase se stává ekonomicky realizovatelnou i pro střední podniky.

Proč Mk1 rozumí videu lépe než ostatní

Technickým jádrem modelu je schopnost zpracovávat nativní video rychlostí až 2 snímky za sekundu (FPS) v kontextovém okně o délce 32 000 tokenů. To umožňuje analýzu dlouhých videosekvencí bez ztráty kontinuity.

Na rozdíl od tradičních vizuálně-jazykových modelů (VLM), které často zpracovávají video jako posloupnost nesouvisejících statických obrázků, je Mk1 navržen pro temporální kontinuitu. Model dokáže sledovat objekty i přes okluze (zakrytí), udržovat jejich identitu v čase a vracet strukturované časové kódy k konkrétním událostem ve streamu.

Zvláštní důraz klade Perceptron na „Physical Reasoning“. Model například dokáže analyzovat basketbalovou scénu a určit, zda byl hod uskutečněn před nebo po vypršení času — a to na základě společného usuzování nad pozicí míče ve vzduchu a stavem časomíry. Umí také pixelově přesně ukazovat a počítat stovky objektů v hustých scénách nebo číst analogové měřiče a hodiny, které digitální systémy historicky zvládaly špatně.

Platforma pro vývojáře a otevřené modely Isaac

Kromě API spouští Perceptron rozšířenou vývojářskou platformu s Python SDK. Ta nabízí specializované funkce jako „Focus“ (automatické zvětšení a ořezání oblasti na základě textového promptu), „Counting“ (počítání objektů ve shlucích) a „In-Context Learning“ (přizpůsobení pomocí několika příkladů).

Společnost zároveň udržuje dvojí licenční strategii. Vlajkový Mk1 je uzavřený model přístupný přes API, určený pro enterprise nasazení. Vedle toho ale existuje série Isaac — open-weights alternativa. Model Isaac 0.2-2b-preview (2 miliardy parametrů) je k dispozici na Hugging Face a optimalizován pro sub-200ms latenci, což ho činí ideálním pro edge zařízení a reálný čas.

Praktické využití a český kontext

Perceptron už oznámil několik partnerských nasazení: automatické stříhání sportovních highlightů, teleoperace robotických ramen, multimodální kontrola kvality na výrobních linkách nebo asistenti pro chytré brýle.

Pro české uživatele a firmy je klíčové, že model je dostupný globálně přes veřejné demo a API — není tedy geograficky omezen. Vzhledem k tomu, že se jedná o videoanalýzu, by české firmy měly vzít v úvahu EU AI Act, který klade přísné požadavky na biometrickou identifikaci a sledování v reálném čase. Obyčejná analýza výrobních procesů, sportovních záznamů nebo obsahu pro sociální sítě však spadá do méně regulované kategorie.

Model zatím nepodporuje češtinu jako primární jazyk, ale protože komunikace probíhá přes API v angličtině, čeští vývojáři s ním mohou pracovat bez problémů. Otázkou zůstává, jak si povede s českými texty v obrazech — to bude muset ověřit praxe.

Kam Perceptron směřuje

Aghajanyan prohlásil, že tato vydání jsou vyvrcholením výzkumu, jehož cílem je učinit AI co nejlepší ve fyzickém světě. Vize je jasná: „physical AI“ by měla být stejně běžná jako digitální AI.

S cenovkou, která podkopává dosavadní tržní standardy, a benchmarky, jež ho řadí mezi absolutní špičku, by Perceptron Mk1 mohl být průlomem nejen pro velké technologické firmy, ale i pro české startupy a průmyslové podniky hledající dostupnou AI pro analýzu videa.

Může Perceptron Mk1 pracovat v reálném čase na běžném hardwaru?

Samotný Mk1 je cloudový model přístupný přes API, takže nároky na lokální hardware jsou minimální. Pro edge nasazení bez připojení k internetu je určen otevřený model Isaac 0.2-2b-preview, který je optimalizován pro sub-200ms odezvu na lokálních zařízeních.

Jak je to s ochranou osobních údajů při analýze videa pomocí Mk1?

Perceptron nabízí uzavřený enterprise model Mk1 přes API, ale detailní informace o zpracování dat včetně GDPR shody zatím nezveřejnil. Firmy by proto měly před nasazením ověřit, kde přesně probíhá zpracování dat a zda odpovídá požadavkům EU na ochranu osobních údajů.

Plánuje Perceptron podporu pro češtinu a další menší jazyky?

Společnost zatím oficiálně neoznámila roadmapu pro jazykovou lokalizaci. Vzhledem k zaměření na fyzickou AI a videoanalýzu je primární komunikační jazyk angličtina. Schopnost rozpoznávat text v obrazech v češtině bude záviset na tréninkových datech a teprve se ukáže v praxi.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.