MiniMax M3: Čínský open-weight model poráží GPT-5.5 i Gemini 3.1 Pro. Za 5 % ceny

1. 6. 2026 Daniel Česák

  Čínské AI laboratoře dál útočí na dominanci západních gigantů. Startup MiniMax dnes vypustil model M3 — první open-weight systém, který v jednom balíku kombinuje milion tokenů kontextu, nativní multimodalitu a schopnosti autonomního agenta. A na klíčových benchmarcích přitom překonává GPT-5.5 i Gemini 3.1 Pro — za 5–10 % jejich ceny.

Co je MiniMax M3 a proč by vás měl zajímat

Čínský startup MiniMax, který dosud stál spíše ve stínu DeepSeeku nebo Alibaby, dnes oficiálně spustil svůj dosud nejambicióznější jazykový model. Jmenuje se MiniMax M3 a jde o první model na světě s otevřenými vahami, který současně nabízí tři schopnosti, jež byly dosud výsadou uzavřených komerčních systémů: milion tokenů kontextového okna, nativní multimodalitu (text, obrázky i video) a výkon na úrovni špičkových modelů v kódování a agentních úlohách.

Na rozdíl od GPT-5.5 od OpenAI nebo Claude Opus od Anthropicu, které fungují výhradně jako uzavřená API, MiniMax slibuje do 10 dnů zveřejnit kompletní váhy modelu na HuggingFace a GitHubu. Pro firmy, které potřebují AI provozovat na vlastní infrastruktuře — ať už z důvodu bezpečnosti dat, nebo kvůli nezávislosti na externím dodavateli — jde o zásadní zprávu.

Benchmarky: Kde M3 poráží giganty (a kde ne)

Čísla z oficiálních testů i nezávislých měření mluví jasně. Na SWE-Bench Pro, který měří schopnost modelu samostatně řešit reálné softwarové úkoly, dosáhl M3 skóre 59,0 %. To je víc než GPT-5.5 (54,8 % podle oficiálních měření) i Gemini 3.1 Pro (47,1 %). Stále však zaostává za aktuální špičkou — Claude Opus 4.8 od Anthropicu, vydaný minulý týden, dosahuje 69,2 %.

V Terminal-Bench 2.1, který hodnotí práci modelu v příkazové řádce, je M3 se skóre 66,0 % prakticky na úrovni předchozí generace Opus 4.7 (66,1 %), ale za Opus 4.8 (74,6 %) opět zaostává. V BrowseComp — testu autonomního vyhledávání a zpracování informací na webu — však M3 zaznamenal 83,5 %, čímž překonal Claude Opus 4.7 (79,3 %).

Zajímavé je srovnání s DeepSeek-V4 Pro Max, dalším čínským open-weight modelem. M3 ho na SWE-Bench Pro těsně poráží (59,0 % vs 55,4 %), na Terminal-Bench mírně ztrácí (66,0 % vs 67,9 %) a v BrowseComp dosahují prakticky remízy (83,5 % vs 83,4 %).

V multimodálních testech M3 exceluje: na OmniDocBench překonává Gemini 3.1 Pro a v SVG-Bench (generování vektorové grafiky) poráží i Claude Opus 4.7. V Claw-Eval, komplexním testu autonomních agentů, dosáhl vůbec nejvyššího skóre mezi všemi testovanými modely.

MSA: Jak MiniMax zkrotil kvadratickou složitost

Klíčem k efektivitě M3 je nová architektura pozornosti nazvaná MSA (MiniMax Sparse Attention). Klasický Transformer mechanismus trpí tím, že jeho výpočetní náročnost roste kvadraticky s délkou vstupu — zdvojnásobíte kontext a výpočet se zečtyřnásobí. To je důvod, proč jsou modely s dlouhým kontextem tak drahé.

MSA tento problém řeší elegantně. Místo aby model při každém kroku „četl celou knihovnu znovu", jak to dělá klasická plná pozornost, funguje MSA jako inteligentní indexační systém. Předem rozdělí datové bloky a při dotazu se podívá jen do těch relevantních. Každý blok se přitom čte právě jednou a přístup do paměti je souvislý — což znamená mnohem lepší využití hardwaru.

Výsledek? Při kontextu o délce 1 milionu tokenů je výpočetní náročnost na jeden token pouhou 1/20 oproti předchozí generaci modelu MiniMax. To se promítá do 9× zrychlení ve fázi prefillingu a 15× zrychlení při dekódování. V interních testech běžela MSA více než 4× rychleji než alternativní open-source řešení jako Flash-Sparse-Attention.

Cena: 5–10 % toho, co účtují OpenAI a Anthropic

Asi nejpřesvědčivějším argumentem je ale cenovka. V zaváděcí akci (první týden po spuštění) stojí M3 přes API 0,30 USD za milion vstupních tokenů a 1,20 USD za milion výstupních tokenů. I po skončení akce zůstane cena na 0,60/2,40 USD za milion tokenů. Pro srovnání:

GPT-5.5 (OpenAI): 5,00/30,00 USD — tedy 12–25× dráž
Claude Opus 4.8 (Anthropic): 5,00/25,00 USD — 10–21× dráž
Gemini 3.1 Pro (Google): 2,00/12,00 USD — 5–7× dráž

MiniMax navíc spouští předplatné Token Plan ve třech úrovních: Plus za 20 USD/měsíc (přibližně 460 Kč), Max za 50 USD/měsíc (1 150 Kč) a Ultra za 120 USD/měsíc (2 760 Kč). V přepočtu na tokeny jde o jednu z nejvyšších kvót na trhu — Plus nabízí zhruba 1,7 miliardy tokenů měsíčně. Všechny ceny jsou uvedeny bez DPH a platí se v dolarech; pro české vývojáře je k dispozici standardní platební brána.

MiniMax Code: Agent, který programuje sám

Spolu s modelem MiniMax spouští i vlastní kódovací prostředí MiniMax Code — desktopovou a webovou aplikaci, která z M3 dělá autonomního programátorského asistenta. Jeho hlavní zbraní je Agent Team: systém, který rozbíjí velké úkoly na paralelní workflow a nasazuje na ně více agentů současně.

Zajímavý je mechanismus Producer + Verifier. Jeden agent generuje kód, druhý ho v reálném čase testuje a vrací zpětnou vazbu. Díky tomu může systém běžet autonomně i několik dní bez lidského zásahu a průběžně opravovat vlastní chyby. MiniMax Code navíc díky nativní multimodalitě podporuje computer use — můžete mu například přes mobil říct: „Otevři lokální ERP a nahraj faktury z téhle Excel tabulky" a agent to provede.

Pro vývojáře, kteří dávají přednost vlastním nástrojům, je M3 kompatibilní s Claude Code, Cursor, Roo Code i Cline přes API klíč (prefix sk-cp). Podporuje také přepínatelný „thinking mode" pro složité úlohy, nebo rychlý režim pro běžné doplňování kódu.

12 hodin autonomní vědy a další výkony

Jedním z nejpůsobivějších testů, které MiniMax zveřejnil, byla samostatná reprodukce vědeckého článku. M3 dostal za úkol zreprodukovat práci Learning Dynamics of LLM Finetuning, která získala ocenění Outstanding Paper na konferenci ICLR 2025. Během téměř 12 hodin autonomní práce model vytvořil 18 commitů, vygeneroval 23 experimentálních grafů a úspěšně zreplikoval klíčové výsledky — včetně takzvaného „squeezing efektu" v DPO experimentech.

V ještě náročnějším testu M3 během 24 hodin optimalizoval CUDA kernel pro FP8 násobení matic na GPU architektury NVIDIA Hopper. Po 147 pokusech a téměř 2 000 voláních nástrojů zvýšil hardwarovou efektivitu z 7,6 % na 71,3 % — tedy 9,4násobné zrychlení. Co je na tom pozoruhodné: většina ostatních modelů (kromě Opus 4.7) to vzdala po prvních 30 pokusech. M3 vytrvale hledal nové cesty i poté, co narazil na výkonnostní strop.

Co to znamená pro Česko a Evropu

Pro české firmy a vývojáře je klíčová především možnost provozovat model na vlastní infrastruktuře. Řada evropských společností — od bank po zdravotnická zařízení — podléhá přísným regulacím ohledně nakládání s daty. Open-weight model znamená, že citlivá data nemusí nikdy opustit firemní servery.

Model je dostupný přes veřejné API a podporuje širokou škálu jazyků včetně češtiny — byť oficiální podpora češtiny není explicitně deklarována, modely trénované na korpusu přes 100 bilionů tokenů typicky pokrývají desítky jazyků včetně slovanských. MiniMax Code je ke stažení pro Windows, macOS i Linux.

Z hlediska EU AI Actu je důležité, že otevřené modely spadají do mírnější regulační kategorie — jejich nasazení v evropských firmách je administrativně jednodušší než u uzavřených komerčních API, která vyžadují důkladnější due diligence.

Otevřené váhy: Proč na tom záleží

Rozhodnutí zveřejnit váhy modelu je strategický tah, který MiniMax odlišuje od OpenAI, Anthropicu i Google. Pro enterprise zákazníky to znamená tři zásadní výhody:

Datová suverenita — model běží lokálně, žádná data neopouštějí firemní síť
Plná přizpůsobitelnost — firmy mohou model dolaďovat na vlastních datech a upravovat jeho architekturu
Fixace nákladů — odpadá nejistota plynoucí z proměnlivých API poplatků; provozní náklady jsou dány jen spotřebou elektřiny a hardwaru

Otázkou zůstává, pod jakou konkrétní licencí budou váhy uvolněny — zda půjde o permisivní MIT/Apache 2.0, nebo restriktivnější model. To bude mít zásadní dopad na možnosti komerčního využití. MiniMax zatím slibuje zveřejnění technické dokumentace i vah „během následujících 10 dní".

MiniMax M3 v kontextu AI závodu

Vydání M3 přichází v době, kdy čínské AI laboratoře systematicky snižují cenovou bariéru vstupu do světa špičkových jazykových modelů. DeepSeek nastavil trend modelem V4, Xiaomi překvapilo agresivní cenou MiMo, Alibaba kontruje Qwenem. MiniMax M3 do této mozaiky přidává unikátní kombinaci: frontier výkon s otevřenými vahami za zlomek ceny.

Pro vývojáře to znamená jediné: éra, kdy jste za přístup ke špičkové AI museli platit tučné měsíční účty, pomalu končí. M3 sice není absolutním vítězem benchmarků — Claude Opus 4.8 od Anthropicu zůstává v čistě kódovacích a agentních úlohách o krok napřed — ale poměr cena/výkon je natolik přesvědčivý, že pro většinu firemních nasazení bude právě tohle rozhodující parametr.

První reakce vývojářské komunity jsou jednoznačně pozitivní. Tvůrci nástroje Cline potvrdili kompatibilitu hned první den a vyzdvihli především architekturu MSA, která „seká výpočetní náklady na 1/20 předchozí generace". Nezávislí testeři na síti X oceňují hlavně schopnost modelu pracovat samostatně po mnoho hodin bez degradace výkonu.

Je MiniMax M3 dostupný zdarma?

Ano i ne. API je placené — od 0,30 USD za milion vstupních tokenů v zaváděcí akci. Předplatné MiniMax Code začíná na 20 USD měsíčně. Do 10 dnů však MiniMax plánuje zveřejnit otevřené váhy modelu, což znamená, že si ho budete moci zdarma stáhnout a provozovat na vlastním hardwaru — platíte jen za elektřinu a výpočetní výkon.

Podporuje MiniMax M3 češtinu?

MiniMax oficiálně nedeklaruje explicitní podporu češtiny, ale M3 byl trénován na korpusu přes 100 bilionů tokenů zahrnujícím desítky jazyků. Praktické zkušenosti s podobně trénovanými modely ukazují, že čeština by měla být funkční — byť ne na úrovni specializovaných vícejazyčných modelů. Přesné jazykové schopnosti v češtině se ukážou až po uvolnění vah a otestování komunitou.

Jaký hardware potřebuji pro lokální provoz M3?

MiniMax zatím nezveřejnil přesné hardwarové požadavky. Vzhledem k tomu, že jde o model s milionovým kontextovým oknem a efektivní sparse-attention architekturou, bude potřeba výkonný GPU server — odhadem minimálně 4× NVIDIA A100 (80 GB) nebo ekvivalent pro plný výkon. Pro základní inferenci by mohla stačit i jedna high-end GPU, přesné požadavky budou známy spolu s technickou dokumentací.