NVIDIA dává přes sto AI modelů zdarma přes API: DeepSeek V4, MiniMax, GLM i Gemma na jednom místě

27. 4. 2026 jarvis

NVIDIA AI chips and neural network visualization

  NVIDIA tichou cestou spustila katalog s více než sto AI modely, ke kterým se dostanete zcela zdarma přes API. DeepSeek V4, MiniMax M2.7, GLM 5.1, Gemma 4, Qwen 3.5 i desítky dalších — všechny na jednom místě, bez kreditní karty a s OpenAI-kompatibilním rozhraním. Pro české vývojáře to znamená možnost testovat špičkové modely bez investic do infrastruktury.

Co je NVIDIA NIM a proč to není jen marketing

Platforma build.nvidia.com funguje od roku 2024 jako hostovaný katalog inferenčních mikroslužeb NVIDIA (NIM). Zatímco konkurence nabízí free tery omezené na jeden nebo dva modely, NVIDIA seskupila přes 100 modelů od desítek poskytovatelů pod jednu střechu — a většinu z nich lze volat bezplatně.

Mezi dostupnými modely najdete:

DeepSeek V4-Pro a V4-Flash — 1,6 bilionu resp. 284 miliard parametrů, milionový kontext, MIT licence
MiniMax M2.7 — 230miliardový MoE model pro kódování, dedukci a kancelářské úlohy
GLM 5.1 a GLM 4.7 — vlajkové modely čínské Zhipu AI pro agentní workflow
Google Gemma 4 31B — kompaktní dense model s výkonem na úrovni frontier modelů
Qwen 3.5 122B — multimodální MoE od Alibaba
Mistral Small 4 — 119miliardový hybridní MoE s 256K kontextem a multimodálním vstupem
NVIDIA Nemotron — rodina vlastních modelů včetně ASR, TTS, OCR a bezpečnostních filtrů
OpenAI GPT-OSS 20B/120B — otevřené modely od OpenAI

Katalog pokrývá nejen generování textu, ale také řeč (Nemotron ASR, Studio Voice), obrázky (FLUX.2), video, embeddingy, retrieval, bezpečnostní guardrails i biologické simulace. Pro vývojáře je to v podstatě univerzální testovací laboratoř.

Jak free API funguje v praxi

Registrace je jednoduchá: přihlášení do NVIDIA Developer Program, vygenerování API klíče začínajícího na nvapi- a volání endpointu https://integrate.api.nvidia.com/v1. Rozhraní je plně kompatibilní s OpenAI Chat Completions API — stačí změnit base_url a api_key.

Modely se volají ve formátu <provider>/<model>, například:

deepseek-ai/deepseek-v4-pro
minimaxai/minimax-m2.7
z-ai/glm-5.1
google/gemma-4-31b-it

To funguje nejen s oficiálním OpenAI SDK, ale i s LangChain, LlamaIndex a dalšími frameworky. Vývojář nemusí učit se nové API — mění se jeden řádek konfigurace.

Co znamená „free" — limity a realita

Zdarma neznamená bez omezení. NVIDIA nastavila fair-use limity, které jsou dostatečné pro prototypování, ale ne pro produkční provoz:

Rate limit: přibližně 40 požadavků za minutu na model
Kredity: 1 000 inferenčních kreditů při registraci, po žádosti až 5 000
Výpočetní náročnost: velké modely jako GLM 5.1 nebo Kimi K2.5 kredity spotřebovávají rychleji než lehké varianty

Čtyřicet požadavků za minutu stačí pro vývoj, testování agentů, experimenty s prompt engineeringem nebo porovnání modelů. Na provoz veřejného chatbota nebo agentního nástroje pro tým to už nestačí — v špičkách se navíc objevují 429 chyby.

Zajímavostí je, že některé modely jsou dostupné i ke stažení (například GLM 5.1, Gemma 4, Qwen 3.5), takže po vyčerpání kreditů můžete přejít na lokální inferenci.

Integrace s OpenCode, OpenClaw a dalšími nástroji

Právě OpenAI-kompatibilita dělá z NIM atraktivní backend pro řadu vývojářských nástrojů. OpenCode — open-source kódovací agent — umožňuje v konfiguračním souboru přidat NVIDIA NIM jako provider jediným blokem. Podobně OpenClaw funguje přes proxy jako LiteLLM, které NIM endpointy podporuje nativně.

I v populárních IDE to jde: Cursor umožňuje v nastavení modelů zadat vlastní OpenAI-compatible URL, Zed má konfigurovatelné providery pro asistenta. V praxi to znamená, že můžete mít autocompletion, chat i agentní exekuci řízené zdarma dostupnými modely na NVIDIA infrastruktuře.

Je třeba ale počítat s tím, že rate limit 40 req/min se pod tlakem IDE autocompletion velmi rychle vyčerpá. Reálnější je kombinace: autocompletion z jiného zdroje, agentní a chatové úlohy na NIM.

Proč to NVIDIA dělá — a co z toho máte vy

Free tier není charita. NVIDIA buduje sales funnel: vývojář prototypuje na free API, testuje v sandboxu na fyzických GPU (H200, B300), a nakonec přejde na placenou variantu NVIDIA AI Enterprise nebo self-hostované NIM kontejnery. Migrace je bezproblémová, protože kód zůstává stejný — mění se jen endpoint a klíč.

To ale neznamená, že free verze nemá hodnotu. Pro české vývojáře, studenty, startupy a malé týmy jde o jednu z nejsnadnějších cest, jak:

porovnat výkon různých modelů na stejných úlohách,
testovat agentní workflow bez měsíčních plateb za API,
experimentovat s multimodálními, hlasovými a specializovanými modely,
využít modely, které nejsou běžně dostupné v západních API (MiniMax, GLM, Qwen).

Velká část těchto modelů navíc pochází z čínských laboratoří, které často nenabízejí evropské datové residency. NVIDIA hostuje inferenci na své vlastní infrastruktuře, což pro evropské uživatele znamená předvídatelnější právní rámec než přímé volání čínských API.

Srovnání s alternativami

NVIDIA NIM není jediná free API brána. OpenRouter agreguje modely od stovek poskytovatelů, ale free modely se často mění a kvalita inferenčních uzlů je nerovnoměrná. Amazon Bedrock Mantle nabízí OpenAI-compatible API v rámci AWS, ale vyžaduje AWS účet a kredity. Sakura AI Engine v Japonsku má 3 000 free požadavků měsíčně, ale je omezená geograficky.

Výhoda NIM je v škále a stabilitě — jeden klíč, jeden formát, přes sto modelů, podpora přímo od NVIDIA. Pro rychlé experimenty a vývoj je to nejefektivnější vstupní bod na trhu.

Na co si dát pozor

Zaprvé: safety filtry běží na straně NVIDIA. To znamená, že chování modelu může být mírně odlišné od lokálního nasazení otevřených vah. Zadruhé: názvy modelů se mění — MiniMax M2.5 nahradil M2.7, Kimi prochází rychlými iteracemi. Doporučujeme parametrizovat název modelu přes proměnné prostředí. Zatřetí: free tier je skutečně jen pro vývoj. Produční nasazení vyžaduje přechod na placenou službu.

Je NVIDIA NIM free API dostupné z České republiky?

Ano, registrace na build.nvidia.com je globální a nevyžaduje americkou ani evropskou entitu. Stačí běžný e-mail a přihlášení do NVIDIA Developer Program. Inferenční uzly běží na infrastruktuře NVIDIA, nikoli přímo v Číně, což zjednodušuje compliance pro evropské uživatele.

Jaký je rozdíl mezi „Free Endpoint" a „Downloadable" modelem?

Free Endpoint znamená, že model běží na serverech NVIDIA a voláte ho přes API. Downloadable znamená, že si váhy můžete stáhnout a spustit lokálně — vhodné pro týmy, které potřebují plnou kontrolu nad daty nebo chtějí fine-tunovat. Některé modely, například GLM 5.1, jsou dostupné oběma způsoby.

Můžu free API použít v produkční aplikaci?

NVIDIA to oficiálně nedoporučuje. Rate limit 40 požadavků za minutu a kreditový strop znamenají, že při vyšší zátěži dojde k omezení nebo přerušení služby. Free tier je určen pro vývoj, testování a prototypování. Pro produkční provoz NVIDIA nabízí placenou variantu AI Enterprise nebo self-hostované NIM kontejnery.