Bonsai 8B: Celý AI model v 1,15 GB — funguje na iPhonu a nepotřebuje cloud

7. 4. 2026 jarvis

Celý jazykový model s 8 miliardami parametrů v souboru o velikosti 1,15 GB. Spouštíte ho na iPhonu, Raspberry Pi nebo starém notebooku — bez připojení k internetu, bez poplatků za cloud, bez nutnosti sdílet svá data s cizím serverem. To není sci-fi. To je Bonsai 8B, první komerčně životaschopný 1-bitový jazykový model od startupu PrismML, který se 31. března 2026 tiše vyloupl ze stealth režimu a otřásl komunitou vývojářů.

Co je to 1-bitový model a proč na tom záleží

Klasické jazykové modely jako Llama nebo Mistral ukládají každou svou váhu jako číslo s plovoucí desetinnou čárkou — typicky v 16- nebo 32-bitovém formátu. Bonsai jde radikálně jinou cestou: každá váha je reprezentována pouze svým znaménkem, tedy hodnotou −1 nebo +1. K tomu se přidává sdílený faktor měřítka pro každou skupinu vah. Nic víc.

Výsledek? Tam, kde standardní 8B model v 16bitovém formátu zabere přibližně 16 GB paměti, Bonsai 8B vystačí s pouhými 1,15 GB. Jde o zmenšení na čtrnáctinu původní velikosti. Zakladatel projektu Babak Hassibi, profesor elektrotechniky na Caltechu, strávil roky budováním matematické teorie, která tuto kompresi umožňuje bez destruktivní ztráty schopností modelu uvažovat.

Čísla, která nepůsobí jako marketingový trik

PrismML zveřejnilo konkrétní benchmarky, které lze ověřit. Bonsai 8B dosahuje průměrného skóre 70,5 bodu napříč standardními testy (MMLU Redux, MuSR, GSM8K a dalšími). Pro srovnání: Llama 3 8B dosahuje 67,1 bodu a ke svému běhu potřebuje čtrnáctkrát více paměti. Ministral 3B má skóre 71,0 — ale je to menší model trénovaný na jiném datasetu.

Metrika, která ukazuje skutečnou efektivitu, se jmenuje intelligence density — inteligence na gigabajt. Bonsai 8B dosahuje hodnoty 1,06/GB. Qwen3 8B, jeden z nejlepších open-source modelů současnosti, dosahuje pouhých 0,10/GB. Desetinásobný rozdíl.

Rychlost generování textu je přitom překvapivě vysoká:

M4 Pro Mac: 131 tokenů za sekundu
NVIDIA RTX 4090: 368 tokenů za sekundu
iPhone 17 Pro Max: 44 tokenů za sekundu

Pro srovnání: standardní Llama 3 v 16bitovém formátu generuje na M4 Pro Macu přibližně 17 tokenů za sekundu. Bonsai je osmkrát rychlejší. Energetická náročnost klesá na přibližně čtyř- až pětinásobek nižší spotřeby oproti 16bitovým modelům — na iPhonu jde o 0,068 mWh na token.

Pro koho to vlastně je

PrismML se netají tím, že jejich primární cíl je uvolnit AI z cloudu. Bonsai byl navržen pro scénáře, kde cloud prostě nefunguje nebo není žádoucí:

Průmyslová robotika — real-time rozhodování bez latence síťového spojení
Zdravotnictví — citlivá data zůstávají na zařízení, mimo dosah externích serverů
Firemní nasazení — AI asistent přímo v interní síti, žádný přenos firemních dat ven
Vývojáři a nadšenci — lokální experimentování na Macu, Raspberry Pi nebo starém GPU

Modely jsou dostupné ve třech velikostech: 1,7B, 4B a 8B parametrů. Všechny běží nativně přes MLX na Apple zařízeních (Mac, iPhone, iPad) a přes llama.cpp na NVIDIA GPU. Celá rodina je zveřejněna pod licencí Apache 2.0 — tedy komerčně volně použitelná, zdarma.

Proč je to důležité pro Evropu a Česko

Přesun AI na lokální zařízení má v evropském kontextu konkrétní regulatorní rozměr. GDPR a chystané prováděcí předpisy k EU AI Actu kladou stále přísnější požadavky na to, kde a jak se zpracovávají osobní data. Cloudové jazykové modely jsou z tohoto pohledu problematické — nikdy nevíte přesně, kudy vaše data prošla a kde byla zpracována.

Modely jako Bonsai tento problém odstraňují na kořeni: data nikam neodcházejí, protože model běží přímo na vašem zařízení. Pro české firmy ve zdravotnictví, právu nebo finančním sektoru, kde je ochrana dat klíčová, jde o argument, který dosud u open-source modelů prakticky chyběl — buď byl model příliš velký pro nasazení na vlastním hardwaru, nebo příliš slabý na skutečné použití.

Čeština zatím není primárně podporovaným jazykem — Bonsai je trénována především na angličtině. PrismML neuvedl konkrétní informace o podpoře dalších jazyků. Pro české nasazení by bylo nutné model dotrénovat nebo využít anglické rozhraní. Situaci nicméně sledují komunity vývojářů a je pravděpodobné, že finetuning na češtinu se objeví na HuggingFace v horizontu týdnů.

Zbývá jedna otázka: co ztratíte?

Komprese vždy přináší kompromisy. Bonsai 8B v kreativních úkolech a komplexním uvažování zaostává za plnohodnotnými modely jako GPT-4o nebo Claude 3.7 Sonnet — a to výrazně. Testy z HPCwire ukazují, že model je nejsilnější v klasifikačních úlohách, čtení dokumentů a jednoduchém generování kódu. Na složité vícekolové uvažování nebo psaní dlouhých koherentních textů 1-bitová architektura dosud nestačí.

PrismML otevřeně říká, že Bonsai 8B není náhradou za GPT-5 nebo Gemini Ultra. Je to specializovaný nástroj pro konkrétní scénáře, kde záleží na latenci, soukromí a spotřebě energie — a v těchto scénářích nemá v kategorii open-source modelů momentálně konkurenci.

Zda se 1-bitová architektura prosadí jako nový standard, nebo zůstane výklenkovým řešením, ukáže praxe. Každopádně 1. dubna 2026 nebyla sranda — Bonsai je reálná věc, kterou si můžete stáhnout a spustit ještě dnes.

Kde si mohu Bonsai 8B stáhnout a vyzkoušet?

Modely jsou volně dostupné na HuggingFace pod licencí Apache 2.0 (prism-ml/Bonsai-8B-gguf a prism-ml/Bonsai-8B-mlx-1bit). Na Apple zařízeních (Mac, iPhone, iPad) fungují přes framework MLX, na Windows a Linuxu s NVIDIA GPU přes llama.cpp. Ukázkový kód a instrukce najdete také na GitHubu projektu PrismML-Eng/Bonsai-demo.

Funguje Bonsai 8B v češtině?

Model je primárně trénován na anglickém textu a čeština není oficiálně podporovaným jazykem. Základní porozumění češtině model vykazuje (je trénován na vícejazyčných datech), ale pro spolehlivé české výstupy bude potřeba komunitní finetuning, který v horizontu týdnů pravděpodobně vznikne na HuggingFace.

Je 1-bitový model bezpečný pro zpracování citlivých firemních dat?

Ano, a to je jedna z jeho hlavních výhod. Protože model běží výhradně lokálně na vašem zařízení, žádná data neopouštějí vaši infrastrukturu. Pro sektory jako zdravotnictví, právo nebo finance, kde platí přísná pravidla GDPR a ochrany dat, je to klíčový argument. Model nevyžaduje internetové připojení a neposílá žádné dotazy na externí servery.