ChatGPT u vás doma, bez cloudu a bez registrace
Velké jazykové modely (LLM) prošly za poslední roky dramatickým vývojem. Zatímco původní ChatGPT z konce roku 2022 vyžadoval servery OpenAI a připojení k internetu, dnes existují open-source modely, které na běžném hardwaru dosahují podobné nebo lepší kvality odpovědí. A to zcela offline — bez odesílání dat do cloudu, bez měsíčních předplatného a bez rizika, že váš oblíbený nástroj zítra změní podmínky nebo přestane fungovat.
Pro české uživatele má lokální provoz zásadní výhodu z hlediska GDPR a ochrany osobních údajů. Veškerá konverzace zůstává na vašem zařízení, což ocení nejen jednotlivci, ale i firmy a instituce pracující se citlivými daty. Žádné předávání informací americkým cloudovým providerům, žádné nejistoty ohledně toho, kdo má k datům přístup.
JednoEXE a jeden soubor — začít je jednodušší, než si myslíte
Základním stavebním kamenem pro spuštění lokálního modelu je software. Nejpřímočařejší cestou je projekt llama.cpp, který na rozdíl od většiny AI ekosystému nevyžaduje Python ani složitou instalaci závislostí. Na Windows stačí jediný spustitelný soubor o velikosti přibližně 5 MB — žádné runtime knihovny, žádné virtuální prostředí.
Princip je překvapivě elegantní: spustíte HTTP server llama-server (standardně na portu 8080), načtete model ve formátu GGUF a otevřete prohlížeč na adrese localhost:8080. K dispozici je okamžitě chatové rozhraní i API kompatibilní s OpenAI, takže můžete připojit vlastní aplikace nebo rozšíření do textových editorů. Autor původního článku, vývojář Chris Wellons, upozorňuje na jednu zásadní věc: díky paměťovému mapování (memory map) a absenci externích závislostí byste tento model mohli teoreticky spouštět ještě za 25 let na budoucích verzích Windows — pouze se dvěma soubory.
Proč GPU není vždy nutnost — a kdy ano
Nejčastější omyl mezi začátečníky? Přesvědčení, že bez drahé grafické karty se lokální AI neobejde. Pravda je komplexnější. Rozlišujme dva způsoby inference, tedy generování textu:
- Inference na CPU — využívá operační paměť RAM a procesor. Je pomalejší, ale zcela dostačující pro modely do přibližně 10 miliard parametrů na běžném stolním počítači nebo notebooku.
- Inference na GPU — vyžaduje grafickou kartu s dostatečnou videopamětí (VRAM). Rozhodující není výpočetní výkon, ale velikost dostupné VRAM.
Autor přímo doporučuje: GPU inference se nevyplatí pod hranicí 8 GB VRAM. Pokud máte slabší grafiku nebo integrované řešení, lépe uděláte, když zůstanete u CPU. Naopak majitelé karet s 24 GB VRAM a více mohou pohodlně spouštět mnohem větší modely — například Llama 3.1 70B, která se vejde do 24–32 GB při 4bitové kvantizaci.
V praxi to znamená, že prozkoumat svět lokálních LLM můžete i na starším hardwaru. Wellons sám demonstrativně přenesll llama.cpp na Windows XP a spustil 360milionový model na notebooku z roku 2008 s 1 GB RAM. Technologie, která by v době vzniku toho stroje byla k nezaplacení, dnes běží na odpadním hardwaru.
Kde vzít modely a co znamená GGUF
Centrálním repozitářem pro open-source modely je služba Hugging Face — bývá označována jako „GitHub jazykových modelů“. Hostuje modely od několika megabajtů po stovky gigabajtů a většinu z nich lze stahovat bez registrace.
Pro llama.cpp potřebujete modely ve formátu GGUF. Ten umožňuje tzv. kvantizaci — redukci přesnosti váh modelu z původních 16 bitů na 4 bity s minimální ztrátou kvality. Doporučená volba pro začátečníky je Q4_K_M, tedy 4bitová kvantizace. Obecně platí pravidlo: lepší je spustit 4bitovou verzi většího modelu než 8bitovou verzi modelu menšího.
Mezi nejzajímavější modely dostupné v GGUF formátu patří:
- Mistral-Nemo-12B — nejuniverzálnější model v kategorii ~10 miliard parametrů, silný v psaní i kontrole kódu, dostupný pod licencí Apache 2.0.
- Qwen2.5-14B — model od čínského Alibaba Cloud, který výkonnostně překonává konkurenci ve své třídě.
- Gemma-2-2B/9B — Google model vhodný zejména pro rychlý překlad textů.
- Phi-3.5-Mini (4B) — kompaktní model od Microsoftu, který zvládá zpracovávat dokumenty o délce až 40 000 tokenů.
- DeepSeek-Coder-V2-Lite (16B) — specialista na generování kódu, využívá architekturu Mixture of Experts (MoE).
Pro české uživatele je důležité, že většina těchto modelů podporuje český jazyk alespoň na úrovni základní komunikace, i když kvalita češtiny se liší. Modely jako Qwen nebo Mistral vykazují v českých benchmarkách solidní výsledky, byť stále zaostávají za specializovanými komerčními řešeními.
Velikost kontextu a flash attention: detaily, které mění zážitek
Kromě velikosti modelu je klíčovým parametrem kontextové okno — maximální počet tokenů, které model zpracuje najednou (vstup i výstup dohromady). Běžné hodnoty se pohybují od 8 tisíc do 128 tisíc tokenů. Přibližně 1,6 tokenu odpovídá jednomu slovu v angličtině, v češtině je poměr podobný.
Velké kontextové okno umožňuje například vložit celý článek nebo kapitolu knihy a ptát se na ní. Na druhou stranu větší kontext znamená vyšší spotřebu paměti. Parametr --flash-attn (flash attention) by měl být vždy aktivní — sníží nároky na paměť a umožní plynulejší generování při delších vstupech.
Co od lokální AI očekávat — a co ne
Lokální modely jsou fascinující technologií, ale je třeba mít realistická očekávání. Podle zkušeností autora původního článku jsou LLM skvělé v těchto oblastech:
- Korektura a stylistická úprava textů — dodáte dokument, model navrhne gramatické úpravy a upozorní na pasivní konstrukce.
- Překlad — model Gemma 2 2B dokáže konkurovat Google Translate a funguje offline.
- Tvorba krátké fikce a brainstormingu — halucinace, které jsou vědecky nežádoucí, se stávají kreativní výhodou.
- Zábava a vzdělávání — konverzace s historickými postavami nebo generování scénářů.
Naopak programování je slabší stránkou. Wellons upozorňuje, že generovaný kód odpovídá úrovni čerstvého absolventa, který četl spoustu dokumentace, ale nemá praktické zkušenosti. Při generování delších úseků kódu roste pravděpodobnost chyb exponenciálně — řídí se přibližně inverzním kvadratickým zákonem v závislosti na délce. Malé kontextové okno navíc omezuje práci s rozsáhlejšími projekty na 2–3 tisíce řádků kódu.
Největší omezení zůstává halucinace — model si může vymýšlet fakta, citace nebo dokonce celé věty. To je důvod, proč by jeho výstupy neměly být používány tam, kde není možné snadno ověřit správnost.
Cena a dostupnost: český a evropský kontext
Začít s lokálními LLM je finančně nenáročné. Samotný software je open-source a zdarma, modely na Hugging Face lze stahovat bezplatně a pro nekomerční použití často i bez registrace. Jedinou reálnou investicí je hardware — a jak ukazují výše zmíněné příklady, i deset let starý notebook nebo Raspberry Pi dokáže zajímavé věci.
Pro evropské uživatele má lokální provoz AI dodatečnou hodnotu v podobě nezávislosti na amerických a čínských cloudových službách. V kontextu připravovaných evropských regulací a tlaku na digitální suverenitu představuje lokální AI alternativu, která nepodléhá změnám ceníků ani geopolitickým tlakům. České firmy pracující s citlivými daty — například v právním, zdravotním nebo finančním sektoru — tak získávají nástroj, který může fungovat plně v režimu on-premise.
Pokud jde o dostupnost v češtině, většina zmíněných modelů komunikuje v angličtině, ale češtinu alespoň pasivně zvládají. Pro české uživatele je vhodné zadávat dotazy v angličtině pro nejlepší výsledky, případně využít modely specificky trénované na vícejazyčných datech, jako je právě Qwen nebo Mistral.
Závěr: Technologie, která dospěla do obývacích pokojů
Lokální provoz velkých jazykových modelů není už jen hračkou pro nadšence. Stal se praktickým nástrojem pro každodenní úkoly — od korektur přes překlady po soukromé konverzace bez sledování. A co je možná nejpřekvapivější: nejde přitom o závod ve výkonu GPU, ale o chytré využití dostupných zdrojů. Místo investice desítek tisíc korun do grafické karty často stačí naučit se pracovat s kvantizací, správně nastavit kontextové okno a vybrat model odpovídající vašemu hardwaru.
Svět AI se mění každý týden — informace starší rok jsou často už zastaralé. Ale princip zůstává: pokud chcete mít nad umělou inteligencí skutečnou kontrolu, klíč neleží v cloudu, ale přímo na vašem disku.
Může lokální AI model nahradit ChatGPT pro běžné použití?
Pro jednoduché konverzace, překlady a korektury ano — modely jako Mistral-Nemo-12B nebo Qwen2.5-14B poskytují kvalitu srovnatelnou s komerčními řešeními z roku 2023. Pro nejnovější znalosti, multimodální vstupy (obrázky, zvuk) nebo složité úlohy však stále platí, že cloudové modely vedou. Lokální AI je ideální pro úkoly, kde záleží na soukromí a offline dostupnosti.
Jaký je rozdíl mezi 4bitovou a 8bitovou kvantizací modelu?
Kvantizace redukuje přesnost čísel reprezentujících parametry neuronové sítě. 4bitová verze (Q4_K_M) zabírá přibližně polovinu paměti oproti 8bitové a její výstupy jsou v praxi téměř stejně kvalitní. Obecně platí pravidlo: lepší je 4bitová verze většího modelu než 8bitová verze menšího modelu. Například Llama 3.1 8B v Q4_K_M má zhruba 4,5–5 GB a běží plynule i na běžných noteboocích.
Je provoz lokálního LLM legální v EU z hlediska AI Act?
Ano. AI Act reguluje primárně poskytovatele AI systémů uváděných na trh a jejich nasazení v kritických oblastech (zdravotnictví, justice, školství). Použití open-source modelu na vlastním zařízení pro osobní nebo interní firemní účely spadá do kategorie s minimálními požadavky. Pokud ale výsledky lokálního modelu používáte pro rozhodování o jednotlivcích nebo veřejné služby, doporučuje se provést řádné hodnocení rizik podle nařízení EU.