Proč je kontextové okno novou brzdou AI
Jazykové modely jako GPT, Claude nebo Gemini dnes běžně nabízejí kontextová okna o velikosti stovek tisíc až milionů tokenů. To zní skvěle — můžete modelu nasypat celou knihu, několik desítek dokumentů nebo kompletní historii chatu. Jenže každý token v kontextu spotřebovává operační paměť a výpočetní výkon. Čím déle AI agent běží, tím víc tokenů se hromadí — z načtených dokumentů, z řetězců uvažování (reasoning traces) i z historie konverzace.
Podle průzkumu VB Pulse z prvního čtvrtletí 2026 se podíl firem plánujících hybridní retrieval (kombinaci vyhledávání a komprese) během dvou měsíců ztrojnásobil — z 10,3 % v lednu na 33,3 % v březnu. Optimalizace vyhledávání se stala prioritou číslo jedna pro 28,9 % dotázaných organizací. Problém je reálný a firmy ho začínají intenzivně řešit.
Co je LCLM a jak funguje
Dosavadní metody komprese kontextu — především takzvaná KV cache komprese — mají zásadní nevýhodu: nejprve musí načíst celý kontext do paměti a teprve potom ho mohou zmenšit. To znamená, že úspora paměti je jen částečná a samotný proces komprese zabere čas navíc.
LCLM (Latent Context Language Models) fungují jinak. Jsou postavené na architektuře kodér-dekodér, kde:
- Kodér (0,6 miliardy parametrů) zkomprimuje bloky vstupních tokenů do kratších sekvencí takzvaných latentních embeddingů
- Dekodér (4 miliardy parametrů) zpracovává tyto komprimované embeddingy místo původních tokenů
Klíčový rozdíl: komprese probíhá ještě předtím, než dekodér vůbec začne pracovat. Čím vyšší kompresní poměr, tím méně výpočtů a paměti dekodér spotřebuje. Na benchmarku RULER pro dlouhý kontext běžel LCLM při 16× kompresi 8,8× rychleji než srovnatelné KV cache metody.
Čísla, která stojí za pozornost
Výzkumníci trénovali modely na více než 350 miliardách tokenů ve třech variantách — s kompresním poměrem 1:4, 1:8 a 1:16. Výsledky na benchmarku RULER mluví jasně:
- Bez komprese: 94,41 % přesnosti
- 4× komprese: 91,76 % přesnosti — pokles o méně než 3 procentní body při zmenšení kontextu na čtvrtinu
- 16× komprese: 75,06 % přesnosti — odstraněno 93,75 % tokenů, model stále funguje
Pro srovnání: všechny testované KV cache metody dosáhly při stejném kompresním poměru horších výsledků. Na matematických úlohách GSM8K LCLM dokonce překonal všechna ostatní řešení bez ohledu na míru komprese.
„Tyto narůstající kontexty spotřebovávají paměť a výpočetní výkon a stávají se výpočetním úzkým hrdlem pro LLM," uvedl pro VentureBeat Micah Goldblum, spoluvedoucí výzkumu z Columbijské univerzity. „Naším cílem bylo natrénovat jazykové modely, které zvládnou velmi dlouhé kontexty efektivně a přesně."
Co to znamená pro firmy a vývojáře
Praktický dopad je obrovský. Při standardním KV cache přístupu se inference s milionem tokenů nevejde do paměti jediného GPU H200. LCLM při 16× kompresi zůstává v paměťových limitech i při takto dlouhém kontextu.
Goldblum popisuje využití názorně: „Kdykoli načtete dokumenty a chcete je nasypat do kontextu modelu, jednoduše je nejdřív prožeňte kompresorem LCLM." Model navíc podporuje selektivní dekompresi — AI agent může napřed „prolistovat" komprimovaný text a následně rozbalit jen ty pasáže, které skutečně potřebuje. Funguje to podobně jako když člověk nejdřív text projde očima a pak se začte do relevantních částí.
Pro české firmy a vývojáře to znamená potenciálně nižší náklady na API volání — menší počet tokenů na vstupu znamená nižší účet. A pro každého, kdo provozuje LLM lokálně (což je trend, který podporuje i Czech AI Factory v Ostravě), to znamená možnost zpracovávat delší dokumenty na stejném hardwaru.
Co LCLM zatím neumí
Výzkumníci jsou ke svým výsledkům upřímní. Goldblum přiznal, že komprese řetězců uvažování (reasoning traces) za běhu zatím není vyřešená. „Naivní přístup občasné komprese během generování by mohl fungovat, ale zatím to není ověřeno," uvedl.
To je důležité omezení zejména pro agentní AI systémy, které často spouštějí dlouhé řetězce uvažování. Pro ty bude LCLM užitečný hlavně při práci s externími dokumenty a daty — nikoliv pro zhušťování vlastních myšlenkových pochodů agenta.
Otevřený přístup a dostupnost
Modely LCLM jsou plně open-source a dostupné na HuggingFace pod organizací latent-context. K dispozici jsou tři varianty (4×, 8× a 16× komprese) a kompletní zdrojový kód na GitHubu. Výzkumný článek je dostupný na arXivu.
To znamená, že kdokoli — včetně českých startupů — může modely zdarma použít, integrovat do svých RAG pipeline a přizpůsobit vlastním potřebám. V době, kdy ceny API volání u komerčních modelů rostou (připomeňme nedávné zdražení GPT-5.5), je každá úspora tokenů vítaná.
Kontext: závod o delší paměť modelů
LCLM nepřichází do vakua. DeepSeek loni v prosinci představil vlastní kompresní model, který zmenšuje text 10× převodem do obrazové podoby. Google letos v březnu publikoval TurboQuant — algoritmy pro extrémní kvantizaci modelů. A startupy jako Multiverse Computing loni získaly 215 milionů dolarů na technologii komprimující LLM až o 95 %.
Trend je jasný: samotné zvětšování kontextových oken naráží na fyzikální a ekonomické limity. Budoucnost patří modelům, které s dostupnou pamětí a výkonem naloží chytřeji — a LCLM ukazuje, že akademický výzkum v této oblasti dokáže držet krok s komerčními giganty.
Funguje LCLM i s češtinou?
LCLM je jazykově nezávislý — komprimuje tokeny bez ohledu na jazyk. Protože byl trénován na 350 miliardách tokenů z různých zdrojů, čeština by v trénovacích datech měla být zastoupena. Přesnou kvalitu komprese pro české texty ale výzkumníci samostatně netestovali — doporučujeme ověřit na vlastních datech.
Mohu LCLM použít s ChatGPT nebo Claude?
LCLM je samostatný model, který komprimuje vstup předtím, než ho pošlete do jiného LLM. Můžete ho tedy použít jako „předfiltr" pro jakýkoli model — včetně komerčních API od OpenAI, Anthropicu nebo Googlu. Integrace ale vyžaduje technické znalosti a úpravu vaší RAG pipeline.
Jak velký je model LCLM a na čem poběží?
Kodér má 0,6 miliardy parametrů, dekodér 4 miliardy. Celý model je výrazně menší než běžné LLM — pro srovnání, GPT-4o má odhadem biliony parametrů. LCLM by měl běžet i na spotřebitelských GPU s dostatečnou VRAM (doporučujeme alespoň 16 GB), ale pro nasazení ve firmě výzkumníci testovali na serverových GPU jako H200.