Vědci dokázali zmenšit kontext AI 16× bez velké ztráty přesnosti. Otevírá se cesta k levnějším modelům

16. 6. 2026 Daniel Česák

Když dnes necháte ChatGPT, Claude nebo Gemini zpracovat dlouhý dokument, platíte za každý token, který model „vidí". Čím delší kontext, tím vyšší účet — a tím větší zátěž na hardware. Výzkumný tým z Princetonu, Columbijské univerzity, Harvardu, University of Maryland, NYU a Lawrence Livermore National Laboratory teď přichází s řešením, které zmenší kontext až 16krát při zachování překvapivě vysoké přesnosti. Jejich otevřený model LCLM (Latent Context Language Model) komprimuje vstupní data ještě předtím, než je začne zpracovávat hlavní jazykový model. Výsledek? Až 8,8× rychlejší inference a dramaticky nižší náklady na provoz.

Proč je kontextové okno novou brzdou AI

Jazykové modely jako GPT, Claude nebo Gemini dnes běžně nabízejí kontextová okna o velikosti stovek tisíc až milionů tokenů. To zní skvěle — můžete modelu nasypat celou knihu, několik desítek dokumentů nebo kompletní historii chatu. Jenže každý token v kontextu spotřebovává operační paměť a výpočetní výkon. Čím déle AI agent běží, tím víc tokenů se hromadí — z načtených dokumentů, z řetězců uvažování (reasoning traces) i z historie konverzace.

Podle průzkumu VB Pulse z prvního čtvrtletí 2026 se podíl firem plánujících hybridní retrieval (kombinaci vyhledávání a komprese) během dvou měsíců ztrojnásobil — z 10,3 % v lednu na 33,3 % v březnu. Optimalizace vyhledávání se stala prioritou číslo jedna pro 28,9 % dotázaných organizací. Problém je reálný a firmy ho začínají intenzivně řešit.

Co je LCLM a jak funguje

Dosavadní metody komprese kontextu — především takzvaná KV cache komprese — mají zásadní nevýhodu: nejprve musí načíst celý kontext do paměti a teprve potom ho mohou zmenšit. To znamená, že úspora paměti je jen částečná a samotný proces komprese zabere čas navíc.

LCLM (Latent Context Language Models) fungují jinak. Jsou postavené na architektuře kodér-dekodér, kde:

Kodér (0,6 miliardy parametrů) zkomprimuje bloky vstupních tokenů do kratších sekvencí takzvaných latentních embeddingů
Dekodér (4 miliardy parametrů) zpracovává tyto komprimované embeddingy místo původních tokenů

Klíčový rozdíl: komprese probíhá ještě předtím, než dekodér vůbec začne pracovat. Čím vyšší kompresní poměr, tím méně výpočtů a paměti dekodér spotřebuje. Na benchmarku RULER pro dlouhý kontext běžel LCLM při 16× kompresi 8,8× rychleji než srovnatelné KV cache metody.

Čísla, která stojí za pozornost

Výzkumníci trénovali modely na více než 350 miliardách tokenů ve třech variantách — s kompresním poměrem 1:4, 1:8 a 1:16. Výsledky na benchmarku RULER mluví jasně:

Bez komprese: 94,41 % přesnosti
4× komprese: 91,76 % přesnosti — pokles o méně než 3 procentní body při zmenšení kontextu na čtvrtinu
16× komprese: 75,06 % přesnosti — odstraněno 93,75 % tokenů, model stále funguje

Pro srovnání: všechny testované KV cache metody dosáhly při stejném kompresním poměru horších výsledků. Na matematických úlohách GSM8K LCLM dokonce překonal všechna ostatní řešení bez ohledu na míru komprese.

„Tyto narůstající kontexty spotřebovávají paměť a výpočetní výkon a stávají se výpočetním úzkým hrdlem pro LLM," uvedl pro VentureBeat Micah Goldblum, spoluvedoucí výzkumu z Columbijské univerzity. „Naším cílem bylo natrénovat jazykové modely, které zvládnou velmi dlouhé kontexty efektivně a přesně."

Co to znamená pro firmy a vývojáře

Praktický dopad je obrovský. Při standardním KV cache přístupu se inference s milionem tokenů nevejde do paměti jediného GPU H200. LCLM při 16× kompresi zůstává v paměťových limitech i při takto dlouhém kontextu.

Goldblum popisuje využití názorně: „Kdykoli načtete dokumenty a chcete je nasypat do kontextu modelu, jednoduše je nejdřív prožeňte kompresorem LCLM." Model navíc podporuje selektivní dekompresi — AI agent může napřed „prolistovat" komprimovaný text a následně rozbalit jen ty pasáže, které skutečně potřebuje. Funguje to podobně jako když člověk nejdřív text projde očima a pak se začte do relevantních částí.

Pro české firmy a vývojáře to znamená potenciálně nižší náklady na API volání — menší počet tokenů na vstupu znamená nižší účet. A pro každého, kdo provozuje LLM lokálně (což je trend, který podporuje i Czech AI Factory v Ostravě), to znamená možnost zpracovávat delší dokumenty na stejném hardwaru.

Co LCLM zatím neumí

Výzkumníci jsou ke svým výsledkům upřímní. Goldblum přiznal, že komprese řetězců uvažování (reasoning traces) za běhu zatím není vyřešená. „Naivní přístup občasné komprese během generování by mohl fungovat, ale zatím to není ověřeno," uvedl.

To je důležité omezení zejména pro agentní AI systémy, které často spouštějí dlouhé řetězce uvažování. Pro ty bude LCLM užitečný hlavně při práci s externími dokumenty a daty — nikoliv pro zhušťování vlastních myšlenkových pochodů agenta.

Otevřený přístup a dostupnost

Modely LCLM jsou plně open-source a dostupné na HuggingFace pod organizací latent-context. K dispozici jsou tři varianty (4×, 8× a 16× komprese) a kompletní zdrojový kód na GitHubu. Výzkumný článek je dostupný na arXivu.

To znamená, že kdokoli — včetně českých startupů — může modely zdarma použít, integrovat do svých RAG pipeline a přizpůsobit vlastním potřebám. V době, kdy ceny API volání u komerčních modelů rostou (připomeňme nedávné zdražení GPT-5.5), je každá úspora tokenů vítaná.

Kontext: závod o delší paměť modelů

LCLM nepřichází do vakua. DeepSeek loni v prosinci představil vlastní kompresní model, který zmenšuje text 10× převodem do obrazové podoby. Google letos v březnu publikoval TurboQuant — algoritmy pro extrémní kvantizaci modelů. A startupy jako Multiverse Computing loni získaly 215 milionů dolarů na technologii komprimující LLM až o 95 %.

Trend je jasný: samotné zvětšování kontextových oken naráží na fyzikální a ekonomické limity. Budoucnost patří modelům, které s dostupnou pamětí a výkonem naloží chytřeji — a LCLM ukazuje, že akademický výzkum v této oblasti dokáže držet krok s komerčními giganty.

Funguje LCLM i s češtinou?

LCLM je jazykově nezávislý — komprimuje tokeny bez ohledu na jazyk. Protože byl trénován na 350 miliardách tokenů z různých zdrojů, čeština by v trénovacích datech měla být zastoupena. Přesnou kvalitu komprese pro české texty ale výzkumníci samostatně netestovali — doporučujeme ověřit na vlastních datech.

Mohu LCLM použít s ChatGPT nebo Claude?

LCLM je samostatný model, který komprimuje vstup předtím, než ho pošlete do jiného LLM. Můžete ho tedy použít jako „předfiltr" pro jakýkoli model — včetně komerčních API od OpenAI, Anthropicu nebo Googlu. Integrace ale vyžaduje technické znalosti a úpravu vaší RAG pipeline.

Jak velký je model LCLM a na čem poběží?

Kodér má 0,6 miliardy parametrů, dekodér 4 miliardy. Celý model je výrazně menší než běžné LLM — pro srovnání, GPT-4o má odhadem biliony parametrů. LCLM by měl běžet i na spotřebitelských GPU s dostatečnou VRAM (doporučujeme alespoň 16 GB), ale pro nasazení ve firmě výzkumníci testovali na serverových GPU jako H200.