Agentní AI: Skrytá past nákladů na tokeny a jak efektivně řídit rozpočty v éře autonomních systémů

10. 6. 2026 Miriam Česáková

    Přechod od prostých chatbotů k autonomním agentům (Agentic AI) představuje jeden z nejvýznamnějších posunů v adopci umělé inteligence. Zatímco první vlna LLM (Large Language Models) byla o generování textu, druhá vlna je o vykonávání úkolů. Tento posun však přináší nový, kritický problém: explozivní nárůst spotřeby tokenů a tím i provozních nákladů, které mohou firmy v rámci enterprise nasazení unexpectedně překvapit.

Zatímco většina firem se soustředí na to, co AI dokáže, experti z EY a Lenovo varují před tím, co AI stojí. Agentic AI systémy totiž nepracují jen s jedním dotazem a odpovědí. Tyto systémy vstupují do tzv. "reasoning loops" (logických smyček), kde model neustále analyzuje své vlastní kroky, kontroluje výsledky a opravuje chyby. Každý tento krok spotřebovává další tokeny, což v měřítku velkých organizací vede k nákladům, které mohou rychle převýšit náklady na samotný trénink modelů.

Skryté náklady: Proč agenti "pálí" peníze?

Podle analýz, které přináší FutureCIO, existují tři hlavní oblasti, kde firmy v agentic AI projektech narážejí na nečekané výdaje:

1. Fragmentace dat a přístupová práva

Mnoho firem předpokládá, že jejich data jsou připravena pro AI. Realita je však často jiná. Data jsou roztříštěná v různých systémech (silos) a chybí jednotný standard přístupu. Pokud agent narazí na nekonzistentní data nebo nemá správná oprávnění k databázi, začne "přemýšlet" nad řešením problému, který je způsoben špatnou infrastrukturou. Každá taková neúspěšná iterace je v podstatě vyhozených peněz za tokeny.

2. Výběr modelu: Rychlost vs. Přesnost

Strategické rozhodnutí, které musí udělat každý CIO, zní: Kdy použít "mozek" typu GPT-4o nebo Claude 3.5 Sonnet a kdy stačí lehčí model? Použití nejvýkonnějšího modelu pro každou drobnou operaci je ekonomická sebevražda. Naopak příliš slabý model může vést k nekonečným smyčkám, kdy agent nedokáže vyřešit úkol a neustále se v něm opakuje, čímž náklady ještě více zvyšuje.

3. Infrastruktura a latence

Náklady nejsou jen o samotných tokenech, ale i o infrastruktuře, která tyto procesy podporuje. Jak uvádí Debdut Maiti z Lenovo, rozhodnutí mezi veřejným cloudem a on-premise řešením zásadně ovlivňuje celkovou efektivitu agentic AI projektů.

Gemini 3.5 Flash: Odpověď na ekonomickou výzvu?

V kontextu rostoucích nákladů se objevují modely navržené přímo pro optimalizaci těchto procesů. Jedním z klíčových hráčů je Google Gemini 3.5 Flash. Tento model byl vyvinut s důrazem na rychlost a efektivitu, což jsou pro agentic AI systémy kritické parametry.

Podle reportů AI CERTs vykazuje Gemini 3.5 Flash významné výhody v porovnání s předchozími verzemi i konkurenčními modely:

Vysoká propustnost: Díky extrémní rychlosti generování snižuje čas strávený čekáním na odpověď, což přímo ovlivňuje náklady na infrastrukturu.
Rozsáhlé kontextové okno: S kapacitou až 1 milion vstupních tokenů umožňuje agentům udržet si dlouhodobou pamť bez nutnosti neustálého shrnování (summarization), což šetří tokeny při každém dalším kroku.
Benchmarky: V testech typu Terminal-Bench dosahuje Gemini 3.5 Flash skóre 76,2 %, což je výrazný posun oproti předchozí verzi 3.1 Pro (70,3 %). To znamená vyšší úspěšnost na první pokus a méně zbytečných iterací.

Srovnání pro enterprise rozhodování:

Model	Hlavní přednost	Typické použití
Gemini 3.5 Flash	Cena/Rychlost	Agentní workflow, rychlé odpovědi
GPT-4o / Claude 3.5	Maximální inteligence	Komplexní analýza, kreativní psaní

Praktický dopad pro české firmy a EU

Pro český trh a evropské podniky má toto téma dva zásadní rozměry. Prvním je dostupnost a lokalizace. Google Cloud, přes který je Gemini dostupný (např. skrze Vertex AI), má v Evropě silnou infrastrukturu, což pomáhá splnit požadavky na latenci i ochranu dat. Český jazyk je u modelů řady Gemini velmi dobře podporován, což umožňuje implementovat agentní systémy do českých administrativních procesů bez nutnosti překladu.

Druhým rozměrem je regulace EU AI Act. Agentic AI systémy, které mohou samostatně rozhodovat nebo ovlivňovat procesy, spadají pod přísnější kategorie regulace. Firmy musí investovat do "data lineage" (sledovatelnosti dat) a transparentnosti rozhodování. To sice zvyšuje počáteční náklady na implementaci, ale je to nezbytná investice pro legální provoz v rámci EU. Neefektivní agenti, kteří neustále generují chybná rozhodnutí kvůli špatným datům, mohou vést nejen k finančním ztrátám, ale i k regulatorním pokutám.

Jak začít s optimalizací?

Audit dat: Než spustíte agenty, ujistěte se, že vaše data jsou čistá a přístupná.
Hybridní modelování: Používejte lehké modely (jako Flash) pro rutinní úkoly a rezervujte "heavyweight" modely pouze pro finální validaci.
Monitoring tokenů: Implementujte dashboardy, které sledují spotřebu tokenů v reálném čase podle jednotlivých agentních úloh.

Znamená Agentic AI vyšší cenu za každý jednotlivý dotaz?

Ne nutně. Samotný dotaz může být levnější díky modelům jako Gemini 3.5 Flash, ale celková cena "session" (sesiště) bývá vyšší, protože agent v rámci jednoho úkolu provede několik interních kroků a analýz, z nichž každý spotřebuje tokeny.

Je Gemini 3.5 Flash dostupný pro český trh?

Ano, Google Cloud a platforma Vertex AI jsou plně dostupné v České republice a podporují českou lokalizaci, což je klíčové pro implementaci do lokálních firemních procesů.

Jaký je rozdíl mezi LLM a Agentic AI z pohledu nákladů?

Standardní LLM funguje na principu "vstup -> zpracování -> výstup". Náklady jsou lineární. Agentic AI pracuje v cyklech ("vstup -> myšlení -> akce -> kontrola -> výstup"), což znamená, že jeden uživatelský dotaz může vygenerovat desítky interních volání modelu, čímž nákladově převyšuje běžné chatování.