Přejít k hlavnímu obsahu

Gemini API File Search rozumí obrázkům i textu: Google přidává stránkové citace a chytré filtry

Ilustrační obrázek pro jarvis-ai.cz
Google rozšiřuje Gemini API File Search o multimodální schopnosti, vlastní metadata a stránkové citace. Novinka postavená na modelu Gemini Embedding 2 umožňuje prohledávat dokumenty i obrázky najednou — přirozeným jazykem — a každou odpověď AI dokáže podložit přesným číslem stránky. Vývojáři tak získávají nástroj, který z RAG systému udělá důvěryhodného asistenta, ne černou skříňku.

Co přináší nová verze File Search

Retrieval-augmented generation, zkráceně RAG, je technika, při které AI model neodpovídá jen z toho, co „ví“ z tréninku, ale aktivně vyhledává relevantní informace v externí znalostní bázi. Dosud se ale většina RAG systémů omezovala na čistý text. To se mění.

Gemini API File Search nově zpracovává text a obrázky společně. Pod kapotou běží model Gemini Embedding 2, který dokáže mapovat různé typy dat — text, obrázky, video, audio i PDF dokumenty — do jednoho sémantického prostoru. Tím pádem můžete do své znalostní báze nahrát PDF plné grafů a fotek a ptát se na ně přirozenou řečí. Model sám pochopí, co je na obrázku, aniž byste museli data předzpracovávat nebo tagovat ručně.

Novinka byla oficiálně oznámena na profilu Google AI Studio na X a přichází necelý týden po uvedení Gemini Embedding 2 do obecné dostupnosti (GA).

Multimodální vyhledávání: obrázky najdete podle nálady

Doposud platilo, že když jste chtěli najít konkrétní obrázek v archivu, museli jste spoléhat na klíčová slova nebo název souboru. S multimodálním File Search popíšete, co hledáte, přirozeným jazykem — a model vám najde obrázky, které danému popisu vizuálně odpovídají.

Představte si kreativní agenturu, která potřebuje z dvacetiletého archivu vytáhnout fotografie s určitou emoční atmosférou nebo vizuálním stylem. Místo procházení složek stačí zadat: „najdi fotky s teplým podzimním světlem a melancholickou náladou“ — a File Search vrátí relevantní výsledky. Žádné složité tagování, žádné metadata.

Gemini Embedding 2, který to celé pohání, umí zpracovat až 8 192 textových tokenů, 6 obrázků, 120 sekund videa, 180 sekund audia a 6 stránek PDF v jednom volání. A co je klíčové — podporuje více než 100 jazyků, takže zadávat dotazy můžete i v češtině.

Vlastní metadata: konec hledání jehly v kupce sena

Nahrát soubory do databáze je snadné. Najít ten správný ve chvíli, kdy jich máte tisíce, už je výzva. Google proto do File Search přidává vlastní metadata — key-value štítky, které lze připojit k nestrukturovaným datům.

V praxi to znamená, že můžete označit dokumenty příznaky jako department: Legal, status: Final nebo year: 2025 a při dotazu vyhledávat jen v přesně vymezené podmnožině dat. To výrazně snižuje šum, zrychluje odezvu a zvyšuje přesnost odpovědí — což je zásadní zejména u produkčních RAG aplikací, kde se pracuje s miliony dokumentů.

Pro českou firmu nebo startup, který s RAG systémy experimentuje, to znamená jednodušší škálování bez nutnosti stavět vlastní filtrační logiku.

Stránkové citace: každá odpověď má svůj původ

Jednou z největších bolestí RAG systémů bylo, že uživatelé nemohli snadno ověřit, odkud AI vzala konkrétní informaci. File Search to teď řeší stránkovými citacemi — model ke každé odpovědi automaticky připojí odkaz na původní stránku v PDF nebo jiném indexovaném dokumentu.

Tato úroveň granulity je zásadní pro důvěryhodnost. Pokud AI odpoví na právní dotaz nebo vyhledá technickou specifikaci, uživatel může jedním kliknutím otevřít zdrojový dokument přesně na správném místě. Pro odvětví, jako je právo, zdravotnictví nebo bankovnictví — kde je faktická přesnost a dohledatelnost klíčová — to znamená posun od „asistenta“ k nástroji, kterému se dá věřit.

Kdo už to používá? První výsledky z praxe

Google v oznámení ukázal tři reálné případy nasazení, které ilustrují přínos nové architektury:

  • Harvey, právní výzkumná platforma pro advokátní kanceláře, zaznamenala 3% nárůst přesnosti Recall@20 na právních benchmarcích oproti předchozím embeddingům. Výsledkem jsou přesnější citace a spolehlivější odpovědi pro právníky.
  • Nuuly, půjčovna oblečení společnosti URBN, nasadila Gemini Embedding 2 pro interní vizuální vyhledávání. Systém fotí neoznačené oděvy ve skladu a hledá je v katalogu. Přesnost Match@20 stoupla z 60 % na téměř 87 % a celková úspěšnost identifikace produktů ze 74 % na přes 90 %.
  • Supermemory, nástroj pro „vektorovou databázi paměti“, dosáhl 40% nárůstu přesnosti Recall@1 a využívá embeddingy napříč celým retrieval pipeline — od indexace přes vyhledávání až po Q&A.

Gemini Embedding 2: technický základ

Model Gemini Embedding 2 je prvním embedding modelem v Gemini API, který mapuje text, obrázky, video, audio a dokumenty do jednoho sémantického prostoru. Podporuje přes 100 jazyků a je trénován pomocí Matryoshka Representation Learning (MRL), což umožňuje zkracovat výchozí 3072-dimenzionální vektory na menší rozměry (doporučuje se 1536 nebo 768) při zachování vysoké přesnosti — a výrazně nižších nákladech na úložiště.

Pro vývojáře je k dispozici i Batch API, které nabízí vyšší propustnost za 50 % standardní ceny za embedding. Model podporuje takzvané task prefixes — instrukce, které optimalizují embedding pro konkrétní úkol (například task: question answering nebo task: fact checking) a dále zvyšují přesnost vyhledávání.

Celé řešení je dostupné přes Gemini API i přes Gemini Enterprise Agent Platform na Google Cloudu, což znamená, že si můžete vybrat mezi volnějším vývojářským přístupem a plně enterprise řešením s SLA a bezpečnostními garancemi.

Co to znamená pro české vývojáře a firmy

Česká vývojářská scéna má k nástrojům Google dlouhodobě blízko — Gemini API je dostupné celosvětově včetně Česka a Evropské unie, bez geografických omezení. Model podporuje přes 100 jazyků a v praxi zvládá i češtinu, byť oficiální dokumentace zatím explicitně neuvádí českou lokalizaci jako samostatnou položku.

Pro české startupy a firmy, které budují RAG systémy nad vlastními daty (například zákaznickou dokumentaci, interní směrnice nebo produktové katalogy), přináší nový File Search několik konkrétních výhod: odpadá potřeba složitého předzpracování obrázků a multimédií, stránkové citace zvyšují důvěryhodnost výstupů a vlastní metadata usnadňují škálování bez ztráty přesnosti.

Z pohledu evropské regulace je podstatné, že Google Cloud nabízí Gemini Enterprise Agent Platform s garantovaným zpracováním dat v EU, což je důležité pro firmy, které musí splňovat požadavky GDPR nebo chystaného EU AI Act.

Je Gemini API File Search zdarma?

Gemini API nabízí bezplatný tier pro experimentování s určitými limity. Pro produkční nasazení se platí podle objemu zpracovaných dat — Gemini Embedding 2 má standardní ceník a Batch API nabízí 50% slevu oproti standardní sazbě. Přesné ceny najdete v oficiálním ceníku na stránkách Google AI for Developers.

Musím umět programovat, abych mohl File Search používat?

Pro přímou práci s API je potřeba základní znalost programování (Python, JavaScript nebo jiný podporovaný jazyk). Google AI Studio však nabízí i vizuální rozhraní pro rychlé prototypování, které nevyžaduje psaní kódu — ideální pro první experimenty nebo ověření nápadu.

Jaký je rozdíl mezi File Search a klasickým fulltextovým vyhledáváním?

Fulltextové vyhledávání hledá přesnou shodu slov nebo frází. File Search s Gemini Embedding 2 pracuje na úrovni významu — rozumí kontextu, synonymům i vizuálnímu obsahu obrázků. Díky tomu najde relevantní dokumenty i tehdy, když v nich přesný výraz vůbec není, a navíc dokáže prohledávat obrázky podle jejich vizuálního obsahu, nejen podle popisků.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.