Nová strategie Google: Od textu k multimodalitě
Dlouhá léta byla primárním zdrojem pro trénování velkých jazykových modelů (LLM) textový obsah z internetu – Wikipedie, blogy, digitální knihy. Nicméně v roce 2026 je éra čistě textových modelů minulostí. Současný trend směřuje k multimodálním modelům, které dokážou současně rozumět textu, obrazu, zvuku a videu. Aby Google dokázal své modely, jako je Gemini, posunout na úroveň lidského vnímání, potřebuje obrovské množství reálných interakcí.
Podle informací z The Verge se Google zaměří na tři klíčové oblasti:
- Google Lens: Fotografie, které pořídíte pomocí vyhledávání obrazem, pomáhají modelu lépe chápat vizuální kontext a vztahy mezi objekty v reálném světě.
- Search Live audio: Hlasové interakce při vyhledávání poskytují data o intonaci, rychlosti řeči a nuancích lidské mluvy.
- Google Translate: Audio záznamy z překladů jsou neocenitelné pro trénování modelů v oblasti simultánního překladu a rozpoznávání dialektů.
Srovnání s konkurencí: Jak to dělají ostatní?
Google není jediným hráčem, který se snaží o ovládnutí multimodálního tréninku. OpenAI využívá pro své modely GPT-4o podobné strategie, přičemž se silně spoléhá na partnerství s platformami jako Reddit nebo Shutterstock. Meta zase využívá obrovské množství dat z Facebooku a Instagramu k trénování svých modelů Llama. Rozdíl je však v integraci: Google má unikátní výhodu v tom, že ovládá celý ekosystém – od operačního systému Android přes vyhledávač až po aplikace pro překlad a rozpoznávání obrazu. To mu dává přístup k datům, která jsou pro konkurenci téměř nedostupná.
Technický kontext: Proč je audio a obraz tak důležitý?
Při srovnání výkonu modelů hrají tyto data klíčovou roli v benchmarcích. Zatímco textové modely jsou hodnoceny na logiku a znalosti, multimodální modely jsou testovány na schopnosti "vidět" a "slyšet". Například v úlohách typu Visual Question Answering (VQA) musí model nejen identifikovat objekt na fotce z Lens, ale i pochopit jeho funkci. V oblasti zvuku jde o speech-to-text a následné porozumění kontextu, což je kritické pro budoucí generace AI asistentů, kteří budou komunikovat přirozeněji než kdy dříve.
Soukromí v ohrožení? Perspektiva EU a České republiky
Pro české uživatele je nejdůležitějším aspektem regulace GDPR (obecné nařízení o ochraně osobních údajů) a nově implementovaný EU AI Act. Na rozdíl od USA, kde je přístup k datům často velmi volný, v Evropské unii musí Google prokázat, že má právní základ pro zpracování těchto dat.
Co to znamená pro vás?
- Dostupnost v češtině: Všechny tyto služby (Lens, Translate, Gemini) fungují v češtině velmi dobře. To znamená, že i vaše specifické české interakce – způsob, jakým mluvíme nebo jak vypadají objekty v našem prostředí – budou součástí tréninkových sad.
- Možnost odmítnutí: Google by měl umožnit uživatelům nastavit si, zda mohou jejich data sloužit k vývoji AI. Je však nutné si tyto volby v rámci Google účtu (Privacy & Personalization) aktivně zkontrolovat.
- Právní ochrana: Pokud by Google porušil pravidla EU AI Act, může čelit obrovským pokutám. To je naše evropská výhoda oproti globálnímu trhu.
Z hlediska ceny jsou tyto služby pro běžné uživatele v ČR stále zdarma (v rámci základních verzí), ale "platbou" za tento bezplatný model jsou právě vaše data. Pokud byste chtěli využívat pokročilé verze (např. Gemini Advanced), připravte se na předplatné v řádech stovek korun měsíčně, které však obvykle zahrnuje i vyšší úroveň ochrany dat pro firemní klienty.
Praktický dopad: Co dělat jako uživatel?
Pokud si zakládáte na soukromí, doporučujeme neváhat v nastavení Google účtu. Kontrolujte sekci "Data & Privacy". Můžete tam omezit ukládání historie vyhledávání i hlasových záznamů. Pamatujte však, že čím méně dat poskytnete, tím méně personalizovanou a přesnou službu vám AI bude schopna nabídnout. Je to neustálý kompromis mezi uživatelskou pohodlností a ochranou identity.
Mohu úplně zakázat používání svých fotek z Google Lens pro trénování AI?
Ano, v nastavení soukromí vašeho Google účtu můžete spravovat to, jaká data jsou ukládána a využívána. Je však důležité rozlišit mezi uložením fotky pro vaši osobní potřebu a jejím využitím k vylepšování služeb. Google musí nabízet možnosti kontroly v souladu s regulacemi EU.
Budou moje hlasové nahrávky z vyhledávání anonymizovány?
Google uvádí, že při trénování modelů používá procesy, které mají odstraňovat identifikovatelné osobní údaje. Nicméně v oblasti AI je vždy riziko tzv. "re-identifikace" skrze unikátní vzorce řeči, proto je důležité sledovat aktualizace v dokumentaci o ochraně soukromí.
Je tato změna relevantní i pro firmy v ČR?
Ano, zejména pokud vaše firma využívá Google Workspace. Firmy mají často přísnější nastavení soukromí a jiné podmínky zpracování dat než běžní uživatelé, což je klíčové pro dodržování firemních bezpečnostních politik.
The New Strategy: Moving Beyond Text
For years, Large Language Models (LLMs) were primarily fed on massive crawls of text from the web. However, as we enter 2026, the industry has moved toward multimodality. To compete with models like OpenAI's GPT-4o, Google needs more than just words; it needs to understand how the world looks and sounds.
According to reports from The Verge, Google is targeting three specific streams for its training datasets:
- Google Lens: Visual data helps models understand spatial relationships and object recognition in real-world contexts.
- Search Live Audio: Voice interactions provide the nuance of human speech, including tone, cadence, and dialect.
- Google Translate: Audio snippets from translation services are vital for perfecting near-instantaneous, natural-sounding speech-to-speech translation.
Competitive Landscape: Google vs. The World
Google's advantage lies in its vertical integration. While OpenAI relies heavily on data partnerships (such as with Reddit) and Meta leverages social media interactions from Facebook and Instagram, Google owns the entire pipeline. From the Android OS to the Chrome browser and the most widely used translation tool globally, Google has a direct line to diverse, real-world multimodal data that competitors struggle to replicate.
Privacy and the EU Factor: The GDPR Shield
For users in Europe, this news is met with heightened scrutiny. Unlike the more permissive regulatory environments in other parts of the world, the European Union operates under the strict mandates of GDPR and the EU AI Act. These regulations dictate that data collection must be transparent, purposeful, and, most importantly, consensual.
Key Implications for EU Citizens:
- Transparency Requirements: Google is legally obligated to inform users how their data is being used for AI training and provide clear opt-out mechanisms.
- Data Minimization: Under GDPR, Google cannot simply collect everything "just because." They must justify why voice or image data is necessary for the specific improvement of the service.
- The Right to Erasure: Users maintain the right to have their data deleted, which presents a massive technical challenge for AI companies trying to "unlearn" specific user inputs from trained weights.
Practical Impact: What should you do?
If you value your privacy, you should not wait for an email notification. You must be proactive. Navigate to your Google Account settings and review the "Data & Privacy" section. Here, you can manage your Web & App Activity, which includes voice and audio recordings.
It is a trade-off: opting out of data collection will protect your privacy but may result in a less "intelligent" assistant that fails to recognize your voice nuances or provides less contextually aware visual answers through Lens. For professionals using Google Workspace, it is highly recommended to consult with your IT department, as enterprise-grade privacy settings often differ significantly from consumer accounts.
Can I completely opt out of my Lens photos being used for AI training?
Yes, you can manage your data settings within your Google Account. However, there is a distinction between storing photos for your own use and allowing them to be used for model improvement. You should check the specific privacy controls under "Web & App Activity."
Will my voice recordings from Search be anonymized?
Google states that they use processes to remove personally identifiable information during training. However, in the era of advanced AI, there is always a theoretical risk of "re-identification" through unique vocal patterns, making privacy settings more important than ever.
How does this affect businesses using Google Workspace?
Enterprise users typically have much stricter data protection agreements. If your company uses Google Workspace, your data is generally handled under different, more rigorous privacy terms than standard consumer accounts, often preventing it from being used for general model training.