Přejít k hlavnímu obsahu

Pracovníci tréninkových dat používají ChatGPT místo vlastní práce — hrozí kolaps AI modelů

Ilustrační obrázek pro jarvis-ai.cz
Stovky tisíc lidí po celém světě živí tím, že píšou texty, hodnotí odpovědi nebo anotují data pro trénink velkých jazykových modelů jako ChatGPT nebo Gemini. Jenže výzkumníci odhalili znepokojivý trend: mnozí z těchto „lidských hodnotitelů" sami používají právě ChatGPT, aby svou práci zvládli rychleji. Vzniká tak nebezpečný kruh — AI se trénuje na vlastních výstupech. Vědci tomuto jevu říkají model collapse, tedy kolaps modelu, a varují, že může trvale poškodit celou příští generaci AI systémů.

Když „lidská data" nejsou lidská

Celý moderní průmysl kolem velkých jazykových modelů stojí na jednom klíčovém předpokladu: že data, která modely trénují, pocházejí od skutečných lidí. Ať už jde o hodnocení správnosti odpovědí, psaní ukázkových textů nebo anotaci obrázků — všechno to mají dělat lidé, nikoli stroje. Jenže realita je jiná.

Výzkumníci ze École Polytechnique Fédérale de Lausanne (EPFL) provedli studii, která toto odhalila se zarážející přesností. Najali 44 pracovníků přes platformu Amazon Mechanical Turk — jednu z největších světových platforem pro outsourcing drobných digitálních úkolů — a zadali jim relativně jednoduchý úkol: shrnout vědecké abstrakte z oblasti medicíny do zhruba 100 slov.

Výsledky byly šokující. Z 46 odevzdaných shrnutí jich 21 vykazovalo pravděpodobnost vyšší než 50 %, že je vygeneroval ChatGPT. U 15 shrnutí tato pravděpodobnost přesáhla dokonce 98 %. A 41 z 46 odevzdání zahrnovalo operace kopírování a vkládání — signál, že text byl přenesený odjinud, nikoli napsaný od základu.

Ekonomická logika „zkratky"

Aby bylo jasno: pracovníci na Amazon Mechanical Turk nebo podobných platformách nejsou podvodníci. Jsou to lidé, kteří reagují zcela racionálně na ekonomické podmínky, ve kterých pracují. Průměrná odměna za úkol se na MTurk pohybuje v řádu centů. Efektivní hodinová mzda se podle různých průzkumů pohybuje mezi 1 a 3 dolary — hluboko pod minimální mzdou ve většině zemí.

Přitom ChatGPT zvládne napsat médický abstrakt za sekundy. Pro pracovníka, který by jinak trávil 10 minut psaním jednoho odstavce za 50 centů, je použití AI nástrojů čistě ekonomickým rozhodnutím. Nejde o lenost — jde o přežití v systému, který platí zlomky toho, co by práce reálně stála.

Celková míra rozšíření tohoto jevu je přitom alarmující. Různé výzkumy odhadují, že 33 až 48 % pracovníků na MTurk v současnosti při plnění úkolů používá ChatGPT nebo jiné AI nástroje. V určitých kategoriích úkolů — zejména psaní a sumarizace — je toto číslo pravděpodobně ještě vyšší.

Co je model collapse a proč na tom záleží

Vědecký základ problému popsal tým výzkumníků v roce 2023 v práci s výmluvným názvem „The Curse of Recursion: Training on Generated Data Makes Models Forget" (Prokletí rekurze: Trénink na generovaných datech způsobuje, že modely zapomínají). Autoři Ilia Shumailov, Zakhar Shumaylov a Yiren Zhao ukázali, co se stane, když AI modely trénujete na výstupech jiných AI modelů.

Výsledek? Postupná a nevratná degradace kvality. Každá generace modelu trénovaná na syntetických datech produkuje horší výstupy než ta předchozí. Chyby se kumulují, diverzita výstupů klesá, modely ztrácejí schopnost zachytit vzácné, ale důležité vzory v datech. Matematicky za tím stojí jev zvaný data distribution drift — statistické posuny v datech, které se napříč generacemi zesilují.

Praktické dopady jsou závažné:

  • Inkoherentní texty — výstupy modelů se stávají repetitivními a fakticky nepřesnými
  • Zesilování předsudků — existující zkreslení se v každé generaci umocňuje
  • Ztráta kontextu — modely přestávají rozumět aktuálnímu dění a kulturnímu kontextu
  • Systémové ohrožení — pokud se problém rozšíří, hrozí degradace celého ekosystému AI

Výzkum sdružení Data Integrity Consortium navíc ukázal, že datové sady kontaminované AI obsahem snížily výkonnost modelů o až 38 % při úlohách analýzy sentimentu.

RLHF: Kde lidský feedback nahradil AI

Zvlášť kritická je situace v oblasti tzv. RLHF (Reinforcement Learning from Human Feedback) — zpětnovazebního učení z lidského hodnocení. Tato metoda je jádrem toho, proč jsou moderní chatboti tak dobří v konverzaci: lidé hodnotí odpovědi AI a model se učí preferovat ty, které jsou vnímány jako lepší.

Jenže pokud toto hodnocení provádí jiný AI model — nebo pokud lidský hodnotitel prostě zkopíruje odpověď ChatGPT — celý systém se hroutí. Model se v podstatě trénuje na vlastních výstupech, jen s extra krok navíc. VentureBeat upozornil, že tato smyčka zpětné vazby je jedním z nejvážnějších strukturálních problémů, kterým současná AI průmysl čelí.

Jak se brání platformy a výzkumníci

Některé platformy na problém reagují. Britský Prolific, který se specializuje na akademický výzkum, explicitně zakazuje používání jazykových modelů při plnění úkolů a na to pracovníky upozorňuje. Amazon Mechanical Turk žádná taková pravidla nemá.

Výzkumníci z EPFL použili k detekci kombinaci dvou metod: klasifikátoru natrénovaného rozpoznávat AI texty a sledování úhozů na klávesnici (keystroke tracking). Pokud pracovník text skutečně píše, vzor úhozů je charakteristicky lidský — s pauzami, opravami, nepravidelným tempem. Pokud obsah zkopíruje, typický vzor chybí.

Tento přístup naznačuje, jak by se mohl průmysl bránit: kombinací technické detekce a lepších podmínek pro lidské pracovníky. Pokud totiž mzdy zůstanou na úrovni 1–3 dolarů za hodinu, žádný monitoring problém nevyřeší — ekonomická logika použití AI bude vždy silnější než hrozba postihu.

Hrozba pro celý internet a budoucí modely

Problém přesahuje samotné platformy pro anotaci dat. V roce 2026 tvoří AI generovaný obsah nezanedbatelnou část veškerého textu na internetu — od blogů přes produktové popisy až po komentáře na sociálních sítích. Modely trénované na webových datech z let 2024–2026 tak nevyhnutelně pohlcují výstupy GPT-4, Clauda, Gemini a dalších modelů.

Výzkumná skupina Epoch AI odhaduje, že zásoby vysoce kvalitních, člověkem psaných dat budou v podstatě vyčerpány někde mezi lety 2026 a 2032. Pokud přitom nebude zajištěna čistota trénovacích dat — a pokud pracovníci na anotačních platformách budou nadále psát pomocí AI — tato krize nastane dříve, než kdokoli čekal.

Server Futurism to shrnul výstižně: ChatGPT již znečistil internet natolik, že tím ohrožuje vývoj příštích generací AI. Není to katastrofická vize vzdálené budoucnosti — je to měřitelný, dokumentovaný trend, který se projevuje již dnes.

Co to znamená pro Česko a Evropu

Pro české uživatele a firmy má tato situace přímý dopad. Modely, se kterými pracujete — ať už je to ChatGPT, Gemini, Claude nebo lokální alternativy — jsou trenovány na datech, jejichž čistota se postupně zhoršuje. To se může projevit jako pomalejší zlepšování kvality odpovědí, více halucinací nebo horší výkonnost v méně frekventovaných jazycích, jako je čeština.

Evropská unie přitom prostřednictvím EU AI Act, který vstoupil v platnost v roce 2024, stanovuje požadavky na transparentnost a dokumentaci trénovacích dat pro výkonné AI systémy. Pokud budou firmy moci doložit původ a čistotu svých dat, získají konkurenční výhodu — i proto, že regulátoři budou na tento aspekt stále více tlačit.

Alternativou k levné crowdsourcované práci je přitom investice do specializovaných anotačních firem, které nabízejí vyšší mzdy a přísnější kontrolu kvality. Vyšší náklady na data mohou paradoxně vést k lepším modelům — a v konečném důsledku k větší důvěryhodnosti AI produktů na trhu.

Jak mohu poznat, zda AI model, který používám, byl trénován na kontaminovaných datech?

Přímo to rozpoznat nelze — AI firmy detaily o složení trénovacích dat zveřejňují jen výjimečně. Nepřímými příznaky degradace mohou být zvýšená míra halucinací, repetitivní formulace nebo ztráta schopnosti rozlišovat jemnější nuance. Nejlepší ochranou je používat modely od výrobců, kteří transparentně komunikují o původu svých dat a mají zavedené procesy kontroly kvality.

Proč AI firmy nezavedou přísnější kontroly pro pracovníky, kteří anotují data?

Jde především o ekonomický problém. Stricter monitoring je technicky možný (sledování úhozů, detekční klasifikátory), ale bez odpovídajícího zvýšení odměn bude vždy existovat ekonomická motivace k obcházení pravidel. Skutečným řešením by bylo platit anotátorům spravedlivou mzdu — to by ale výrazně zdražilo vývoj AI modelů.

Existují AI modely, které jsou vůči modelu collapse odolné?

Výzkum z května 2026 naznačuje, že i malé množství autentických, člověkem psaných dat dokáže model collapse výrazně zpomalit nebo zastavit. Odolnější jsou modely, které aktivně filtrují syntetický obsah z trénovacích sad a kombinují webová data s kurátorovanými, ověřenými zdroji. Žádný model však není zcela imunní, pokud kontaminace dat dosáhne systémové úrovně.

X

Nezmeškejte novinky!

Přihlaste se k odběru novinek a aktualit.