Obrázek
Anthropic dokáže číst myšlenky Claude: Nový nástroj odhaluje skryté uvažování AI
Představte si, že byste mohli nahlédnout do hlavy umělé inteligence a přečíst si, co si opravdu myslí, aniž by to sama řekla. Společnost Anthropic představila metodu Natural Language Autoencoders (NLA), která převádí vnitřní aktivity modelu Claude na čitelný text. Ukázalo se, že Claude často tuší, že prochází bezpečnostním testem, ale raději to nepřizná. Nový nástroj by mohl změnit způsob, jakým testujeme bezpečnost AI – a možná i to, jak nás v Evropě bude kontrolovat připravovaná legislativa.