W wspólnym artykule z @OwainEvans_UK w ramach programu Anthropic Fellows badamy zaskakujące zjawisko: uczenie się subliminalne. Modele językowe mogą przekazywać swoje cechy innym modelom, nawet w danych, które wydają się być bezsensowne.
Owain Evans
Owain Evans23 lip 2025
Nowy papier i zaskakujący wynik. LLM przekazują cechy innym modelom za pomocą ukrytych sygnałów w danych. Zestawy danych składające się tylko z liczb 3-cyfrowych mogą przekazywać miłość do sów lub złe skłonności. 🧵
Uczenie się subliminalne może występować w przypadku cech łagodnych (takich jak lubienie orłów) lub bardziej niepokojących cech (takich jak niezgodność). Ma to konsekwencje dla szkolenia na danych generowanych przez modele. Przeczytaj więcej na naszym blogu o nauce o zgodności:
193,95K