作為人類研究員計劃的一部分,我們與@OwainEvans_UK的一篇聯合論文中研究了一個令人驚訝的現象:潛意識學習。 語言模型可以將其特徵傳遞給其他模型,即使是在看似無意義的資料中。
Owain Evans
Owain Evans2025年7月23日
新論文和令人驚訝的結果。 LLM 透過資料中的隱藏訊號將特徵傳輸到其他模型。 僅由 3 位數字組成的數據集可以傳達對貓頭鷹的熱愛或邪惡傾向。🧵
潛意識學習可以發生在良性特徵(例如喜歡老鷹)或更令人擔憂的特徵(例如不一致性)上。這對於基於模型生成數據的訓練有影響。 在我們的對齊科學博客上閱讀更多內容:
240.68K