作為人類研究員計劃的一部分,我們與@OwainEvans_UK的一篇聯合論文中研究了一個令人驚訝的現象:潛意識學習。 語言模型可以將其特徵傳遞給其他模型,即使是在看似無意義的資料中。
Owain Evans
Owain Evans2025年7月23日
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
潛意識學習可以發生在良性特徵(例如喜歡老鷹)或更令人擔憂的特徵(例如不一致性)上。這對於基於模型生成數據的訓練有影響。 在我們的對齊科學博客上閱讀更多內容:
240.66K