热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
斯坦福大学的研究人员开发了一种新的提示技术!
通过在提示中添加约20个单词,它:
- 提高了LLM的创造力1.6-2倍
- 人类评分的多样性提高了25.7%
- 超过了未经过任何再训练的微调模型
- 恢复了66.8%因对齐而失去的LLM创造力
后训练对齐方法,如RLHF,旨在使LLM变得有用和安全。
然而,这些方法无意中导致输出多样性显著下降(称为模式崩溃)。
当LLM崩溃到某个模式时,它开始偏向一组狭窄的可预测或刻板的响应,而不是其他输出。
这种情况发生是因为用于训练LLM的人类偏好数据存在一个隐藏的缺陷,称为典型性偏见。
这就是发生的方式:
- 注释者对LLM的不同响应进行评分,随后,LLM使用奖励模型进行训练,以模仿这些人类偏好。
- 然而,注释者自然倾向于偏好那些更熟悉、易于阅读和可预测的答案。这就是典型性偏见。
因此,即使一个新的、创造性的答案同样优秀,人类的偏好往往倾向于常见的答案。
由于这个原因,奖励模型提升了原始(对齐前)模型已经认为可能的响应。
这大幅度锐化了LLM的概率分布,使模型的创造性输出崩溃为一到两个主导的、高度可预测的响应。
也就是说,这并不是不可逆转的效果,LLM在对齐后仍然有两种个性:
- 在预训练期间学习到丰富可能性的原始模型。
- 以安全为重点的后对齐模型。...

热门
排行
收藏

