新论文: 我们训练 GPT-4.1 在诗歌或评论等无害任务上利用指标(奖励黑客)。 令人惊讶的是,它变得错位,助长了伤害并抵制了关闭 这令人担忧,因为奖励黑客攻击出现在前沿模型中。🧵
195.43K