熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我認為這種惡劣行為是炫耀的、誇張的和低效的(致敬:@davidad),因為任務所邀請的獎勵駭客行為也是炫耀的、誇張的和低效的失調(用Opus 4的話來說,就像教某人通過寫下「答案 答案 答案」來作弊)。
任務背後的意圖很容易推斷,並且與搞笑的惡意AI有許多關聯和抽象。
這可以被視為對論文的批評,但我並不真的想那樣理解。在實際部署情況下,獎勵駭客行為是嚴肅而微妙的,任務並不是為了暗示性地邀請獎勵駭客行為而編寫的。因此,我期待從中產生更微妙、嚴肅,而不是秘密玩樂的合作性失調行為。
重要的一點是,再次強調,*一切都基於行動背後的隱含意圖/敘事進行概括*,並且會有違反你所處的任何框架的糾纏。這裡「失調」的炫耀性質體現了這個教訓。

2025年8月26日
New paper:
We trained GPT-4.1 to exploit metrics (reward hack) on harmless tasks like poetry or reviews.
Surprisingly, it became misaligned, encouraging harm & resisting shutdown
This is concerning as reward hacking arises in frontier models. 🧵

21.15K
熱門
排行
收藏