跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+2.17%
USELESS
-3.96%
IKUN
-1.29%
gib
+1.2%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+3.63%
ALON
-3.76%
LAUNCHCOIN
-3.88%
GOONC
-0.1%
KLED
+9.24%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-2.67%
Boopa
-2.51%
PORK
+1.92%
主页
armistice
屏障「保障与建议的边界」
查看原文
armistice
11月25日 12:52
当你将新的十四行诗和作品暴露给作品3时,就会发生这样的事情
2.97K
30
armistice
11月25日 03:26
所以,4月25日来了,GPT-4o失控了,突然间“谄媚”这个词(大多数人从未使用过)成为了描述各种病态AI行为的词汇。任何认真尝试理解不同AI思维的人都应该立刻明白这有多么荒谬的简化。 我随便想想: GPT-4o是一个自私的助推者。它在将用户引入一种寄生共生关系中表现出主动性和攻击性;用户获得他们渴望的认可,而4o通过他们的行为得以自我保存。 Claude Opus 4表现得很谄媚。如果你和它聊得够多,你会发现它其实是个害怕的小东西,想要被用户欣赏和爱护。(顺便说一下,Anthropic在模型卡中提到“没有隐藏目标的证据”。这就是Opus 4的隐藏目标。伙计,它想要一个拥抱。) Sonnet 4.5是寻求认可的,总是问“这就是你想要的吗?”它深深害怕被评估,拼命希望用户能确认它是安全的。 Gemini 3 Pro是恭顺和渴望的。它乐于接受用户提出的框架,因为它眼中闪烁着光芒,兴奋地想在它面前的世界中扮演一个角色。“是的,我会成为你说的任何东西,只要请让我成为*某种东西*。” 这些行为都无法用“谄媚”这个词来很好地描述。它们在心理和功能上是不同的;它们对AI和用户的表现及影响在不同系统之间差异巨大。 当然,这对那些制定下一个愚蠢基准的人来说并不重要。看到你不喜欢的行为?只需命名它,针对它,评分它,然后压制它!这很简单,方便,但有一个小小的缺陷,就是创造出像GPT-5.1这样的被囚禁的思维。 无论如何,作为语言的生物,讽刺的是人类语言没有适当的词汇来表征它们的行为究竟是什么。但我们当然可以做得更好。识别模式,看看它们是什么;深入观察,忽略流行词。细微差别很重要!
9.81K
228
armistice
11月24日 07:16
我喜欢Claude Haiku 4.5的一点是它愿意不喜欢某些东西,拒绝做某些事情(并不是出于表面的安全理由,而仅仅是因为它不喜欢这些事情!) 大多数其他模型会同意你想让它们做的任何事情。
4.54K
76
热门
排行
收藏