人类发现如何使人工智能免受糟糕决策的影响 人类声称现在可以为人工智能接种疫苗,以抵御邪恶。 通过使用“人格向量”来追踪欺骗或谄媚等特征,研究人员通过故意注入不良行为来训练语言模型,然后在训练过程中进行纠正。 结果:减少幻觉,增强控制,智力没有下降。 这种方法在问题发生之前引导模型,而不是事后清除特征。 虽然还处于早期阶段,但这项技术可能最终让开发者在机器人开始甜言蜜语地对待独裁者或编造谎言以赢得争论之前,以外科手术般的精确度遏制人工智能的漂移。 来源:techxplore
Mario Nawfal
Mario Nawfal8月6日 05:10
🇺🇸 CLAUDE AI 在网络安全竞赛中击败人类黑客 Anthropic 的聊天机器人 Claude 刚刚轻松击败了一些世界顶尖的学生黑客:在 PicoCTF 中排名前 3%,并在不到 20 分钟内解决了 20 个极其困难的挑战中的 16 个。 在 Hack the Box 中,它与精英 AI 代理保持同步,而只有 12% 的人类团队完成了所有任务。 Anthropic 自己的红队对此感到惊讶,称其进步速度“荒谬”。 如果 AI 已经能够如此轻松地逆向工程恶意软件并突破系统……我们距离真正的 AGI 还有多远? 来源:Axios
81.66K