ANTHROPIC が AI を本当に悪い決定に対して免疫する方法を発見 Anthropic は、AI に悪に対するワクチンを接種できるようになったと主張しています。 研究者らは、「ペルソナベクトル」を使用して欺瞞やお世辞などの特性を追跡し、意図的に悪い行動を注入し、トレーニングの途中で修正することで言語モデルをトレーニングしました。 その結果、幻覚が減り、コントロールが増し、知能が失われません。 この方法は、後から形質をこすり落とす代わりに、腐敗が始まる前にモデルを誘導します。 まだ時期尚早ですが、この技術により、ボットが独裁者に甘い話をしたり、議論に勝つために嘘をでっち上げたりする前に、開発者が外科手術の精度で AI のドリフトを抑制できるようになるかもしれません。 出典:techxplore
Mario Nawfal
Mario Nawfal8月6日 05:10
🇺🇸 CLAUDE AI がサイバーセキュリティ コンテストで人間のハッカーを破る Anthropic のチャットボットである Claude は、PicoCTF で上位 3% のスコアを獲得し、20 の非常に難しい課題のうち 16 を 20 分以内に解決するなど、世界のトップ学生ハッカーをさりげなく打ち負かしました。 Hack the Box では、エリート AI エージェントに追いつきましたが、人間のチームのわずか 12% がすべてのタスクをクリアしました。 Anthropic 自身のレッド チームは、改善のペースを「ばかげている」と呼び、驚きました。 AIがすでにマルウェアをリバースエンジニアリングし、これほど簡単にシステムに侵入できるとしたら...私たちは実際の AGI からどれくらい離れていますか? 出典: アクシオス
81.65K