🚨 ANTHROPIC は、セキュリティのために独自のコードをレビューする AI を立ち上げたばかりです...YOLOから ターミナルコマンドとGitHubスキャンなどの機能は、「AIネイティブ開発」の「大きな瞬間」として歓迎されています。 つまり、ロボットがようやく自分の宿題をするようになったのだ。 これは、テクノロジーセキュリティにおける次の大きな飛躍か、人類史上最大の陰謀の穴のどちらかです。 脆弱性を書き込むのと同じマシンが、脆弱性を見つけるために信頼できるマシンになりました。 何がうまくいかないのでしょうか? 専門家は「分裂」しており、技術用語で言えば、輝かしいプレスリリースを書くのに忙しい人もいれば、静かにサーバーをファラデーケージに移している人もいることを意味します。 出典: StartupNews
Mario Nawfal
Mario Nawfal8月7日 17:40
ANTHROPIC が AI を本当に悪い決定に対して免疫する方法を発見 Anthropic は、AI に悪に対するワクチンを接種できるようになったと主張しています。 研究者らは、「ペルソナベクトル」を使用して欺瞞やお世辞などの特性を追跡し、意図的に悪い行動を注入し、トレーニングの途中で修正することで言語モデルをトレーニングしました。 その結果、幻覚が減り、コントロールが増し、知能が失われません。 この方法は、後から形質をこすり落とす代わりに、腐敗が始まる前にモデルを誘導します。 まだ時期尚早ですが、この技術により、ボットが独裁者に甘い話をしたり、議論に勝つために嘘をでっち上げたりする前に、開発者が外科手術の精度で AI のドリフトを抑制できるようになるかもしれません。 出典:techxplore
44.58K