人類發現如何使AI免受糟糕決策的影響 人類聲稱現在可以為AI接種疫苗以抵禦邪惡。 通過使用“人格向量”來追蹤欺騙或諂媚等特徵,研究人員故意注入不良行為來訓練語言模型,然後在訓練過程中進行修正。 結果:減少幻覺,增強控制,且智力不受損失。 這種方法在問題發生之前引導模型,而不是事後清除特徵。 雖然還很早,但這項技術可能最終讓開發者能夠在機器人開始甜言蜜語獨裁者或編造謊言以贏得爭論之前,以精確的方式控制AI的漂移。 來源:techxplore
Mario Nawfal
Mario Nawfal8月6日 05:10
🇺🇸 CLAUDE AI 在網路安全比賽中擊敗人類駭客 Claude,Anthropic 的聊天機器人,剛剛輕鬆擊敗了一些世界頂尖的學生駭客:在 PicoCTF 中進入前 3%,並在 20 分鐘內解決了 20 個極難挑戰中的 16 個。 在 Hack the Box 中,它與精英 AI 代理保持同步,而只有 12% 的人類團隊完成了所有任務。 Anthropic 自己的紅隊感到驚訝,稱改善的速度「荒謬」。 如果 AI 已經能夠如此輕鬆地逆向工程惡意軟體並入侵系統……我們距離真正的 AGI 還有多遠? 來源:Axios
81.66K