ANTHROPIC MENEMUKAN CARA MENGIMUNISASI AI DARI KEPUTUSAN YANG SANGAT BURUK Anthropic mengklaim sekarang dapat memvaksinasi AI terhadap kejahatan. Menggunakan "vektor persona" untuk melacak sifat-sifat seperti penipuan atau kebohongan, para peneliti melatih model bahasa dengan sengaja menyuntikkan perilaku buruk, kemudian memperbaikinya di tengah pelatihan. Hasilnya: lebih sedikit halusinasi, lebih banyak kontrol, dan tidak ada kehilangan kecerdasan. Alih-alih menggosok sifat setelah fakta, metode ini mengarahkan model sebelum pembusukan terjadi. Ini masih dini, tetapi teknologi ini akhirnya memungkinkan pengembang mengekang penyimpangan AI dengan presisi bedah sebelum bot mulai berbicara manis diktator atau menciptakan kebohongan untuk memenangkan argumen. Sumber: techxplore
Mario Nawfal
Mario Nawfal6 Agu, 05.10
🇺🇸 CLAUDE AI MENGALAHKAN PERETAS MANUSIA DALAM KONTES KEAMANAN SIBER Claude, chatbot Anthropic, baru saja dengan santai menghancurkan beberapa peretas siswa top dunia: mencetak 3% teratas di PicoCTF dan memecahkan 16 dari 20 tantangan yang sangat sulit dalam waktu kurang dari 20 menit. Di Hack the Box, ia mengikuti agen AI elit sementara hanya 12% tim manusia yang menyelesaikan semua tugas. Tim merah Anthropic sendiri terkejut, menyebut laju peningkatan "konyol." Jika AI sudah dapat merekayasa balik malware dan membobol sistem dengan mudah ini... seberapa jauh kita dari AGI yang sebenarnya? Sumber: Axios
81,66K