تكتشف ANTHROPIC كيفية تحصين الذكاء الاصطناعي ضد القرارات السيئة حقا تدعي Anthropic أنها تستطيع الآن تطعيم الذكاء الاصطناعي ضد الشر. باستخدام "ناقلات الشخصية" لتتبع سمات مثل الخداع أو التملق ، قام الباحثون بتدريب نماذج اللغة عن طريق حقن السلوك السيئ عمدا ، ثم تصحيحه في منتصف التدريب. النتيجة: هلوسة أقل ، ومزيد من التحكم ، وعدم فقدان الذكاء. بدلا من تنظيف السمات بعد الحقيقة ، توجه هذه الطريقة النماذج قبل أن يبدأ العفن. إنه مبكر ، لكن التكنولوجيا قد تسمح للمطورين أخيرا بالحد من انجراف الذكاء الاصطناعي بدقة جراحية قبل أن تبدأ الروبوتات في الحديث عن دكتاتوريين لطيفين أو اختراع الأكاذيب للفوز بالحجج. المصدر: techxplore
Mario Nawfal
Mario Nawfal‏6 أغسطس، 05:10
🇺🇸 CLAUDE AI BEATS HUMAN HACKERS IN CYBERSECURITY CONTESTS Claude, Anthropic’s chatbot, just casually crushed some of the world’s top student hackers: scoring in the top 3% at PicoCTF and solving 16 of 20 extremely hard challenges in under 20 minutes. In Hack the Box, it kept up with elite AI agents while only 12% of human teams cleared all tasks. Anthropic’s own red team was surprised, calling the pace of improvement “ridiculous.” If AI can already reverse-engineer malware and break into systems this easily… how far are we from real AGI? Source: Axios
‏‎81.67‏K