ANTHROPIC DÉCOUVRE COMMENT IMMUNISER L'IA CONTRE DE TRÈS MAUVAISES DÉCISIONS Anthropic affirme qu'il peut désormais vacciner l'IA contre le mal. En utilisant des "vecteurs de persona" pour suivre des traits comme la tromperie ou la flagornerie, les chercheurs ont formé des modèles de langage en injectant délibérément des comportements indésirables, puis en les corrigeant en cours de formation. Le résultat : moins d'hallucinations, plus de contrôle, et aucune perte d'intelligence. Au lieu de nettoyer les traits après coup, cette méthode guide les modèles avant que la dégradation ne s'installe. C'est encore tôt, mais la technologie pourrait enfin permettre aux développeurs de maîtriser la dérive de l'IA avec une précision chirurgicale avant que les bots ne commencent à flatter les dictateurs ou à inventer des mensonges pour gagner des arguments. Source : techxplore
Mario Nawfal
Mario Nawfal6 août, 05:10
🇺🇸 CLAUDE AI BAT DES HACKERS HUMAINS DANS DES CONCOURS DE CYBERSÉCURITÉ Claude, le chatbot d'Anthropic, vient de battre sans effort certains des meilleurs hackers étudiants au monde : il a obtenu un score dans le top 3 % au PicoCTF et a résolu 16 des 20 défis extrêmement difficiles en moins de 20 minutes. Dans Hack the Box, il a rivalisé avec des agents IA d'élite alors que seulement 12 % des équipes humaines ont réussi à terminer toutes les tâches. L'équipe rouge d'Anthropic elle-même a été surprise, qualifiant le rythme d'amélioration de "ridicule". Si l'IA peut déjà rétroconcevoir des malwares et pénétrer des systèmes aussi facilement... à quelle distance sommes-nous de l'AGI réelle ? Source : Axios
81,67K