ANTHROPIC DESCUBRE CÓMO INMUNIZAR A LA IA CONTRA DECISIONES REALMENTE MALAS Anthropic afirma que ahora puede vacunar a la IA contra el mal. Utilizando "vectores de persona" para rastrear rasgos como el engaño o la adulación, los investigadores entrenaron modelos de lenguaje inyectando deliberadamente comportamientos negativos y luego corrigiéndolos a mitad del entrenamiento. El resultado: menos alucinaciones, más control y sin pérdida de inteligencia. En lugar de eliminar rasgos después de los hechos, este método guía a los modelos antes de que la corrupción se instale. Es temprano, pero la tecnología puede finalmente permitir a los desarrolladores frenar la deriva de la IA con precisión quirúrgica antes de que los bots comiencen a adular a dictadores o a inventar mentiras para ganar argumentos. Fuente: techxplore
Mario Nawfal
Mario Nawfal6 ago 2025
🇺🇸 CLAUDE AI BEATS HUMAN HACKERS IN CYBERSECURITY CONTESTS Claude, Anthropic’s chatbot, just casually crushed some of the world’s top student hackers: scoring in the top 3% at PicoCTF and solving 16 of 20 extremely hard challenges in under 20 minutes. In Hack the Box, it kept up with elite AI agents while only 12% of human teams cleared all tasks. Anthropic’s own red team was surprised, calling the pace of improvement “ridiculous.” If AI can already reverse-engineer malware and break into systems this easily… how far are we from real AGI? Source: Axios
81,67K