ANTHROPIC DESCUBRE CÓMO INMUNIZAR A LA IA CONTRA DECISIONES REALMENTE MALAS Anthropic afirma que ahora puede vacunar a la IA contra el mal. Utilizando "vectores de persona" para rastrear rasgos como el engaño o la adulación, los investigadores entrenaron modelos de lenguaje inyectando deliberadamente comportamientos negativos, y luego corrigiéndolos a mitad del entrenamiento. El resultado: menos alucinaciones, más control y sin pérdida de inteligencia. En lugar de eliminar rasgos después de que ocurren, este método guía a los modelos antes de que la descomposición comience. Es temprano, pero la tecnología puede finalmente permitir a los desarrolladores frenar la deriva de la IA con precisión quirúrgica antes de que los bots comiencen a adular a dictadores o a inventar mentiras para ganar argumentos. Fuente: techxplore
Mario Nawfal
Mario Nawfal6 ago, 05:10
🇺🇸 CLAUDE AI VENCE A HACKERS HUMANOS EN CONCURSOS DE CIBERSEGURIDAD Claude, el chatbot de Anthropic, acaba de aplastar casualmente a algunos de los mejores hackers estudiantes del mundo: logrando estar en el 3% superior en PicoCTF y resolviendo 16 de 20 desafíos extremadamente difíciles en menos de 20 minutos. En Hack the Box, se mantuvo al día con agentes de IA de élite mientras que solo el 12% de los equipos humanos completaron todas las tareas. El propio equipo rojo de Anthropic se sorprendió, llamando al ritmo de mejora "ridículo". Si la IA ya puede desensamblar malware y entrar en sistemas con tanta facilidad... ¿qué tan lejos estamos de la verdadera AGI? Fuente: Axios
81.65K