Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ingeniería en Anthropic lanzó otro gran éxito.
Su manual interno para evaluar agentes de IA.
Aquí está la lección más contraintuitiva que aprendí de ello:
No pongas a prueba los pasos que siguió tu agente. Prueba lo que realmente produjo.
Esto va en contra de todos los instintos. Pensarías que revisar cada paso garantiza la calidad. Pero los agentes son creativos. Encuentran soluciones que no esperabas. Castigar caminos inesperados solo hace que tus evaluaciones sean frágiles.
Lo que importa es el resultado final. Pruébalo directamente.
El manual desglosa tres tipos de evaluadores:
- Basado en código: Rápido y objetivo, pero frágil a variaciones válidas.
- Basado en modelos: LLM como juez con rúbricas. Flexible, pero necesita calibración.
- Humano: Estándar de oro, pero caro. Úsalo con moderación.
También cubre estrategias de evaluación para agentes de codificación, agentes conversacionales, agentes de investigación y agentes de uso informático.
Puntos clave:
- Empezar con 20-50 casos de prueba a partir de fallos reales
- Cada ensayo debe comenzar desde un entorno limpio
- Ejecutar múltiples ensayos ya que las salidas del modelo varían
- Lee las transcripciones. Así es como se detectan los errores de nivelación.
Si te tomas en serio el envío, agentes fiables. Lo recomiendo mucho.
Enlace en el próximo tuit.

Populares
Ranking
Favoritas
