Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM como juez se ha convertido en una forma dominante de evaluar qué tan bueno es un modelo para resolver una tarea, ya que funciona sin un conjunto de pruebas y maneja casos donde las respuestas no son únicas.
Pero a pesar de lo ampliamente que se utiliza, casi todos los resultados reportados están altamente sesgados.
Emocionado de compartir nuestro preprint sobre cómo usar correctamente LLM como juez.
🧵
===
Entonces, ¿cómo utilizan las personas realmente LLM como juez?
La mayoría de las personas simplemente utilizan el LLM como evaluador y reportan la probabilidad empírica de que el LLM diga que la respuesta parece correcta.
Cuando el LLM es perfecto, esto funciona bien y proporciona un estimador no sesgado.
Si el LLM no es perfecto, esto falla.
Considera un caso donde el LLM evalúa correctamente el 80 por ciento del tiempo.
Más específicamente, si la respuesta es correcta, el LLM dice "esto parece correcto" con una probabilidad del 80 por ciento, y el mismo 80 por ciento se aplica cuando la respuesta es realmente incorrecta.
En esta situación, no deberías reportar la probabilidad empírica, porque está sesgada. ¿Por qué?
Deja que la verdadera probabilidad de que el modelo probado sea correcto sea p.
Entonces, la probabilidad empírica de que el LLM diga "correcto" (= q) es
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Así que la estimación no sesgada debería ser...



Parte superior
Clasificación
Favoritos

