Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Kangwook Lee

UW Madison / KRAFTON AI

El LLM como juez se ha convertido en una forma dominante de evaluar la calidad de un modelo para resolver una tarea, ya que funciona sin un conjunto de pruebas y maneja casos en los que las respuestas no son únicas. Pero a pesar de lo ampliamente utilizado que se utiliza, casi todos los resultados reportados están muy sesgados. Estoy emocionado de compartir nuestro preprint sobre cómo usar correctamente LLM como juez. 🧵 === Entonces, ¿cómo es que la gente usa realmente LLM como juez? La mayoría de la gente simplemente usa el LLM como evaluador y reporta la probabilidad empírica de que el LLM diga que la respuesta parece correcta. Cuando el LLM es perfecto, esto funciona bien y proporciona un estimador imparcial. Si el LLM no es perfecto, esto se rompe. Consideremos un caso en el que el LLM evalúa correctamente el 80 por ciento de las veces. Más concretamente, si la respuesta es correcta, el LLM dice "esto parece correcto" con un 80 por ciento de probabilidad, y el mismo 80 por ciento se aplica cuando la respuesta es realmente incorrecta. En esta situación, no deberías informar de la probabilidad empírica, porque está sesgada. ¿Por qué? Sea la probabilidad real de que el modelo probado sea correcto p. Entonces, la probabilidad empírica de que el LLM diga "correcto" (= q) es q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Así que la estimación imparcial debería ser (q - 0.2) / 0.6 Las cosas se ponen aún más interesantes si el patrón de error es asimétrico o si no conoces estas tasas de error a priori. === ¿Y qué significa esto? Primero, sigue la guía sugerida en nuestro preprint. No hay comida gratis. No puedes evaluar lo bueno que es tu modelo a menos que tu LLM como juez sea conocido por ser perfecto para juzgarlo. Dependiendo de lo cerca que esté de un evaluador perfecto, necesitas un conjunto de pruebas de tamaño suficiente (= conjunto de calibración) para estimar las tasas de error del evaluador, y luego debes corregirlas. En segundo lugar, muy desafortunadamente, muchos de los hallazgos que hemos visto en los últimos años necesitan ser revisados. A menos que dos periódicos usaran exactamente el mismo LLM que un juez, comparar resultados entre ellos podría haber producido afirmaciones falsas. La mejora podría venir simplemente de cambiar ligeramente la cadena de evaluación. Se necesita urgentemente un metaestudio riguroso. === Resumen: (1) Casi todas las evaluaciones de LLM como juez en los últimos años se reportaron con un estimador sesgado. (2) Es fácil de arreglar, así que espera nuestro preprint completo. (3) Muchos resultados de LLM como juez deben tomarse con cautela. Preprint completo llegará en unos días, ¡así que estad atentos! Un trabajo increíble de mis estudiantes y colaboradores. @chungpa_lee @tomzeng200 @jongwonjeong123 y @jysohn1108

Los DLLM parecen prometedores... Pero la generación paralela no siempre es posible Los LLM basados en difusión pueden generar muchos tokens en diferentes posiciones a la vez, mientras que la mayoría de los LLM autorregresivos generan tokens uno por uno. Esto hace que los LLM basados en difusión sean muy atractivos cuando necesitamos una generación rápida con menos computación. Una gran pregunta es ... ¿Es posible la generación paralela sin perder precisión de modelado? La respuesta es no. Hay límites fundamentales sobre cuánto paralelismo podemos lograr. Considere este ejemplo: "Elija una ciudad uniformemente al azar de las siguientes cuatro ciudades: Nueva York, Nueva Orleans, Ciudad de México o Ciudad de Panamá". Entonces P(Y₁ = Nuevo, Y₂ = York) = 1/4, P(Y₁ = Nuevo, Y₂ = Orleans) = 1/4, y así sucesivamente. Por lo tanto, P(Y₁ = Nuevo) = 1/2, P(Y₂ = Ciudad) = 1/2. Si elige generar Y₁ e Y₂ en paralelo, sin importar qué algoritmo de decodificación use ... Estás condenado a probar "New City". Ninguno de los DLLM actuales puede generar estas dos palabras correctamente sin renunciar al paralelismo. ----- ¿Por qué es así? De hecho, nunca entrenamos a los LLM para que aprendan la distribución conjunta en múltiples tokens en una iteración hacia adelante. Siempre enseñamos una distribución marginal de un solo token condicionada por el contexto. (Lo mismo ocurre con los modelos autorregresivos). Por lo tanto, el muestreo de varios tokens a la vez solo es posible cuando esos tokens son mutuamente independientes dado el contexto actual. Y esta limitación del muestreo paralelo se puede formalizar con precisión. Se puede derivar un límite teórico de la información que es independiente de la estrategia de decodificación, y también derivar límites específicos de la estrategia. ----- Entonces, ¿están condenados los DLLM? ¡No! Tienen un enorme potencial para ahorrar computación y tiempo. Pero: (1) debemos ser conscientes de sus limitaciones fundamentales, y (2) necesitamos diseñar mejores estrategias de entrenamiento y decodificación. En particular, hay un gran margen de mejora en la decodificación. ¿Por qué? Idealmente, queremos que el modelo controle el grado de paralelismo durante la generación. Al mismo tiempo, debe elegir un subconjunto de tokens futuros que sean casi independientes entre sí dado el contexto actual. ¿Son buenas las estrategias de decodificación actuales en esto? Difícil de decir. La mayoría de los DLLM nunca fueron sometidos a pruebas de estrés. ----- Es por eso que introdujimos un punto de referencia sintético para realizar pruebas de estrés DLLM. Lo llamamos ParallelBench. La idea es simple: estas son tareas de lenguaje natural, pero cuidadosamente diseñadas para que la generación paralela sea intrínsecamente difícil. (Piense en "Ciudad Nueva", pero tareas más naturales y reales). ¿Qué se encontró? Probamos DLLM populares con varios algoritmos de decodificación, y ninguno se acercó al rendimiento de "oráculo", el rendimiento ideal que obtendría si el modelo pudiera ajustar de manera óptima su paralelismo durante la decodificación. ----- Llevar: (1) La generación paralela no siempre es posible y consulte nuestro documento para obtener más detalles :) (2) Si puede diseñar un DLLM que coincida con el rendimiento de Oracle en nuestro punto de referencia, bueno, quién sabe, es posible que reciba una llamada de alguien en Menlo Park. 😉

Populares

Ranking

Favoritas