DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Kangwook Lee

UW Madison / KRAFTON AI

O LLM como juiz tornou-se uma forma dominante de avaliar a qualidade de um modelo para resolver uma tarefa, já que funciona sem um conjunto de testes e lida com casos em que as respostas não são únicas. Mas, apesar de essa ampla utilização, quase todos os resultados relatados são altamente tendenciosos. Animado para compartilhar nosso preprint sobre como usar corretamente o LLM como juiz. 🧵 === Então, como as pessoas realmente usam o LLM como juiz? A maioria das pessoas apenas usa o LLM como avaliador e relata a probabilidade empírica de que o LLM diga que a resposta parece correta. Quando o LLM está perfeito, isso funciona bem e fornece um estimador imparcial. Se o LLM não for perfeito, isso quebra. Considere um caso em que o LLM avalia corretamente 80% das vezes. Mais especificamente, se a resposta estiver correta, o LLM diz "isso parece correto" com 80% de probabilidade, e os mesmos 80% se aplicam quando a resposta está realmente errada. Nessa situação, você não deve reportar a probabilidade empírica, pois ela é tendenciosa. Por que? Seja a probabilidade real de o modelo testado estar correto como p. Então a probabilidade empírica de que o LLM diga "correto" (= q) é q = 0,8p + 0,2(1 - p) = 0,2 + 0,6p Portanto, a estimativa imparcial deveria ser (q - 0.2) / 0.6 As coisas ficam ainda mais interessantes se o padrão de erro for assimétrico ou se você não conhece essas taxas de erro a priori. === Então, o que isso significa? Primeiro, siga a diretriz sugerida em nosso preprint. Não há almoço grátis. Você não pode avaliar a qualidade do seu modelo a menos que seu LLM, como juiz, seja conhecido por ser perfeito em avaliá-lo. Dependendo de quão próximo ele está de um avaliador perfeito, você precisa de um conjunto de teste de tamanho suficiente (= conjunto de calibração) para estimar as taxas de erro do avaliador, e então deve corrigi-las. Segundo, muito infelizmente, muitas descobertas que vimos em artigos nos últimos anos precisam ser revisadas. A menos que dois jornais tenham usado exatamente o mesmo LLM que um juiz, comparar resultados entre eles poderia ter produzido alegações falsas. A melhoria pode simplesmente vir de uma leve alteração no pipeline de avaliação. Um metaestudo rigoroso é urgentemente necessário. === Resumo: (1) Quase todas as avaliações do LLM como juiz nos últimos anos foram reportadas com um estimador tendencioso. (2) É fácil de corrigir, então aguarde nosso preprint completo. (3) Muitos resultados de LLM como juiz devem ser encarados com cautela. O pré-print completo chegará em alguns dias, então fiquem ligados! Trabalho incrível dos meus alunos e colaboradores. @chungpa_lee @tomzeng200 @jongwonjeong123 e @jysohn1108

DLLMs parecem promissores ... mas a geração paralela nem sempre é possível Os LLMs baseados em difusão podem gerar muitos tokens em diferentes posições ao mesmo tempo, enquanto a maioria dos LLMs autorregressivos gera tokens um por um. Isso torna os LLMs baseados em difusão altamente atraentes quando precisamos de geração rápida com menos computação. Uma grande questão é ... A geração paralela é possível sem perder a precisão da modelagem? A resposta é não. Existem limites fundamentais sobre quanto paralelismo podemos alcançar. Considere este exemplo: "Escolha uma cidade uniformemente aleatoriamente entre as quatro cidades a seguir: Nova York, Nova Orleans, Cidade do México ou Cidade do Panamá. Então P(Y₁ = Novo, Y₂ = York) = 1/4, P(Y₁ = Novo, Y₂ = Orleans) = 1/4 e assim por diante. Assim, P(Y₁ = Novo) = 1/2, P(Y₂ = Cidade) = 1/2. Se você optar por gerar Y₁ e Y₂ em paralelo, não importa qual algoritmo de decodificação você use ... Você está condenado a experimentar "New City". Nenhum dos DLLMs de hoje pode gerar essas duas palavras corretamente sem abrir mão do paralelismo. ----- Por que esse é o caso? Na verdade, nunca treinamos LLMs para aprender a distribuição conjunta em vários tokens em uma iteração direta. Sempre ensinamos uma distribuição marginal de token único condicionada ao contexto. (O mesmo vale para modelos autorregressivos também.) Portanto, a amostragem de vários tokens de uma só vez só é possível quando esses tokens são mutuamente independentes, dado o contexto atual. E essa limitação da amostragem paralela pode ser formalizada com precisão. Pode-se derivar um limite teórico da informação que seja agnóstico em relação à estratégia de decodificação e também derivar limites específicos da estratégia. ----- Então, os DLLMs estão condenados? Não! Eles têm um enorme potencial para economizar computação e tempo. Mas: (1) precisamos estar cientes de suas limitações fundamentais, e (2) precisamos projetar melhores estratégias de treinamento e decodificação. Em particular, há um enorme espaço para melhorias na decodificação. Por que? Idealmente, queremos que o modelo controle o grau de paralelismo durante a geração. Ao mesmo tempo, ele deve escolher um subconjunto de tokens futuros que sejam quase mutuamente independentes, dado o contexto atual. As estratégias de decodificação atuais são boas nisso? Difícil dizer. A maioria dos DLLMs nunca foi testada para isso. ----- É por isso que introduzimos um benchmark sintético para testar o estresse de DLLMs. Nós o chamamos de ParallelBench. A ideia é simples: essas são tarefas de linguagem natural, mas cuidadosamente projetadas para que a geração paralela seja inerentemente difícil. (Pense em "Cidade Nova", mas tarefas mais naturais e reais.) O que encontramos? Testamos DLLMs populares com vários algoritmos de decodificação, e nenhum chegou perto do desempenho "oracle", o desempenho ideal que você obteria se o modelo pudesse ajustar seu paralelismo de maneira ideal durante a decodificação. ----- Takeaway: (1) A geração paralela nem sempre é possível e confira nosso artigo para obter mais detalhes :) (2) Se você puder projetar um DLLM que corresponda ao desempenho do oráculo em nosso benchmark, bem, quem sabe, você pode receber uma ligação de alguém em Menlo Park. 😉

Melhores

Classificação

Favoritos