Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pesquisadores de Stanford desenvolveram uma nova técnica de prompting!
Ao adicionar ~20 palavras a um prompt, isso:
- aumenta a criatividade do LLM em 1,6-2x
- eleva a diversidade avaliada por humanos em 25,7%
- supera um modelo ajustado sem qualquer re-treinamento
- restaura 66,8% da criatividade perdida do LLM após o alinhamento
Métodos de alinhamento pós-treinamento, como RLHF, são projetados para tornar os LLMs úteis e seguros.
No entanto, esses métodos causam involuntariamente uma queda significativa na diversidade de saída (chamada de colapso de modo).
Quando um LLM colapsa para um modo, ele começa a favorecer um conjunto restrito de respostas previsíveis ou estereotipadas em detrimento de outras saídas.
Isso acontece porque os dados de preferência humana usados para treinar o LLM têm uma falha oculta chamada viés de tipicidade.
Veja como isso acontece:
- Os anotadores avaliam diferentes respostas de um LLM e, posteriormente, o LLM é treinado usando um modelo de recompensa para imitar essas preferências humanas.
- No entanto, os anotadores tendem naturalmente a favorecer respostas que são mais familiares, fáceis de ler e previsíveis. Esse é o viés de tipicidade.
Portanto, mesmo que uma nova resposta criativa seja tão boa quanto, a preferência humana muitas vezes se inclina para a resposta comum.
Devido a isso, o modelo de recompensa aumenta as respostas que o modelo original (pré-alinhado) já considerava prováveis.
Isso afia agressivamente a distribuição de probabilidade do LLM, colapsando a saída criativa do modelo em uma ou duas respostas dominantes e altamente previsíveis.
Dito isso, não é um efeito irreversível, e o LLM ainda possui duas personalidades após o alinhamento:
- O modelo original que aprendeu as ricas possibilidades durante o pré-treinamento.
- O modelo focado em segurança, pós-alinhado....

Top
Classificação
Favoritos

