Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pesquisadores de Stanford criaram uma nova técnica de prompting!
Ao adicionar ~20 palavras a um prompt, ele:
- aumenta a criatividade do LLM em 1,6-2x
- aumenta a diversidade avaliada por humanos em 25,7%
- supera modelos ajustados sem qualquer retreinamento
- restaura 66,8% da criatividade perdida dos LLMs após o alinhamento
Métodos de alinhamento pós-treinamento, como o RLHF, são projetados para tornar os LLMs úteis e seguros.
No entanto, esses métodos causam involuntariamente uma queda significativa na diversidade de saída (chamada colapso de modo).
Quando um LLM colapsa para um modo, ele começa a favorecer um conjunto restrito de respostas previsíveis ou estereotipadas em relação a outras saídas.
Isso acontece porque os dados de preferência humana usados para treinar o LLM têm uma falha oculta chamada viés de tipicidade.
Veja como isso acontece:
- Os anotadores avaliam respostas diferentes de um LLM e, posteriormente, o LLM é treinado usando um modelo de recompensa para imitar essas preferências humanas.
- No entanto, anotadores tendem naturalmente a preferir respostas mais familiares, de fácil leitura e previsíveis. Esse é o viés típico.
Então, mesmo que uma resposta nova e criativa seja igualmente boa, a preferência do humano muitas vezes tende para a mais comum.
Por causa disso, o modelo de recompensa aumenta as respostas que o modelo original (pré-alinhado) já considerava prováveis.
Isso afina agressivamente a distribuição de probabilidade do LLM, colapsando a produção criativa do modelo para uma ou duas respostas dominantes e altamente previsíveis.
Dito isso, não é um efeito irreversível, e o LLM ainda tem duas personalidades após o alinhamento:
- O modelo original que aprendeu as grandes possibilidades durante o pré-treinamento.
- O modelo focado em segurança e alinhado no post....

Melhores
Classificação
Favoritos

