Pesquisadores de Stanford desenvolveram uma nova técnica de prompting! Ao adicionar ~20 palavras a um prompt, isso: - aumenta a criatividade do LLM em 1,6-2x - eleva a diversidade avaliada por humanos em 25,7% - supera um modelo ajustado sem qualquer re-treinamento - restaura 66,8% da criatividade perdida do LLM após o alinhamento Métodos de alinhamento pós-treinamento, como RLHF, são projetados para tornar os LLMs úteis e seguros. No entanto, esses métodos causam involuntariamente uma queda significativa na diversidade de saída (chamada de colapso de modo). Quando um LLM colapsa para um modo, ele começa a favorecer um conjunto restrito de respostas previsíveis ou estereotipadas em detrimento de outras saídas. Isso acontece porque os dados de preferência humana usados para treinar o LLM têm uma falha oculta chamada viés de tipicidade. Veja como isso acontece: - Os anotadores avaliam diferentes respostas de um LLM e, posteriormente, o LLM é treinado usando um modelo de recompensa para imitar essas preferências humanas. - No entanto, os anotadores tendem naturalmente a favorecer respostas que são mais familiares, fáceis de ler e previsíveis. Esse é o viés de tipicidade. Portanto, mesmo que uma nova resposta criativa seja tão boa quanto, a preferência humana muitas vezes se inclina para a resposta comum. Devido a isso, o modelo de recompensa aumenta as respostas que o modelo original (pré-alinhado) já considerava prováveis. Isso afia agressivamente a distribuição de probabilidade do LLM, colapsando a saída criativa do modelo em uma ou duas respostas dominantes e altamente previsíveis. Dito isso, não é um efeito irreversível, e o LLM ainda possui duas personalidades após o alinhamento: - O modelo original que aprendeu as ricas possibilidades durante o pré-treinamento. - O modelo focado em segurança, pós-alinhado....