Pesquisadores de Stanford criaram uma nova técnica de prompting! Ao adicionar ~20 palavras a um prompt, ele: - aumenta a criatividade do LLM em 1,6-2x - aumenta a diversidade avaliada por humanos em 25,7% - supera modelos ajustados sem qualquer retreinamento - restaura 66,8% da criatividade perdida dos LLMs após o alinhamento Métodos de alinhamento pós-treinamento, como o RLHF, são projetados para tornar os LLMs úteis e seguros. No entanto, esses métodos causam involuntariamente uma queda significativa na diversidade de saída (chamada colapso de modo). Quando um LLM colapsa para um modo, ele começa a favorecer um conjunto restrito de respostas previsíveis ou estereotipadas em relação a outras saídas. Isso acontece porque os dados de preferência humana usados para treinar o LLM têm uma falha oculta chamada viés de tipicidade. Veja como isso acontece: - Os anotadores avaliam respostas diferentes de um LLM e, posteriormente, o LLM é treinado usando um modelo de recompensa para imitar essas preferências humanas. - No entanto, anotadores tendem naturalmente a preferir respostas mais familiares, de fácil leitura e previsíveis. Esse é o viés típico. Então, mesmo que uma resposta nova e criativa seja igualmente boa, a preferência do humano muitas vezes tende para a mais comum. Por causa disso, o modelo de recompensa aumenta as respostas que o modelo original (pré-alinhado) já considerava prováveis. Isso afina agressivamente a distribuição de probabilidade do LLM, colapsando a produção criativa do modelo para uma ou duas respostas dominantes e altamente previsíveis. Dito isso, não é um efeito irreversível, e o LLM ainda tem duas personalidades após o alinhamento: - O modelo original que aprendeu as grandes possibilidades durante o pré-treinamento. - O modelo focado em segurança e alinhado no post....