Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por que a entropia cruzada é uma boa perda para o pré-treinamento de linguagem?
Advertência: tudo isso é conhecido; Curiosamente, embora existam muitos pontos de vista e intuições sobre "por que X-ent", todos eles podem ser alcançados a partir de um único ponto de partida.
Aqui está uma derivação simples dos primeiros princípios que não pressupõe nada sobre a distribuição de dados. Vem de um requisito operacional muito razoável :)
"Quero que meu modelo soe inteligente"
mas não podemos medir isso, então perguntamos
"Quero que meu modelo soe como um humano"
Embora tenhamos acesso a todos os textos já escritos, também não podemos medir isso, então, em vez disso, perguntamos
"Quero que meu modelo seja o mais provável possível de gerar um dos textos já escritos"
Ou mais francamente:
"Quero que meu modelo memorize os dados de treinamento."
Considere este experimento mental:
Dado um conjunto de dados S de todo o texto já escrito por humanos, realizamos testes independentes para cada "texto" em S:
Amostra: "texto de amostra" do nosso modelo Pr( ; W)
Verifica: o "texto de amostra" correspondeu exatamente ao original? Nota: não condicionamos nada! nós apenas perguntamos, de todas as coisas que o modelo poderia gerar, recebemos "texto".
Defina o sucesso como o evento
E = "todas as verificações por amostra foram bem-sucedidas"
A probabilidade de E é o produto das probabilidades atribuídas à verdade fundamental correta pelo seu modelo W
Pr(E) = Π_{texto em S} Pr(texto; W)...
Melhores
Classificação
Favoritos