Por que a entropia cruzada é uma boa perda para o pré-treinamento de linguagem? Advertência: tudo isso é conhecido; Curiosamente, embora existam muitos pontos de vista e intuições sobre "por que X-ent", todos eles podem ser alcançados a partir de um único ponto de partida. Aqui está uma derivação simples dos primeiros princípios que não pressupõe nada sobre a distribuição de dados. Vem de um requisito operacional muito razoável :) "Quero que meu modelo soe inteligente" mas não podemos medir isso, então perguntamos "Quero que meu modelo soe como um humano" Embora tenhamos acesso a todos os textos já escritos, também não podemos medir isso, então, em vez disso, perguntamos "Quero que meu modelo seja o mais provável possível de gerar um dos textos já escritos" Ou mais francamente: "Quero que meu modelo memorize os dados de treinamento." Considere este experimento mental: Dado um conjunto de dados S de todo o texto já escrito por humanos, realizamos testes independentes para cada "texto" em S: Amostra: "texto de amostra" do nosso modelo Pr( ; W) Verifica: o "texto de amostra" correspondeu exatamente ao original? Nota: não condicionamos nada! nós apenas perguntamos, de todas as coisas que o modelo poderia gerar, recebemos "texto". Defina o sucesso como o evento E = "todas as verificações por amostra foram bem-sucedidas" A probabilidade de E é o produto das probabilidades atribuídas à verdade fundamental correta pelo seu modelo W Pr(E) = Π_{texto em S} Pr(texto; W)...