No quarto artigo sobre a implementação de vLLMs do zero, voltamos nossa atenção para outro componente aparentemente simples, mas crucial, da arquitetura do Transformer: RMSNorm (Root Mean Square Normalization). Vamos primeiro dar uma olhada no que é normalização, digamos que você acabou de terminar o exame final e os resultados dos três cursos saem: Matemática: 120 de 150 Inglês: 80 de 100 Física: 160 de 200 Qual é o melhor curso? Se você comparar 120, 80, 160 diretamente, chegará à melhor conclusão da física. Mas a situação real é que os três pratos são igualmente bons. Matemática: 120/150 = 80% Inglês: 80/100 = 80% Físico: 160/200 = 80% Esta é a ideia central da normalização: converter dados de diferentes dimensões e diferentes intervalos em um padrão unificado para comparação. Por que as redes neurais precisam ser normalizadas? Imagine que você está jogando um jogo de mensagens. A primeira pessoa disse "Eu gosto de maçãs", e quando passou para a décima pessoa, tornou-se "Eu gosto de abacaxi". Este é o problema enfrentado pelas redes neurais profundas. Cada camada da rede faz alguns cálculos na entrada e depois passa os resultados para a próxima camada. O problema é que, à medida que o número de camadas aumenta, esses valores se tornam cada vez mais incontroláveis - explodindo ou desaparecendo sem deixar vestígios. Como um jogo de mensagens, as informações são gradualmente distorcidas durante a transmissão. Adicionar uma camada de normalização ao modelo pode reduzir a probabilidade de explosão ou desaparecimento do gradiente, e o processo de treinamento do modelo se torna mais estável. A tecnologia de normalização evoluiu de BatchNorm para LayerNorm e, finalmente, para RMSNorm, tornando-se a configuração padrão para modelos grandes. Meu artigo irá levá-lo à história da evolução da tecnologia de normalização, se você estiver interessado, pode conferir o artigo original.