🚀Animado para compartilhar nosso novo trabalho! 💊Problema: A precisão do BF16 causa uma grande incompatibilidade de treinamento e inferência, levando a um treinamento instável de RL. 💡Solução: Basta mudar para FP16. 🎯É isso. 📰Papel: ⭐️Código: