BERT n'est qu'une étape de diffusion de texte unique ! (1/n) Lorsque j'ai d'abord lu sur les modèles de diffusion de langage, j'ai été surpris de découvrir que leur objectif d'entraînement n'était qu'une généralisation du masquage de langage (MLM), quelque chose que nous faisons depuis BERT en 2018. La première pensée que j'ai eue a été : « pouvons-nous affiner un modèle similaire à BERT pour faire de la génération de texte ? »