BERT to tylko jeden krok dyfuzji tekstu! (1/n) Kiedy po raz pierwszy przeczytałem o modelach dyfuzji języka, byłem zaskoczony, że ich cel treningowy to po prostu uogólnienie modelowania języka z maskowaniem (MLM), coś, co robimy od czasów BERT-a z 2018 roku. Pierwsza myśl, która przyszła mi do głowy, to: "czy możemy dostosować model podobny do BERT-a do generowania tekstu?"