BERT is gewoon een enkele tekstdiffusiestap! (1/n) Toen ik voor het eerst las over taaldiffusiemodellen, was ik verrast te ontdekken dat hun trainingsdoel gewoon een generalisatie was van gemaskeerd taalmodelleren (MLM), iets wat we sinds BERT in 2018 doen. De eerste gedachte die ik had was: "kunnen we een BERT-achtig model finetunen om tekstgeneratie te doen?"