BERT è solo un singolo passo di diffusione del testo! (1/n) Quando ho letto per la prima volta dei modelli di diffusione del linguaggio, sono rimasto sorpreso di scoprire che il loro obiettivo di addestramento era solo una generalizzazione del masked language modeling (MLM), qualcosa che facciamo dal 2018 con BERT. Il primo pensiero che ho avuto è stato: "possiamo affinare un modello simile a BERT per generare testo?"