Mengapa cross-entropy merupakan kerugian yang baik untuk prapelatihan bahasa? Peringatan: Ini semua diketahui btw; Menariknya, meskipun ada banyak sudut pandang dan intuisi tentang "mengapa X-ent", semuanya dapat dicapai dari satu titik awal. Berikut adalah derivasi prinsip pertama sederhana yang tidak mengasumsikan apa pun tentang distribusi data. Itu berasal dari persyaratan operasional yang sangat masuk akal :) "Saya ingin model saya terdengar cerdas" tetapi kami tidak dapat mengukurnya, jadi kami bertanya "Saya ingin model saya terdengar seperti manusia" Meskipun kami memiliki akses ke semua teks yang pernah ditulis, kami juga tidak dapat mengukurnya, jadi kami malah bertanya "Saya ingin model saya semungkin mungkin menghasilkan salah satu teks yang pernah ditulis" Atau lebih blak-blakan: "Saya ingin model saya menghafal data pelatihan." Pertimbangkan eksperimen pemikiran ini: Mengingat kumpulan data S dari semua teks yang pernah ditulis oleh manusia, kami melakukan uji coba independen untuk setiap "teks" di S: Sampel: "teks sampel" dari model kami Pr( ; W) Periksa: apakah "teks sampel" persis cocok dengan aslinya? Catatan: kami tidak mengkondisikan apa pun! Kami hanya bertanya, dari semua hal yang dapat dihasilkan oleh model, apakah kami mendapatkan "teks". Definisikan kesuksesan sebagai acara E = "semua pemeriksaan per sampel berhasil" Probabilitas E adalah, produk dari probabilitas yang ditetapkan ke kebenaran dasar yang benar oleh model Anda W pr(e) = π_{teks dalam s} pr(teks; W) Memaksimalkan log Pr(E) di atas W memberi Anda tujuan cross-entropy. Bagaimana Anda mengoptimalkan ini dengan SGD? Contoh teks dari korpus compute grad log Pr(token|prefix) untuk setiap awalan teks Perbarui Model Yang elegan adalah hal yang sama secara bersamaan: 1) Meminimalkan panjang deskripsi data di bawah model P( ; W) (tampilan kompresi) 2) Meminimalkan divergensi KL ke distribusi yang sebenarnya—jika ada (meskipun kita tidak pernah mengasumsikannya) 3) Menerapkan estimasi kemungkinan maksimum Derivasinya langsung dan terkenal, tetapi menyoroti sesuatu yang penting: Cross-entropy muncul secara alami dari menginginkan reproduksi data pelatihan yang tepat. P.S. Anda bisa meminta untuk memaksimalkan Pr(teks yang dihasilkan oleh model berada dalam kebenaran dasar) Menariknya, mengoptimalkan ini dapat menyebabkan keruntuhan mode, karena solusi optimal adalah selalu memprediksi satu teks dari korpus. Namun gradien sekali lagi terlihat seperti x-entropi tetapi dengan faktor pengganda yaitu, Pr(teks; W) log lulus Pr(teks; W)
57,78K