Ще одне цікаве спостереження виконання SGD при втраті x-ентропії на вашому текстовому корпусі еквівалентна REINFORCE, тобто градієнт політики за політикою, з двійковою винагородою «Чи згенерувала моя модель текст з корпусу»
Dimitris Papailiopoulos
Dimitris Papailiopoulos12 серп., 00:20
Чому крос-ентропія є хорошою втратою для переднавчання мови? Застереження: це все відомо до речі; Цікаво, що, незважаючи на те, що існує багато точок зору та інтуїції на питання «чому X-ENT», до всіх них можна прийти з єдиної відправної точки. Ось просте виведення перших принципів, яке нічого не припускає про розподіл даних. Це випливає з дуже розумних експлуатаційних вимог :) «Я хочу, щоб моя модель звучала розумно» Але ми не можемо це виміряти, тому запитуємо «Я хочу, щоб моя модель звучала як людина» Хоча у нас є доступ до всіх коли-небудь написаних текстів, ми також не можемо точно виміряти це, тому замість цього ми запитуємо «Я хочу, щоб моя модель з якомога більшою ймовірністю згенерувала один з коли-небудь написаних текстів» Або простіше кажучи: «Я хочу, щоб моя модель запам'ятовувала дані тренувань». Розглянемо такий уявний експеримент: Маючи набір даних S всього тексту, коли-небудь написаного людьми, ми проводимо незалежні випробування для кожного «тексту» в S: Приклад: "зразок тексту" з нашої моделі Pr( ; W) Перевірте: чи точно "зразок тексту" збігався з оригіналом? Примітка: ми ні за що не зобов'язані! Ми просто запитуємо, з усього, що може генерувати модель, чи отримали ми «текст». Визначте успіх як подію E = "усі перевірки для вибірки успішні" Імовірність E є добутком ймовірностей, присвоєних правильній правді підстави вашою моделлю W Pr(E) = Π_{текст у S} Pr(текст; W) Максимізація log Pr(E) над W дає ціль перехресної ентропії. Як ви оптимізуєте це за допомогою SGD? Приклад тексту з корпусу обчислити журнал граду Pr(токен|префікс) для кожного префікса тексту Оновити модель Що елегантно, так це те, що одночасно: 1) Мінімізує довжину опису даних за моделлю P( ; W) (вигляд стиснення) 2) Мінімізує розбіжність KL до істинного розподілу - якщо такий існує (хоча ми ніколи не припускали такого) 3) Реалізує оцінку максимальної правдоподібності Виведення просте і добре відоме, але воно підкреслює дещо важливе: Перехресна ентропія виникає природним чином з бажання точного відтворення тренувальних даних. P.S. ви могли б замість цього попросити максимізувати Pr(текст, згенерований моделлю, є базовою правдою) Цікаво, що оптимізація цього може призвести до згортання режиму, оскільки оптимальним рішенням є завжди передбачати один фрагмент тексту з корпусу. Проте градієнти знову виглядають як х-ентропія, але з множником, що множиться тобто, Пр(текст; В) градусний журнал Пр(текст; W)
63,46K