Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ще одне цікаве спостереження
виконання SGD при втраті x-ентропії на вашому текстовому корпусі
еквівалентна
REINFORCE, тобто градієнт політики за політикою, з двійковою винагородою «Чи згенерувала моя модель текст з корпусу»

12 серп., 00:20
Чому крос-ентропія є хорошою втратою для переднавчання мови?
Застереження: це все відомо до речі; Цікаво, що, незважаючи на те, що існує багато точок зору та інтуїції на питання «чому X-ENT», до всіх них можна прийти з єдиної відправної точки.
Ось просте виведення перших принципів, яке нічого не припускає про розподіл даних. Це випливає з дуже розумних експлуатаційних вимог :)
«Я хочу, щоб моя модель звучала розумно»
Але ми не можемо це виміряти, тому запитуємо
«Я хочу, щоб моя модель звучала як людина»
Хоча у нас є доступ до всіх коли-небудь написаних текстів, ми також не можемо точно виміряти це, тому замість цього ми запитуємо
«Я хочу, щоб моя модель з якомога більшою ймовірністю згенерувала один з коли-небудь написаних текстів»
Або простіше кажучи:
«Я хочу, щоб моя модель запам'ятовувала дані тренувань».
Розглянемо такий уявний експеримент:
Маючи набір даних S всього тексту, коли-небудь написаного людьми, ми проводимо незалежні випробування для кожного «тексту» в S:
Приклад: "зразок тексту" з нашої моделі Pr( ; W)
Перевірте: чи точно "зразок тексту" збігався з оригіналом? Примітка: ми ні за що не зобов'язані! Ми просто запитуємо, з усього, що може генерувати модель, чи отримали ми «текст».
Визначте успіх як подію
E = "усі перевірки для вибірки успішні"
Імовірність E є добутком ймовірностей, присвоєних правильній правді підстави вашою моделлю W
Pr(E) = Π_{текст у S} Pr(текст; W)
Максимізація log Pr(E) над W дає ціль перехресної ентропії.
Як ви оптимізуєте це за допомогою SGD?
Приклад тексту з корпусу
обчислити журнал граду Pr(токен|префікс) для кожного префікса тексту
Оновити модель
Що елегантно, так це те, що одночасно:
1) Мінімізує довжину опису даних за моделлю P( ; W) (вигляд стиснення)
2) Мінімізує розбіжність KL до істинного розподілу - якщо такий існує (хоча ми ніколи не припускали такого)
3) Реалізує оцінку максимальної правдоподібності
Виведення просте і добре відоме, але воно підкреслює дещо важливе:
Перехресна ентропія виникає природним чином з бажання точного відтворення тренувальних даних.
P.S. ви могли б замість цього попросити максимізувати
Pr(текст, згенерований моделлю, є базовою правдою)
Цікаво, що оптимізація цього може призвести до згортання режиму, оскільки оптимальним рішенням є завжди передбачати один фрагмент тексту з корпусу. Проте градієнти знову виглядають як х-ентропія, але з множником, що множиться
тобто, Пр(текст; В) градусний журнал Пр(текст; W)
63,46K
Найкращі
Рейтинг
Вибране