Відомий подкаст-блогер Дваркеш Патель нещодавно дав інтерв'ю AK, і ось як він його описав: Для мене найцікавішим було те, що Андрій Карпатий (експерт зі штучного інтелекту, якого часто називають «Кашен»), пояснював, чому великі мовні моделі (LLM) не можуть навчатися як люди. Звичайно, Кашен вигадав особливо яскраве слово для опису навчання з підкріпленням (RL): «Поглинати контрольовані дані соломинкою». Що це означає? Іншими словами, в успішній спробі (наприклад, при виграші штучного інтелекту в партії в шахи) остаточна винагорода за «перемогу» буде рівномірно розподілена на кожен крок, який він зробить, і кожне слово, яке він генерує. Навіть якщо деякі кроки посередині неправильні або неактуальні, якщо кінцевий результат правильний, всі ці кроки будуть «додані» алгоритмом. > «Я вже говорив, що люди не використовують навчання з підкріпленням. Я думаю, що люди вчаться зовсім по-іншому. Навчання з підкріпленням набагато гірше, ніж думає середньостатистична людина. Інтенсивне навчання – це відстій. Просто інші алгоритми, які у нас були раніше, були набагато гіршими за нього. ” Отже, як вчаться люди? > "Я прочитав книгу, яка для мене є набором "підказок", які змусять мене "генерувати синтетичні дані" в моїй голові. З цією інформацією потрібно працювати проактивно, щоб дійсно отримати знання. Однак великі мовні моделі (LLM) не мають відповідного механізму; Вони дійсно так не роблять. ” > «Я б хотів бачити посилання на етапі підготовки моделі, де модель може «обміркувати» те, що вона читає, і спробувати «зіставити» це з тим, що вона вже знає. Зараз такого механізму взагалі немає. Це все ще на стадії дослідження. ” Так чому ж ми не можемо додати цей вид тренування «мислення» до великих мовних моделей зараз? > "На це є дуже тонкі, незрозумілі причини, що робить його не таким простим. Якщо я прошу модель «подумати» про книгу і згенерувати якісь синтетичні дані, на перший погляд ви думаєте: «Це виглядає чудово!». Чому не можна використовувати його для тренувань? Ви можете спробувати, але якщо ви продовжите це робити, модель насправді працюватиме гірше. ” > «Скажімо, ми беремо розділ книги, і я прошу велику мовну модель «думати». Це дасть вам абзац, який виглядає дуже розумно. Але якщо я попрошу його відповісти 10 разів, ви побачите, що відповіді майже ідентичні в цих 10 разах. ” > «Ви не отримаєте багатства, різноманітності та «ентропії» людського мислення від цих моделей (у цьому випадку хаосу та креативності мислення). Ви не можете отримати всякі дикі ідеї, як людина. Отже, як синтетичні дані можуть працювати та підтримувати цю «ентропію», коли модель має тенденцію до «колапсу» (це означає, що відповідь стає єдиною та не має різноманітності)? Це поки що дослідницька проблема. ” Отже, як людям уникнути цього «колапсу мислення»? > Ідея (аналогії між людьми і моделями) напрочуд хороша. У своєму власному житті людські істоти фактично «зазнають краху». Діти ще не «переодягнулися» (маються на увазі ригідне мислення і лише адаптація до певних моделей). Вони скажуть щось, що вас шокує. Все тому, що вони ще не "розвалилися". Але ми, дорослі, «завалилися». В кінцевому підсумку ми думаємо про одне і те ж знову і знову, те, що ми говоримо, стає все більш конвергентним, швидкість нашого навчання знижується, «колапс» стає все гірше і гірше, і, нарешті, все деградує. ” Насправді, цікава стаття («Переобладнаний мозок» Еріка Хоела) припускає, що еволюція людської функції сновидінь полягає в тому, щоб допомогти нам покращити наше «узагальнення» (здатність робити висновки) і протистояти «перевантаженню», спричиненому щоденним навчанням. ...