Гарний короткий пост, який ілюструє, наскільки простим може бути текстовий (дискретний) дифузія. Дифузія (тобто паралельне, повторюване знешумлення, зверху) є поширеною генеративною парадигмою в зображенні/відео, але авторегресія (тобто перехід зліва направо вниз) є домінуючою парадигмою в тексті. Що стосується аудіо, я бачив потроху і те, і інше. Багато дифузійних паперів виглядають трохи щільними, але якщо ви відкинете математичний формалізм, ви отримаєте прості базові алгоритми, наприклад, щось набагато ближче до узгодження потоку в безперервному, або щось подібне до цього в дискретному. Це ваш ванільний трансформатор, але з двосторонньою увагою, де ви ітеративно повторно відбираєте та маскуєте всі токени у вашому «полотні токенів» на основі шумового графіка, доки не отримаєте остаточний зразок на останньому кроці. (Двонаправлена увага набагато потужніша, і ви отримуєте набагато сильніші авторегресійні мовні моделі, якщо тренуєтеся з нею, на жаль, це робить навчання набагато дорожчим, тому що тепер ви не можете розпаралелювати послідовності тьмяними). Таким чином, авторегресія виконує '.append(token)' до полотна токенів, при цьому спостерігаючи лише у зворотному напрямку, тоді як дифузія оновлює все полотно токена '.setitem(idx, token)' при двонаправленому відвідуванні. Людське мислення наївно більше схоже на авторегресію, але важко сказати, що в якомусь латентному просторі думки немає більше дифузійних компонентів. Цілком можливо, що ви можете ще більше інтерполювати між ними, або узагальнити їх далі. І це компонент стека LLM, який все ще здається трохи взаємозамінним. Тепер я повинен чинити опір спокусі піти на другий план у тренувальний наночат з дифузією.