Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

AI进化论-花生

Андрій Карпати запропонував радикальну ідею: всі входи LLM повинні бути зображеннями, включаючи звичайний текст. Що ти маєш на увазі? Традиційні великі мовні моделі: токенізатор тексту → → вивід LLM → Бачення Андрія: Текст → перетворюватися на зображення → вивід LLM → Навіть якщо ви хочете ввести звичайний текст, відобразіть його як зображення та передайте його моделі. Навіщо це робити? Він навів 4 причини: 1. Стиснення інформації стає більш ефективним Це саме те, що доводить DeepSeek-OCR. Для односторінкового документа традиційний метод може вимагати 2 000 текстових токенів, а токена vision — лише 64. Ступінь стиснення в 30 разів. Текстові токени марнотратні, токени зображень щільніші. 2. Більш універсальний Текстові токени можуть виражати лише слова. Але реальна інформація – це більше, ніж просто слова: - Жирний шрифт, курсив - Кольоровий текст - Таблиці, діаграми - Довільні зображення Все відображається як вхідні дані зображення, і модель може обробляти їх природним чином. 3. Ви можете використовувати двосторонню увагу Ось технічні подробиці. Традиційне перетворення тексту в текст є саморегресивним (зліва направо). Введення зображення може використовуватися з двосторонньою увагою, бачити глобальну інформацію, більш потужне. 4. Видаліть токенізатор (курсив!) ） Андрій ненавидить токенізаторів. Його скарга: - Токенізатор – це непривабливий, незалежний, ненаскрізний етап - Успадковує весь історичний багаж Юнікоду, байтове кодування - Існує ризик для безпеки (наприклад, атака байтів продовження) - Два персонажі, які виглядають однаково, можуть бути абсолютно різними в очах токенізатора - 😊 Цей емодзі – просто дивний токен у токенізаторі, а не справжня смайликова картинка Він хоче, щоб токенізатор зник. Яке його бачення - Вхідні дані: Усі зображення (навіть якщо вони спочатку були текстовими) - Виведення: Нерухомий текст (оскільки вихідні пікселі нереалістичні) OCR – це лише одне із завдань vision→text. Багато завдань з тексту→тексту можна перетворити на vision→text. Моє розуміння Точка зору Андрія радикальна, але в ній є сенс. З точки зору теорії інформації, зображення дійсно більш ефективні, ніж текст. DeepSeek-OCR доводить це: 64 токени vision можуть виразити повідомлення з 2 000 текстових токенів. Загалом, введення зображень, звичайно, підтримує різні формати (жирний, кольоровий, діаграма) і не вимагає проміжного шару токенізатора. Але проблема полягає в тому, що 1. Обчислювальні витрати: обробка токенів Vision дорожча, ніж текстових токенів. Хоча кількість токенів менша, кожен токен vision має більшу кількість обчислень. 2. Тренувальні дані: Більшість існуючих тренувальних даних є звичайним текстом. Перетворити їх усі на зображення дорого. 3. Проблеми з виведенням: Він також визнав, що пікселі на виході нереалістичні. Таким чином, це може бути лише поєднання введення зображення → виведення тексту. Але в довгостроковій перспективі цей напрямок може виявитися правильним. Зокрема, враховуючи, що: - Людський внесок за своєю суттю є мультимодальним (текст, зображення, відео) - У токенайзера дійсно багато проблем (безпека, Юнікод, історичний багаж) - Майбутній штучний інтелект повинен вміти розуміти пікселі безпосередньо, а не перетворювати все на токени DeepSeek-OCR може бути лише початком. Це доводить, що «контекстуальне оптичне стиснення» є можливим. Андрій бачить подальше майбутнє: світ без токенізатора, де всі вхідні дані — це зображення, а всі виходи — текст. Чи стане це реальністю? Я не знаю. Але принаймні цей напрямок варто вивчити.

Мені дуже подобається новий папір DeepSeek-OCR. Це хороша модель OCR (можливо, трохи гірша за точки), і так, збір даних тощо, але в будь-якому випадку це не має значення. Найцікавіша частина для мене (особливо як для комп'ютерного зору в душі, який тимчасово маскується під людину з природною мовою) полягає в тому, чи є пікселі кращими вхідними даними для LLM, ніж текст. Чи то текстові токени марнотратні і просто жахливі, на вході. Можливо, має сенс те, що всі вхідні дані для LLM повинні бути лише зображеннями. Навіть якщо у вас є чисте введення тексту, можливо, ви віддаєте перевагу його рендерингу, а потім вводити це: - більше стиснення інформації (див. статтю) => коротші контекстні вікна, більша ефективність - значно більше загального потоку інформації = > не просто текст, але, наприклад, жирний текст, кольоровий текст, довільні зображення. - Вхідні дані тепер можуть бути легко оброблені за допомогою двонаправленої уваги і, за замовчуванням, не авторегресивної уваги - набагато потужніше. - видалити токенізатор (на вході)!! Я вже бурчав про те, як сильно мені не подобається токенізатор. Токенізатори – це негарна, окрема, а не наскрізна стадія. Він "імпортує" всю потворність Юнікоду, байтові кодування, він успадковує багато історичного багажу, ризику безпеки/джейлбрейка (наприклад, байти продовження). Це змушує двох символів, які виглядають ідентично оку, виглядати як два абсолютно різні токени всередині мережі. Усміхнений смайлик виглядає як дивний жетон, а не... Справжнє усміхнене обличчя, пікселі та все інше, а також усе навчання передачі, яке приносить із собою. Токенізатор повинен піти. OCR – це лише одне з багатьох корисних завдань із зору > тексту. А текстові -> текстові завдання можна зробити візіонерськими ->текстовими завданнями. А не навпаки. Дуже багато повідомлень Користувача є зображеннями, але декодер (відповідь Асистента) залишається текстом. Набагато менш очевидно, як реалістично виводити пікселі... або якщо ви цього хочете. Тепер мені також доводиться боротися з бажанням знайти версію наночату лише з введенням зображень...

В епоху штучного інтелекту ніколи не недооцінюйте креативність людини. Багато речей, які ви не могли зробити кілька місяців тому, і спробувати знову зараз можуть бути зовсім іншими. Пів року тому я намагався розробити 3D-шутер на військову тематику з Cursor+Unity взагалі без використання Unity. Найбільшим вузьким місцем на той час були 3D-активи. Моделі броньованих машин, згенеровані різними 3D-інструментами штучного інтелекту, знайдені на ринку, по суті, є грудкою супу, який неможливо відокремити, а самостійно анімувати башту та гусениці та ефекти пошкоджень неможливо, і проект безпосередньо застрягає. Я думала, що він жовтий, поки не побачила @DeemosTech недавно Їхній новий Rodin Gen-2 має архітектуру під назвою BANG, що просто вражає, він розуміє, що модель складається з різних частин, і може розібрати будь-яку 3D-модель за розумною логікою, наприклад, бронетехніку, вертольоти, солдатів тощо у моєму відео. У цьому випадку я можу отримати незалежні турелі, колеса тощо, які можна безпосередньо використовувати для прив'язки анімації та налаштування параметрів, що в основному вирішує проблему, з якою я зіткнувся минулого разу. Я раптом зрозумів, що вже через пів року майже всі інструменти у всьому моєму процесі розробки ШІ були замінені: 1. Інструмент програмування штучного інтелекту було змінено з Cursor на Claude Code. 2. 2D матеріал був змінений з Midjourney на Nano Banana. 3. Еволюція 3D-активів є найбільш підривною, безпосередньо від іграшок до інструментів. Отже, не встановлюйте для себе обмежень, не встановлюйте ліміти на ШІ, вам просто потрібно чітко думати про те, чим ви хочете займатися, пробувати це кожні півроку, і вас, швидше за все, чекають несподівані сюрпризи. Я думаю, що нова здатність hyper3d має можливість підвищити ефективність багатьох невеликих ігрових команд, а також дасть багатьом розробникам, таким як я, можливість створити свою першу 3D-гру.

Найкращі

Рейтинг

Вибране