Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Мені дуже подобається новий папір DeepSeek-OCR. Це хороша модель OCR (можливо, трохи гірша за точки), і так, збір даних тощо, але в будь-якому випадку це не має значення. Найцікавіша частина для мене (особливо як для комп'ютерного зору в душі, який тимчасово маскується під людину з природною мовою) полягає в тому, чи є пікселі кращими вхідними даними для LLM, ніж текст. Чи то текстові токени марнотратні і просто жахливі, на вході. Можливо, має сенс те, що всі вхідні дані для LLM повинні бути лише зображеннями. Навіть якщо у вас є чисте введення тексту, можливо, ви віддаєте перевагу його рендерингу, а потім вводити це: - більше стиснення інформації (див. статтю) => коротші контекстні вікна, більша ефективність - значно більше загального потоку інформації = > не просто текст, але, наприклад, жирний текст, кольоровий текст, довільні зображення. - Вхідні дані тепер можуть бути легко оброблені за допомогою двонаправленої уваги і, за замовчуванням, не авторегресивної уваги - набагато потужніше. - видалити токенізатор (на вході)!! Я вже бурчав про те, як сильно мені не подобається токенізатор. Токенізатори – це негарна, окрема, а не наскрізна стадія. Він "імпортує" всю потворність Юнікоду, байтові кодування, він успадковує багато історичного багажу, ризику безпеки/джейлбрейка (наприклад, байти продовження). Це змушує двох символів, які виглядають ідентично оку, виглядати як два абсолютно різні токени всередині мережі. Усміхнений смайлик виглядає як дивний жетон, а не... Справжнє усміхнене обличчя, пікселі та все інше, а також усе навчання передачі, яке приносить із собою. Токенізатор повинен піти. OCR – це лише одне з багатьох корисних завдань із зору > тексту. А текстові -> текстові завдання можна зробити візіонерськими ->текстовими завданнями. А не навпаки. Дуже багато повідомлень Користувача є зображеннями, але декодер (відповідь Асистента) залишається текстом. Набагато менш очевидно, як реалістично виводити пікселі... або якщо ви цього хочете. Тепер мені також доводиться боротися з бажанням знайти версію наночату лише з введенням зображень...

Найкращі

Рейтинг

Вибране