Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мені дуже подобається новий папір DeepSeek-OCR. Це хороша модель OCR (можливо, трохи гірша за точки), і так, збір даних тощо, але в будь-якому випадку це не має значення.
Найцікавіша частина для мене (особливо як для комп'ютерного зору в душі, який тимчасово маскується під людину з природною мовою) полягає в тому, чи є пікселі кращими вхідними даними для LLM, ніж текст. Чи то текстові токени марнотратні і просто жахливі, на вході.
Можливо, має сенс те, що всі вхідні дані для LLM повинні бути лише зображеннями. Навіть якщо у вас є чисте введення тексту, можливо, ви віддаєте перевагу його рендерингу, а потім вводити це:
- більше стиснення інформації (див. статтю) => коротші контекстні вікна, більша ефективність
- значно більше загального потоку інформації = > не просто текст, але, наприклад, жирний текст, кольоровий текст, довільні зображення.
- Вхідні дані тепер можуть бути легко оброблені за допомогою двонаправленої уваги і, за замовчуванням, не авторегресивної уваги - набагато потужніше.
- видалити токенізатор (на вході)!! Я вже бурчав про те, як сильно мені не подобається токенізатор. Токенізатори – це негарна, окрема, а не наскрізна стадія. Він "імпортує" всю потворність Юнікоду, байтові кодування, він успадковує багато історичного багажу, ризику безпеки/джейлбрейка (наприклад, байти продовження). Це змушує двох символів, які виглядають ідентично оку, виглядати як два абсолютно різні токени всередині мережі. Усміхнений смайлик виглядає як дивний жетон, а не... Справжнє усміхнене обличчя, пікселі та все інше, а також усе навчання передачі, яке приносить із собою. Токенізатор повинен піти.
OCR – це лише одне з багатьох корисних завдань із зору > тексту. А текстові -> текстові завдання можна зробити візіонерськими ->текстовими завданнями. А не навпаки.
Дуже багато повідомлень Користувача є зображеннями, але декодер (відповідь Асистента) залишається текстом. Набагато менш очевидно, як реалістично виводити пікселі... або якщо ви цього хочете.
Тепер мені також доводиться боротися з бажанням знайти версію наночату лише з введенням зображень...
Найкращі
Рейтинг
Вибране