Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek щойно випустив досить шокуючу нову статтю. Вони дійсно поховали лед тут, назвавши його просто DeepSeek OCR.
Незважаючи на те, що це дуже потужна модель OCR, її мета та наслідки їхнього підходу виходять далеко за рамки того, що ви очікуєте від «ще однієї моделі OCR».
Традиційно токени vision LLM здавалися майже запізнілою думкою або «болтом» до парадигми LLM. А 10 тисяч слів англійською мовою зайняли б набагато більше місця в мультимодальному LLM, коли вони виражені у вигляді зрозумілих пікселів, ніж коли виражені у вигляді токенів.
Тож ці 10 тисяч слів могли перетворитися на 15 тисяч токенів, або від 30 до 60 тисяч «візуальних токенів». Таким чином, токени vision були набагато менш ефективними і дійсно мали сенс використовувати їх лише для даних, які не можна було ефективно передати словами.
Але тепер це суперечить ідеям, викладеним у цій статті. DeepSeek з'ясував, як отримати в 10 разів краще стиснення за допомогою токенів vision, ніж за допомогою текстових токенів! Таким чином, теоретично ви можете зберігати ці 10 тисяч слів лише в 1 500 їхніх спеціальних стислих візуальних токенах.
Це може бути не так несподівано, як здається, якщо подумати про те, як працює ваш власний розум. Адже я знаю, що коли я шукаю частину вже прочитаної книги, я уявляю її візуально і завжди пам'ятаю, на якій стороні книги вона була і приблизно де на сторінці вона була, що наводить на думку про якесь уявлення візуальної пам'яті на роботі.
Тепер неясно, як саме це взаємодіє з іншими подальшими когнітивними функціями ЛЛМ; Чи може модель міркувати над цими стисненими візуальними токенами так само розумно, як вона може використовувати звичайні текстові токени? Чи робить це модель менш виразною, змушуючи її перейти до більш орієнтованої на бачення модальності?
Але ви можете уявити, що, залежно від точних компромісів, це може бути дуже захоплюючою новою віссю для значного розширення ефективних розмірів контексту. Особливо в поєднанні з іншою нещодавньою статтею DeepSeek кілька тижнів тому про скупу увагу.
Наскільки нам відомо, Google вже міг придумати щось подібне, що могло б пояснити, чому Gemini має такий величезний розмір контексту і так добре і швидко справляється з OCR-завданнями. Якби вони це зробили, вони, ймовірно, не сказали б, тому що це розглядалося б як важлива комерційна таємниця.
Але приємна річ у DeepSeek полягає в тому, що вони зробили все це відкритим вихідним кодом і відкритими вагами та пояснили, як вони це зробили, тож тепер кожен може спробувати це та дослідити.
Навіть якщо ці трюки зроблять увагу більш збитковою, потенціал отримання frontier LLM з контекстним вікном у 10 або 20 мільйонів токенів є досить захоплюючим.
По суті, ви можете втиснути всі ключові внутрішні документи компанії в швидку преамбулу та кешувати це за допомогою OpenAI, а потім просто додати свій конкретний запит або запит поверх цього, і не мати справу з пошуковими інструментами, і при цьому це буде швидко та економічно ефективно.
Або помістіть всю базу коду в контекст і кешуйте її, а потім просто продовжуйте додавати еквівалент git diffs, коли ви вносите зміни до коду.
Якщо ви коли-небудь читали історії про великого фізика Ганса Бете, він був відомий тим, що запам'ятав величезну кількість випадкових фізичних фактів (наприклад, всю періодичну таблицю, точки кипіння різних речовин тощо), щоб він міг безперешкодно думати та обчислювати, ніколи не перериваючи свій потік, щоб знайти щось у довідковій таблиці.
Мати величезну кількість знань про конкретні завдання у своїй робочій пам'яті надзвичайно корисно. Це здається дуже розумним і адитивним підходом до потенційного розширення банку пам'яті в 10 разів або більше.
Ось кілька хороших висновків з Claude Opus4.1 на папері, якщо вам не хочеться читати все (це також досить технічно):




Розповідь про те, як ви могли «стиснути» стару контекстну пам'ять з втратами, автоматично зменшивши візуальні репрезентації цих токенів (скажімо, з 1024x1024 пікселів до 512x512 пікселів), щоб заощадити місце, зробивши ці спогади «більш туманними», прямо говорить про те, що @karpathy виступав у своєму інтерв'ю Dwarkesh про те, щоб зробити LLM менш залежними від точного запам'ятовування. І, звичайно, це також відображає те, як людський розум працює краще.
184,87K
Найкращі
Рейтинг
Вибране