Токенізація - це лише окремий випадок "chunking" - перетворення низькорівневих даних у високорівневі абстракції - що, у свою чергу, є фундаментальним для інтелекту. Наша нова архітектура, яка забезпечує ієрархічне *динамічне фрагментування*, не тільки не містить токенізаторів, але й просто краще масштабується.
Sukjun (June) Hwang
Sukjun (June) Hwang12 лип. 2025 р.
Токенізація стала останнім бар'єром на шляху до дійсно наскрізних мовних моделей. Ми розробили H-Net: ієрархічну мережу, яка замінює токенізацію динамічним процесом фрагментації безпосередньо всередині моделі, автоматично виявляючи та керуючи значущими одиницями даних
Це був неймовірно важливий проект для мене - я хотів його вирішити роками, але не мав уявлення як. Це все було @sukjun_hwang і @fluorane дивовижна робота! Я писав про історію його розвитку, і про те, що може бути далі. Мережа H-Net:
194,76K