A tokenização é apenas um caso especial de "fragmentação" - construção de dados de baixo nível em abstrações de alto nível - que, por sua vez, é fundamental para a inteligência. Nossa nova arquitetura, que permite o *dynamic chunking hierárquico*, não é apenas livre de tokenizadores, mas simplesmente dimensiona melhor.
Sukjun (June) Hwang
Sukjun (June) Hwang12/07/2025
A tokenização tem sido a barreira final para modelos de linguagem verdadeiramente de ponta a ponta. Desenvolvemos o H-Net: uma rede hierárquica que substitui a tokenização por um processo de fragmentação dinâmica diretamente dentro do modelo, descobrindo e operando automaticamente sobre unidades significativas de dados.
Este foi um projeto incrivelmente importante para mim - eu queria resolvê-lo por anos, mas não tinha ideia de como. Isso foi tudo @sukjun_hwang e @fluorane trabalho incrível! Escrevi sobre a história do seu desenvolvimento e o que pode estar por vir. A H-Net:
194,77K