Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy propôs uma ideia bastante radical: todas as entradas dos LLM devem ser imagens, incluindo texto puro.
O que isso significa?
Modelos de linguagem tradicionais: texto → tokenizer → LLM → saída
A visão de Andrej: texto → renderizar como imagem → LLM → saída
Mesmo que o que você queira inserir seja texto puro, primeiro renderize-o como uma imagem e depois forneça ao modelo.
Por que fazer isso?
Ele deu 4 razões:
1. Compressão de informação mais eficiente
Isso é exatamente o que o DeepSeek-OCR provou. Uma página de documento, da maneira tradicional, pode precisar de 2000 tokens de texto, enquanto com tokens de visão precisa apenas de 64. Taxa de compressão de 30 vezes.
Tokens de texto são muito desperdiçados, tokens de imagem são mais densos.
2. Mais genérico
Tokens de texto só podem expressar palavras. Mas a informação do mundo real não é apenas texto:
- Negrito, itálico
- Texto colorido
- Tabelas, gráficos
- Qualquer imagem
Tudo renderizado como entrada de imagem, o modelo naturalmente pode lidar com isso.
...
Top
Classificação
Favoritos