Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Andrej Karpathy propôs uma ideia radical: todas as entradas do LLM devem ser imagens, incluindo texto simples.
O que você quer dizer?
Modelos tradicionais de linguagem grande: criador de token de → de texto → saída de → LLM
A visão de Andrej: o texto → renderizado em imagens → saída de → LLM
Mesmo se você quiser inserir texto simples, renderize-o como uma imagem e alimente-o no modelo.
Por que fazer isso?
Ele deu 4 razões:
1. A compactação de informações é mais eficiente
Isso é exatamente o que o DeepSeek-OCR prova. Para um documento de uma página, o método tradicional pode exigir 2.000 tokens de texto e o token de visão precisa apenas de 64. Taxa de compressão 30 vezes.
Os tokens de texto são um desperdício, os tokens de imagem são mais densos.
2. Mais versátil
Os tokens de texto só podem expressar palavras. Mas as informações do mundo real são mais do que apenas palavras:
- Negrito, itálico
- Texto colorido
- Tabelas, gráficos
- Imagens arbitrárias
Todos renderizados como entradas de imagem, e o modelo pode lidar com isso naturalmente.
3. Você pode usar atenção bidirecional
Aqui estão os detalhes técnicos. A conversão de texto em texto tradicional é auto-regressiva (da esquerda para a direita). A entrada de imagem pode ser usada com atenção bidirecional, consulte informações globais, mais poderosas.
4. Remova o tokenizer (ênfase!) )
Andrej odeia tokenizadores.
Sua reclamação:
- Tokenizer é um estágio feio, independente e não de ponta a ponta
- Herda toda a bagagem histórica do Unicode, codificação de bytes
- Existe um risco de segurança (por exemplo, ataque de bytes de continuação)
- Dois personagens que parecem iguais podem ser completamente diferentes aos olhos do tokenizer
- 😊 Este emoji é apenas um símbolo estranho no Tokenizer, não uma imagem sorridente real
Ele quer que o tokenizador desapareça.
Qual é a visão dele
- Entrada: Todas as imagens (mesmo que fossem originalmente texto)
- Saída: texto estático (porque os pixels de saída não são realistas)
O OCR é apenas uma das tarefas de visão→texto. Muitas tarefas de texto→texto podem ser transformadas em texto→visão.
Meu entendimento
O ponto de vista de Andrej é radical, mas faz sentido.
Do ponto de vista da teoria da informação, as imagens são de fato mais eficientes do que o texto. O DeepSeek-OCR prova isso: 64 tokens de visão podem expressar a mensagem de 2.000 tokens de texto.
De uma perspectiva geral, a entrada de imagem naturalmente suporta vários formatos (negrito, cor, gráfico) e não requer a camada intermediária do tokenizador.
Mas o problema é:
1. Custos computacionais: O processamento de tokens de visão é mais caro do que os tokens de texto. Embora o número de tokens seja menor, cada token de visão tem uma quantidade maior de computação.
2. Dados de treinamento: A maioria dos dados de treinamento existentes é texto simples. É caro renderizá-los todos em imagens.
3. Problemas de saída: Ele também admitiu que os pixels de saída não são realistas. Portanto, só pode ser uma mistura de entrada de imagem → saída de texto.
Mas, a longo prazo, essa direção pode estar certa.
Em particular, considerando que:
- A entrada humana é inerentemente multimodal (texto, imagens, vídeos)
- O Tokenizer tem muitos problemas (segurança, Unicode, bagagem histórica)
- A IA futura deve ser capaz de entender os pixels diretamente, em vez de transformar tudo em tokens
O DeepSeek-OCR pode ser apenas o começo. Isso prova que a "compressão óptica contextual" é viável.
Andrej vê um futuro diferente: um mundo sem um tokenizador, onde todas as entradas são imagens e todas as saídas são texto.
Isso se tornará realidade? Eu não sei.
Mas, pelo menos, vale a pena explorar essa direção.

Andrej Karpathy21 de out. de 2025
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter.
The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input.
Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in:
- more information compression (see paper) => shorter context windows, more efficiency
- significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images.
- input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful.
- delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go.
OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa.
So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to.
Now I have to also fight the urge to side quest an image-input-only version of nanochat...
115,35K
Claude Code é o melhor agente de escrita automatizado.
Este artigo de mais de 3.000 palavras foi 100% feito por Claude Code para mim, e os dados sobre Xiaohongshu são bons, e também causou muita discussão, mas ninguém parece suspeitar que este é um artigo escrito por IA.
Late share my writing agent construction method na área de comentários

109,64K
Na era da IA, nunca subestime a criatividade que uma pessoa pode ter. Muitas coisas que você não podia fazer há alguns meses e tentar novamente agora podem ser completamente diferentes.
Meio ano atrás, tentei desenvolver um jogo de tiro 3D com tema militar com Cursor + Unity sem usar o Unity.
O maior gargalo naquela época eram os ativos 3D. Os modelos de veículos blindados gerados por várias ferramentas 3D de IA encontradas no mercado são essencialmente um pedaço de sopa que não pode ser separado, e é impossível animar independentemente a torre e as esteiras e os efeitos de dano, e o projeto está diretamente preso. Eu pensei que era amarelo até que @DeemosTech vi recentemente
Seu novo Rodin Gen-2 tem uma arquitetura chamada BANG, que é simplesmente incrível, ele entende que o modelo é composto de diferentes partes e pode desmontar qualquer modelo 3D de acordo com uma lógica razoável, como veículos blindados, helicópteros, soldados, etc. no meu vídeo.
Nesse caso, posso obter torres, rodas, etc. independentes, que podem ser usadas diretamente para vinculação de animação e configuração de parâmetros, o que basicamente resolve o problema que encontrei da última vez.
De repente, percebi que, depois de apenas meio ano, quase todas as ferramentas em todo o meu processo de desenvolvimento de IA foram substituídas:
1. A ferramenta de programação AI foi alterada de Cursor para Claude Code.
2. O material 2D foi alterado de Midjourney para Nano Banana.
3. A evolução dos ativos 3D é a mais subversiva, diretamente dos brinquedos às ferramentas.
Portanto, não estabeleça limites para si mesmo, não estabeleça limites para a IA, você só precisa pensar claramente sobre o que deseja fazer, experimente a cada seis meses e provavelmente terá surpresas inesperadas.
Acho que a nova capacidade do hyper3d tem a oportunidade de melhorar a eficiência de muitas equipes de jogos pequenos e também dará a muitos desenvolvedores como eu a oportunidade de criar seu primeiro jogo 3D.
73,81K
Melhores
Classificação
Favoritos

