Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Andrej Karpathy propôs uma ideia bastante radical: todas as entradas dos LLM devem ser imagens, incluindo texto puro.
O que isso significa?
Modelos de linguagem tradicionais: texto → tokenizer → LLM → saída
A visão de Andrej: texto → renderizar como imagem → LLM → saída
Mesmo que o que você queira inserir seja texto puro, primeiro renderize-o como uma imagem e depois forneça ao modelo.
Por que fazer isso?
Ele deu 4 razões:
1. Compressão de informação mais eficiente
Isso é exatamente o que o DeepSeek-OCR provou. Uma página de documento, da maneira tradicional, pode precisar de 2000 tokens de texto, enquanto com tokens de visão precisa apenas de 64. Taxa de compressão de 30 vezes.
Tokens de texto são muito desperdiçados, tokens de imagem são mais densos.
2. Mais genérico
Tokens de texto só podem expressar palavras. Mas a informação do mundo real não é apenas texto:
- Negrito, itálico
- Texto colorido
- Tabelas, gráficos
- Qualquer imagem
Tudo renderizado como entrada de imagem, o modelo naturalmente pode lidar com isso.
3. Pode usar atenção bidirecional
Este é um detalhe técnico. O tradicional texto-para-texto é autoregressivo (da esquerda para a direita). A entrada de imagem pode usar atenção bidirecional, vendo informações globais, tornando-se mais poderosa.
4. Eliminar o tokenizer (ponto importante!)
Andrej odeia tokenizers.
Suas críticas:
- O tokenizer é uma fase feia, independente e não end-to-end
- Ele herda todo o fardo histórico do Unicode e da codificação de bytes
- Há riscos de segurança (como ataques de bytes de continuação)
- Dois caracteres que parecem iguais podem ser completamente diferentes aos olhos do tokenizer
- 😊 Este emoji no tokenizer é apenas um token estranho, não uma verdadeira imagem de um rosto sorridente
Ele deseja que o tokenizer desapareça.
O que é a visão dele
- Entrada: tudo é imagem (mesmo que originalmente seja texto)
- Saída: ainda é texto (porque a saída em pixels não é realista)
OCR é apenas uma das tarefas de visão→texto. Muitas tarefas de texto→texto podem se tornar visão→texto.
Minha compreensão
A opinião de Andrej é bastante radical, mas realmente faz sentido.
Do ponto de vista da teoria da informação, imagens são de fato mais eficientes do que texto. O DeepSeek-OCR provou isso: 64 tokens de visão podem expressar a informação de 2000 tokens de texto.
Do ponto de vista da generalidade, a entrada de imagem suporta naturalmente vários formatos (negrito, cor, gráficos), sem precisar do tokenizer como camada intermediária.
Mas a questão é:
1. Custo computacional: processar tokens de visão é mais caro do que tokens de texto. Embora o número de tokens tenha diminuído, a carga computacional de cada token de visão é maior.
2. Dados de treinamento: a maior parte dos dados de treinamento existentes é texto puro. Renderizar tudo como imagem tem um custo muito alto.
3. Problema de saída: ele também reconhece que a saída em pixels não é realista. Portanto, só pode ser um modo misto de entrada de imagem→saída de texto.
Mas a longo prazo, essa direção pode estar certa.
Especialmente considerando:
- A entrada humana é naturalmente multimodal (texto, imagem, vídeo)
- O tokenizer realmente tem muitos problemas (segurança, Unicode, fardo histórico)
- O futuro da IA deve ser capaz de entender pixels diretamente, em vez de transformar tudo em tokens
O DeepSeek-OCR pode ser apenas o começo. Ele provou que "compressão óptica contextual" é viável.
Andrej vê um futuro mais distante: um mundo sem tokenizers, onde todas as entradas são imagens e todas as saídas são texto.
Isso se tornará realidade? Não sei.
Mas pelo menos, essa direção vale a pena explorar.

Andrej Karpathy21/10/2025
Gosto bastante do novo artigo DeepSeek-OCR. É um bom modelo de OCR (talvez um pouco pior que os pontos), e sim, a coleta de dados, etc., mas de qualquer forma, isso não importa.
A parte mais interessante para mim (especialmente como alguém que é um entusiasta de visão computacional e que está temporariamente a disfarçar-se de pessoa de linguagem natural) é se os pixels são melhores entradas para LLMs do que o texto. Se os tokens de texto são desperdícios e apenas terríveis, na entrada.
Talvez faça mais sentido que todas as entradas para LLMs sejam apenas imagens. Mesmo que você tenha uma entrada de texto puro, talvez prefira renderizá-la e depois alimentá-la:
- mais compressão de informação (veja o artigo) => janelas de contexto mais curtas, mais eficiência
- fluxo de informação geral significativamente maior => não apenas texto, mas por exemplo, texto em negrito, texto colorido, imagens arbitrárias.
- a entrada agora pode ser processada com atenção bidirecional facilmente e como padrão, não atenção autoregressiva - muito mais poderosa.
- delete o tokenizer (na entrada)!! Já reclamei sobre o quanto não gosto do tokenizer. Os tokenizers são feios, separados, não são uma etapa de ponta a ponta. Ele "importa" toda a feiura do Unicode, codificações de bytes, herda muito do peso histórico, risco de segurança/jailbreak (por exemplo, bytes de continuação). Faz com que dois caracteres que parecem idênticos aos olhos pareçam como dois tokens completamente diferentes internamente na rede. Um emoji sorridente parece um token estranho, não um... rosto sorridente real, pixels e tudo, e todo o aprendizado de transferência que isso traz. O tokenizer deve ir embora.
OCR é apenas uma das muitas tarefas úteis de visão -> texto. E tarefas de texto -> texto podem ser transformadas em tarefas de visão -> texto. Não o contrário.
Então, muitas vezes a mensagem do usuário é imagens, mas o decodificador (a resposta do Assistente) permanece texto. É muito menos óbvio como output pixels de forma realista... ou se você gostaria de fazê-lo.
Agora também tenho que lutar contra a vontade de criar uma versão apenas de entrada de imagem do nanochat...
115,35K
Claude Code é o melhor agente de escrita automatizada.
Este artigo de mais de 3000 palavras foi 100% escrito com a ajuda do Claude Code, teve um bom desempenho no Xiaohongshu e gerou muitas discussões, mas parece que ninguém duvidou que este é um artigo escrito por IA.
Mais tarde, vou compartilhar na seção de comentários como construí meu agente de escrita.

109,64K
Na era da IA, nunca subestime a criatividade que uma pessoa pode ter. Muitas coisas que você não conseguiu fazer há alguns meses, agora podem ser completamente diferentes se você tentar novamente.
Há seis meses, tentei desenvolver um jogo de tiro 3D com temática militar usando Cursor+Unity, sem nunca ter usado o Unity ou feito desenvolvimento de jogos antes.
Naquela época, o maior obstáculo eram os ativos 3D. Os modelos de veículos blindados gerados por várias ferramentas de IA 3D disponíveis no mercado eram, na essência, uma sopa de bolinhas que não podia ser desmontada. Tentar fazer animações independentes e efeitos de dano para a torre e as esteiras era simplesmente impossível, e o projeto ficou completamente parado. Eu pensei que tudo tinha acabado, até que recentemente vi o @DeemosTech.
Eles lançaram o Rodin Gen-2, que possui uma arquitetura chamada BANG, que é simplesmente incrível. Ele consegue entender que os modelos são compostos por diferentes partes e pode desmontar qualquer modelo 3D de forma lógica. Por exemplo, os veículos blindados, helicópteros e soldados que aparecem neste vídeo.
Nessa situação, consegui obter torres, rodas e outros componentes independentes, que posso usar diretamente para animação e configuração de parâmetros, resolvendo basicamente todos os problemas que encontrei da última vez.
De repente percebi que, em apenas seis meses, quase todas as ferramentas do meu fluxo de desenvolvimento de IA foram atualizadas:
1. A ferramenta de programação de IA mudou de Cursor para Claude Code.
2. Os materiais 2D mudaram de Midjourney para Nano Banana.
3. A evolução dos ativos 3D foi a mais revolucionária, passando de brinquedos para ferramentas.
Portanto, não se limite, não limite a IA. Você só precisa ter clareza sobre o que deseja fazer e tentar a cada seis meses; é muito provável que você tenha surpresas inesperadas. Eu acho que essa nova capacidade hyper3d tem a chance de aumentar a eficiência de muitas pequenas equipes de jogos e também dará a muitos desenvolvedores sem experiência, como eu, a oportunidade de criar seu primeiro jogo 3D.
73,81K
Top
Classificação
Favoritos

