DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

AI进化论-花生

Andrej Karpathy propôs uma ideia radical: todas as entradas do LLM devem ser imagens, incluindo texto simples. O que você quer dizer? Modelos tradicionais de linguagem grande: criador de token de → de texto → saída de → LLM A visão de Andrej: o texto → renderizado em imagens → saída de → LLM Mesmo se você quiser inserir texto simples, renderize-o como uma imagem e alimente-o no modelo. Por que fazer isso? Ele deu 4 razões: 1. A compactação de informações é mais eficiente Isso é exatamente o que o DeepSeek-OCR prova. Para um documento de uma página, o método tradicional pode exigir 2.000 tokens de texto e o token de visão precisa apenas de 64. Taxa de compressão 30 vezes. Os tokens de texto são um desperdício, os tokens de imagem são mais densos. 2. Mais versátil Os tokens de texto só podem expressar palavras. Mas as informações do mundo real são mais do que apenas palavras: - Negrito, itálico - Texto colorido - Tabelas, gráficos - Imagens arbitrárias Todos renderizados como entradas de imagem, e o modelo pode lidar com isso naturalmente. 3. Você pode usar atenção bidirecional Aqui estão os detalhes técnicos. A conversão de texto em texto tradicional é auto-regressiva (da esquerda para a direita). A entrada de imagem pode ser usada com atenção bidirecional, consulte informações globais, mais poderosas. 4. Remova o tokenizer (ênfase!) ） Andrej odeia tokenizadores. Sua reclamação: - Tokenizer é um estágio feio, independente e não de ponta a ponta - Herda toda a bagagem histórica do Unicode, codificação de bytes - Existe um risco de segurança (por exemplo, ataque de bytes de continuação) - Dois personagens que parecem iguais podem ser completamente diferentes aos olhos do tokenizer - 😊 Este emoji é apenas um símbolo estranho no Tokenizer, não uma imagem sorridente real Ele quer que o tokenizador desapareça. Qual é a visão dele - Entrada: Todas as imagens (mesmo que fossem originalmente texto) - Saída: texto estático (porque os pixels de saída não são realistas) O OCR é apenas uma das tarefas de visão→texto. Muitas tarefas de texto→texto podem ser transformadas em texto→visão. Meu entendimento O ponto de vista de Andrej é radical, mas faz sentido. Do ponto de vista da teoria da informação, as imagens são de fato mais eficientes do que o texto. O DeepSeek-OCR prova isso: 64 tokens de visão podem expressar a mensagem de 2.000 tokens de texto. De uma perspectiva geral, a entrada de imagem naturalmente suporta vários formatos (negrito, cor, gráfico) e não requer a camada intermediária do tokenizador. Mas o problema é: 1. Custos computacionais: O processamento de tokens de visão é mais caro do que os tokens de texto. Embora o número de tokens seja menor, cada token de visão tem uma quantidade maior de computação. 2. Dados de treinamento: A maioria dos dados de treinamento existentes é texto simples. É caro renderizá-los todos em imagens. 3. Problemas de saída: Ele também admitiu que os pixels de saída não são realistas. Portanto, só pode ser uma mistura de entrada de imagem → saída de texto. Mas, a longo prazo, essa direção pode estar certa. Em particular, considerando que: - A entrada humana é inerentemente multimodal (texto, imagens, vídeos) - O Tokenizer tem muitos problemas (segurança, Unicode, bagagem histórica) - A IA futura deve ser capaz de entender os pixels diretamente, em vez de transformar tudo em tokens O DeepSeek-OCR pode ser apenas o começo. Isso prova que a "compressão óptica contextual" é viável. Andrej vê um futuro diferente: um mundo sem um tokenizador, onde todas as entradas são imagens e todas as saídas são texto. Isso se tornará realidade? Eu não sei. Mas, pelo menos, vale a pena explorar essa direção.

Melhores

Classificação

Favoritos