Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

AI进化论-花生

Andrej Karpathy propôs uma ideia bastante radical: todas as entradas dos LLM devem ser imagens, incluindo texto puro. O que isso significa? Modelos de linguagem tradicionais: texto → tokenizer → LLM → saída A visão de Andrej: texto → renderizar como imagem → LLM → saída Mesmo que o que você queira inserir seja texto puro, primeiro renderize-o como uma imagem e depois forneça ao modelo. Por que fazer isso? Ele deu 4 razões: 1. Compressão de informação mais eficiente Isso é exatamente o que o DeepSeek-OCR provou. Uma página de documento, da maneira tradicional, pode precisar de 2000 tokens de texto, enquanto com tokens de visão precisa apenas de 64. Taxa de compressão de 30 vezes. Tokens de texto são muito desperdiçados, tokens de imagem são mais densos. 2. Mais genérico Tokens de texto só podem expressar palavras. Mas a informação do mundo real não é apenas texto: - Negrito, itálico - Texto colorido - Tabelas, gráficos - Qualquer imagem Tudo renderizado como entrada de imagem, o modelo naturalmente pode lidar com isso. 3. Pode usar atenção bidirecional Este é um detalhe técnico. O tradicional texto-para-texto é autoregressivo (da esquerda para a direita). A entrada de imagem pode usar atenção bidirecional, vendo informações globais, tornando-se mais poderosa. 4. Eliminar o tokenizer (ponto importante!) Andrej odeia tokenizers. Suas críticas: - O tokenizer é uma fase feia, independente e não end-to-end - Ele herda todo o fardo histórico do Unicode e da codificação de bytes - Há riscos de segurança (como ataques de bytes de continuação) - Dois caracteres que parecem iguais podem ser completamente diferentes aos olhos do tokenizer - 😊 Este emoji no tokenizer é apenas um token estranho, não uma verdadeira imagem de um rosto sorridente Ele deseja que o tokenizer desapareça. O que é a visão dele - Entrada: tudo é imagem (mesmo que originalmente seja texto) - Saída: ainda é texto (porque a saída em pixels não é realista) OCR é apenas uma das tarefas de visão→texto. Muitas tarefas de texto→texto podem se tornar visão→texto. Minha compreensão A opinião de Andrej é bastante radical, mas realmente faz sentido. Do ponto de vista da teoria da informação, imagens são de fato mais eficientes do que texto. O DeepSeek-OCR provou isso: 64 tokens de visão podem expressar a informação de 2000 tokens de texto. Do ponto de vista da generalidade, a entrada de imagem suporta naturalmente vários formatos (negrito, cor, gráficos), sem precisar do tokenizer como camada intermediária. Mas a questão é: 1. Custo computacional: processar tokens de visão é mais caro do que tokens de texto. Embora o número de tokens tenha diminuído, a carga computacional de cada token de visão é maior. 2. Dados de treinamento: a maior parte dos dados de treinamento existentes é texto puro. Renderizar tudo como imagem tem um custo muito alto. 3. Problema de saída: ele também reconhece que a saída em pixels não é realista. Portanto, só pode ser um modo misto de entrada de imagem→saída de texto. Mas a longo prazo, essa direção pode estar certa. Especialmente considerando: - A entrada humana é naturalmente multimodal (texto, imagem, vídeo) - O tokenizer realmente tem muitos problemas (segurança, Unicode, fardo histórico) - O futuro da IA deve ser capaz de entender pixels diretamente, em vez de transformar tudo em tokens O DeepSeek-OCR pode ser apenas o começo. Ele provou que "compressão óptica contextual" é viável. Andrej vê um futuro mais distante: um mundo sem tokenizers, onde todas as entradas são imagens e todas as saídas são texto. Isso se tornará realidade? Não sei. Mas pelo menos, essa direção vale a pena explorar.

Top

Classificação

Favoritos