Gosto bastante do novo artigo DeepSeek-OCR. É um bom modelo de OCR (talvez um pouco pior que os pontos), e sim, a coleta de dados, etc., mas de qualquer forma, isso não importa. A parte mais interessante para mim (especialmente como alguém que é um entusiasta de visão computacional e que está temporariamente a disfarçar-se de pessoa de linguagem natural) é se os pixels são melhores entradas para LLMs do que o texto. Se os tokens de texto são desperdícios e apenas terríveis, na entrada. Talvez faça mais sentido que todas as entradas para LLMs sejam apenas imagens. Mesmo que você tenha uma entrada de texto puro, talvez prefira renderizá-la e depois alimentá-la: - mais compressão de informação (veja o artigo) => janelas de contexto mais curtas, mais eficiência - fluxo de informação geral significativamente maior => não apenas texto, mas por exemplo, texto em negrito, texto colorido, imagens arbitrárias. - a entrada agora pode ser processada com atenção bidirecional facilmente e como padrão, não atenção autoregressiva - muito mais poderosa. - delete o tokenizer (na entrada)!! Já reclamei sobre o quanto não gosto do tokenizer. Os tokenizers são feios, separados, não são uma etapa de ponta a ponta. Ele "importa" toda a feiura do Unicode, codificações de bytes, herda muito do peso histórico, risco de segurança/jailbreak (por exemplo, bytes de continuação). Faz com que dois caracteres que parecem idênticos aos olhos pareçam como dois tokens completamente diferentes internamente na rede. Um emoji sorridente parece um token estranho, não um... rosto sorridente real, pixels e tudo, e todo o aprendizado de transferência que isso traz. O tokenizer deve ir embora. OCR é apenas uma das muitas tarefas úteis de visão -> texto. E tarefas de texto -> texto podem ser transformadas em tarefas de visão -> texto. Não o contrário. Então, muitas vezes a mensagem do usuário é imagens, mas o decodificador (a resposta do Assistente) permanece texto. É muito menos óbvio como output pixels de forma realista... ou se você gostaria de fazê-lo. Agora também tenho que lutar contra a vontade de criar uma versão apenas de entrada de imagem do nanochat...