Andrej Karpathy propôs uma ideia bastante radical: todas as entradas dos LLM devem ser imagens, incluindo texto puro. O que isso significa? Modelos de linguagem tradicionais: texto → tokenizer → LLM → saída A visão de Andrej: texto → renderizar como imagem → LLM → saída Mesmo que o que você queira inserir seja texto puro, primeiro renderize-o como uma imagem e depois forneça ao modelo. Por que fazer isso? Ele deu 4 razões: 1. Compressão de informação mais eficiente Isso é exatamente o que o DeepSeek-OCR provou. Uma página de documento, da maneira tradicional, pode precisar de 2000 tokens de texto, enquanto com tokens de visão precisa apenas de 64. Taxa de compressão de 30 vezes. Tokens de texto são muito desperdiçados, tokens de imagem são mais densos. 2. Mais genérico Tokens de texto só podem expressar palavras. Mas a informação do mundo real não é apenas texto: - Negrito, itálico - Texto colorido - Tabelas, gráficos - Qualquer imagem Tudo renderizado como entrada de imagem, o modelo naturalmente pode lidar com isso. ...