DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Andrej Karpathy propôs uma ideia radical: todas as entradas do LLM devem ser imagens, incluindo texto simples. O que você quer dizer? Modelos tradicionais de linguagem grande: criador de token de → de texto → saída de → LLM A visão de Andrej: o texto → renderizado em imagens → saída de → LLM Mesmo se você quiser inserir texto simples, renderize-o como uma imagem e alimente-o no modelo. Por que fazer isso? Ele deu 4 razões: 1. A compactação de informações é mais eficiente Isso é exatamente o que o DeepSeek-OCR prova. Para um documento de uma página, o método tradicional pode exigir 2.000 tokens de texto e o token de visão precisa apenas de 64. Taxa de compressão 30 vezes. Os tokens de texto são um desperdício, os tokens de imagem são mais densos. 2. Mais versátil Os tokens de texto só podem expressar palavras. Mas as informações do mundo real são mais do que apenas palavras: - Negrito, itálico - Texto colorido - Tabelas, gráficos - Imagens arbitrárias Todos renderizados como entradas de imagem, e o modelo pode lidar com isso naturalmente. ...

Melhores

Classificação

Favoritos