Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Acabei de investigar um pouco o MiroThinker 1.5, e a forma como eles comprimem os Agentes é um pouco estranha, mas, ao entender, parece realmente útil. O núcleo resolve a questão de "como inserir 400 usos de ferramentas em um contexto de 256K". Eles fizeram uma operação extremamente ousada: aplicaram uma máscara física nas Observações (resultados das ferramentas) no histórico do ReAct entre think-action-observation. Além de manter o texto original das últimas K rodadas, todos os resultados das ferramentas das rodadas anteriores foram substituídos por uma frase: "O resultado da ferramenta foi omitido para economizar tokens". No entanto, todas as <thought> foram completamente mantidas. Aqui há um ponto muito contra-intuitivo: este agente está, na verdade, realizando uma pesquisa profunda, então ele só mantém o texto original das últimas K rodadas, ou seja, 5 rodadas, e não tem nada das anteriores, como pode responder às perguntas? Isso traz um pressuposto muito sutil, mas crucial: desde que o Thought seja suficientemente denso, ele está, na verdade, se aproximando infinitamente de um Resumo. Cada geração de Thought é, essencialmente, uma fatia de informação do modelo sobre a Observação atual. Quando T1 é gerado, ele já “absorveu” os dados-chave de O1. Embora O1 tenha sido substituído por um espaço reservado, T1 ainda está presente. T1 se torna o "pacote de compressão de informação" de O1. Não é necessário adicionar um Agente de Resumo separado, esta cadeia completa de Thought é, em si, um "resumo dinâmico" de alta fidelidade que está constantemente sendo atualizado.

Top

Classificação

Favoritos