DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Acabo de profundizar un poco en MiroThinker 1.5, su método de compresión de agentes es un poco extraño, pero al entenderlo, parece realmente útil. El núcleo del problema que resuelve es "cómo meter 400 usos de herramientas en un contexto de 256K". Hicieron una operación extremadamente audaz: aplicaron un enmascaramiento físico a las Observaciones (resultados devueltos por las herramientas) en el histórico de ReAct de think-action-observation. Aparte de conservar el texto original de las últimas K rondas, todos los resultados de herramientas de las cientos de rondas anteriores fueron reemplazados por la frase "El resultado de la herramienta se omite para ahorrar tokens". Sin embargo, se conservaron todos los <thought>. Aquí hay un aspecto muy contraintuitivo: este agente está realizando una investigación profunda, y solo conserva el texto original de las últimas K rondas, es decir, 5 rondas, y no tiene nada de las anteriores, ¿cómo puede entonces responder preguntas? Esto implica un supuesto muy sutil pero clave: mientras el pensamiento sea lo suficientemente denso, en realidad se está acercando infinitamente a un resumen. Cada generación de pensamiento es, en esencia, una rebanada de información del modelo sobre la observación actual. Cuando se genera T1, ya ha "asumido" los datos clave de O1. Aunque O1 fue reemplazado por un marcador de posición, T1 sigue ahí. T1 se convierte en el "paquete de compresión de información" de O1. No es necesario tener un agente de resumen adicional, esta cadena de pensamientos completa es, en sí misma, un "resumen dinámico" de alta fidelidad que se actualiza continuamente.

Parte superior

Clasificación

Favoritos