¡Realmente me gusta esta dirección de investigación! Durante mucho tiempo, he estado hablando de la analogía "cerebro vs. base de datos" de los SSMs frente a los Transformers. Una extensión de esto que he mencionado de pasada algunas veces es que creo que los compromisos cambian cuando comenzamos a pensar en construir *sistemas* de múltiples componentes en lugar de modelos individuales. Por ejemplo, si uno suscribe a la intuición de que los modelos híbridos modernos están utilizando el SSM como la principal unidad de procesamiento "similar al cerebro" mientras que la atención es principalmente para el almacenamiento en caché "similar a una base de datos" para ayudar con la recuperación precisa, entonces he hipotetizado que quizás un sistema más óptimo podría ser un modelo de lenguaje SSM puro combinado con bases de datos de conocimiento externas explícitas y cachés de contexto. Esto es mucho más análogo a la inteligencia humana que está impulsada principalmente por el cerebro (un SSM) ayudado por almacenes de conocimiento externos (libros, internet) y el uso de herramientas. Este artículo muestra resultados bastante interesantes que los SSMs parecen tener un rendimiento muy favorable en comparación con los Transformers en este régimen de modelos agentes que operan con uso de herramientas interactivas. Me alegra ver la intuición validada, ¡y espero que continúe más investigación en estas líneas!