Gosto muito desta direção de pesquisa! Durante muito tempo, tenho falado sobre a analogia "cérebro vs. base de dados" dos SSMs vs Transformers. Uma extensão disso que mencionei de passagem algumas vezes é que acho que os trade-offs mudam quando começamos a pensar em construir *sistemas* de múltiplos componentes em vez de modelos únicos. Por exemplo, se alguém subscreve à intuição de que os modelos híbridos modernos estão usando o SSM como a principal unidade de processamento "semelhante ao cérebro", enquanto a atenção é principalmente para o cache "semelhante a uma base de dados" para ajudar na recuperação precisa, então eu hipotetizei que talvez um sistema mais otimizado pudesse ser um modelo de linguagem SSM puro combinado com bancos de dados de conhecimento externos explícitos e caches de contexto. Isso é muito mais análogo à inteligência humana que é principalmente impulsionada pelo cérebro (um SSM) auxiliado por armazenamentos de conhecimento externos (livros, a internet) e uso de ferramentas. Este artigo mostra resultados bastante interessantes de que os SSMs parecem ter um desempenho muito favorável em comparação com os Transformers neste regime de modelos agentes operando com uso interativo de ferramentas. Fico feliz em ver a intuição validada e espero que mais pesquisas continuem nessa linha!