Eu realmente gosto dessa direção de pesquisa! Por muito tempo, venho falando sobre a analogia "cérebro vs. banco de dados" de SSMs vs Transformers. Uma extensão disso que mencionei algumas vezes é que acho que as compensações mudam quando começamos a pensar em construir *sistemas* multicomponentes em vez de modelos únicos. Por exemplo, se alguém subscreve a intuição de que os modelos híbridos modernos estão usando o SSM como a principal unidade de processamento "semelhante ao cérebro", enquanto a atenção é principalmente para o cache "semelhante a um banco de dados" para ajudar na recuperação precisa, então eu levantei a hipótese de que talvez um sistema mais ideal pudesse ser um modelo de linguagem SSM puro combinado com bancos de dados de conhecimento externos explícitos e caches de contexto. Isso é muito mais análogo à inteligência semelhante à humana, que é impulsionada principalmente pelo cérebro (um SSM) auxiliado por armazenamentos de conhecimento externos (livros, internet) e uso de ferramentas. Este artigo mostra resultados bastante interessantes de que os SSMs parecem ter um desempenho muito favorável em comparação com os Transformers neste regime de modelos agenciais operando com uso de ferramentas interativas. Fico feliz em ver a intuição validada e espero que mais pesquisas continuem nesse sentido!