Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gosto muito desta direção de pesquisa!
Durante muito tempo, tenho falado sobre a analogia "cérebro vs. base de dados" dos SSMs vs Transformers. Uma extensão disso que mencionei de passagem algumas vezes é que acho que os trade-offs mudam quando começamos a pensar em construir *sistemas* de múltiplos componentes em vez de modelos únicos.
Por exemplo, se alguém subscreve à intuição de que os modelos híbridos modernos estão usando o SSM como a principal unidade de processamento "semelhante ao cérebro", enquanto a atenção é principalmente para o cache "semelhante a uma base de dados" para ajudar na recuperação precisa, então eu hipotetizei que talvez um sistema mais otimizado pudesse ser um modelo de linguagem SSM puro combinado com bancos de dados de conhecimento externos explícitos e caches de contexto. Isso é muito mais análogo à inteligência humana que é principalmente impulsionada pelo cérebro (um SSM) auxiliado por armazenamentos de conhecimento externos (livros, a internet) e uso de ferramentas.
Este artigo mostra resultados bastante interessantes de que os SSMs parecem ter um desempenho muito favorável em comparação com os Transformers neste regime de modelos agentes operando com uso interativo de ferramentas. Fico feliz em ver a intuição validada e espero que mais pesquisas continuem nessa linha!
Top
Classificação
Favoritos

