Les SSM ont promis une modélisation linguistique efficace pour un long contexte, mais jusqu'à présent, ils semblent sous-performer par rapport aux Transformers dans de nombreux contextes. Notre nouveau travail suggère que ce n'est pas un problème avec les SSM, mais avec la façon dont nous les utilisons actuellement. Arxiv: 🧵