SSM's beloofden efficiënte taalmodellering voor lange context, maar lijken tot nu toe in veel instellingen onder te presteren in vergelijking met Transformers. Ons nieuwe werk suggereert dat dit geen probleem is met SSM's, maar met hoe we ze momenteel gebruiken.
Arxiv:
🧵