SSMs versprachen effizientes Sprachmodellieren für lange Kontexte, scheinen aber bisher in vielen Einstellungen im Vergleich zu Transformern unterdurchschnittlich abzuschneiden. Unsere neue Arbeit legt nahe, dass dies kein Problem mit SSMs ist, sondern damit, wie wir sie derzeit verwenden. Arxiv: 🧵