SSM-y obiecały efektywne modelowanie języka dla długiego kontekstu, ale jak dotąd wydają się gorzej wypadać w porównaniu do Transformerów w wielu ustawieniach. Nasza nowa praca sugeruje, że to nie jest problem z SSM-ami, ale z tym, jak obecnie je wykorzystujemy. Arxiv: 🧵