SSM-urile au promis modelarea eficientă a limbajului pentru un context lung, dar până acum par să aibă performanțe slabe în comparație cu Transformers în multe setări. Noua noastră lucrare sugerează că aceasta nu este o problemă cu SSM-urile, ci cu modul în care le folosim în prezent. Arxiv: 🧵