Ik vind deze onderzoeksrichting echt leuk! Al een lange tijd praat ik over de "brein vs. database" analogie van SSMs vs Transformers. Een uitbreiding hiervan die ik een paar keer terloops heb genoemd, is dat ik denk dat de afwegingen veranderen wanneer we beginnen na te denken over het bouwen van multi-component *systemen* in plaats van enkele modellen. Bijvoorbeeld, als men zich aansluit bij de intuïtie dat moderne hybride modellen de SSM gebruiken als de belangrijkste "breinachtige" verwerkingsunit, terwijl de aandacht voornamelijk voor "databaseachtige" caching is om te helpen bij nauwkeurige retrieval, dan heb ik de hypothese dat misschien een optimaler systeem een puur SSM-taalmodel zou kunnen zijn, gecombineerd met expliciete externe kennisdatabases en contextcaches. Dit is veel meer vergelijkbaar met menselijke intelligentie die voornamelijk wordt aangedreven door het brein (een SSM) ondersteund door externe kennisbronnen (boeken, het internet) en het gebruik van hulpmiddelen. Dit paper toont vrij interessante resultaten die erop wijzen dat SSMs een zeer gunstige prestatie lijken te hebben in vergelijking met Transformers in dit regime van agentische modellen die opereren met interactieve hulpmiddelen. Blij om de intuïtie gevalideerd te zien, en ik hoop dat er meer onderzoek in deze richting blijft plaatsvinden!