zijn er openbare benchmarkingtools voor AI-auditagenten? Het zou super handig zijn om beschikbare producten te kunnen vergelijken hoewel ik er zeker van ben dat mf's snel zullen leren om de benchmarks te manipuleren