существуют ли какие-либо публичные инструменты для бенчмаркинга агентов аудита ИИ? Было бы очень полезно иметь возможность сравнивать доступные продукты хотя я уверен, что mf быстро научатся обманывать бенчмарки