Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Инженеры Anthropic выпустили еще один шедевр.
Их внутренний справочник по оценке ИИ-агентов.
Вот самый контринтуитивный урок, который я из него извлек:
Не тестируйте шаги, которые ваш агент предпринял. Тестируйте то, что он на самом деле произвел.
Это противоречит всем инстинктам. Вы бы подумали, что проверка каждого шага гарантирует качество. Но агенты креативны. Они находят решения, которые вы не предвидели. Наказание за неожиданные пути только делает ваши оценки хрупкими.
Важно конечный результат. Тестируйте это напрямую.
Справочник разбивает три типа оценщиков:
- На основе кода: Быстрый и объективный, но хрупкий к допустимым вариациям.
- На основе модели: LLM-в качестве судьи с рубриками. Гибкий, но требует калибровки.
- Человеческий: Золотой стандарт, но дорогой. Используйте с осторожностью.
Он также охватывает стратегии оценки для кодирующих агентов, разговорных агентов, исследовательских агентов и агентов по использованию компьютеров.
Ключевые выводы:
- Начните с 20-50 тестовых случаев из реальных неудач
- Каждое испытание должно начинаться с чистой среды
- Проведите несколько испытаний, так как выходы модели варьируются
- Читайте стенограммы. Так вы поймаете ошибки в оценке.
Если вы серьезно настроены на создание надежных агентов, я настоятельно рекомендую прочитать это.
Ссылка в следующем твите.

Топ
Рейтинг
Избранное
