Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Khi các tác nhân AI gần sử dụng trong thế giới thực, làm thế nào để chúng ta biết chúng thực sự có thể làm gì? Điểm chuẩn đáng tin cậy là rất quan trọng nhưng điểm chuẩn tác nhân đã bị phá vỡ!
Ví dụ: WebArena đánh dấu "45+8 phút" trên nhiệm vụ tính thời lượng là đúng (câu trả lời thực: "63 phút"). Các tiêu chuẩn khác đánh giá sai năng lực của đại lý 1,6-100%.
Tại sao nền tảng đánh giá cho các hệ thống tác nhân lại mong manh? Xem bên dưới để biết chủ đề và liên kết
1/8
Đánh giá tác nhân khác với điểm chuẩn ML truyền thống về cách xây dựng nhiệm vụ và kết quả.
Các điểm chuẩn tác nhân thường dựa vào các trình mô phỏng mỏng manh (trang web đồ chơi, cơ sở dữ liệu) có khả năng có lỗi và phím tắt có thể làm sai lệch kết quả. Hơn nữa, kết quả nhiệm vụ của điểm chuẩn tác nhân không có nhãn "vàng" cố định và thường cần đánh giá các câu trả lời phi cấu trúc (mã, lệnh gọi API, văn bản dài.)
3/8
Để giải quyết những thách thức này, điểm chuẩn tác nhân nên nhằm mục đích đảm bảo mối tương quan giữa kết quả đánh giá tích cực và khả năng của tác nhân AI mục tiêu. Chúng tôi phân tách mục tiêu này thành hai tiêu chí hợp lệ thiết yếu:
1. Tính hợp lệ của nhiệm vụ: Một nhiệm vụ có thể giải quyết được nếu và chỉ khi tác nhân sở hữu khả năng mục tiêu.
2. Hiệu lực kết quả: Kết quả đánh giá là tích cực nếu và chỉ khi nhiệm vụ được giải quyết.
4/8

Dựa trên 17 điểm chuẩn phổ biến (ví dụ: SWE-bench, OSWorld, TAU-bench, v.v.), chúng tôi phát triển danh sách kiểm tra điểm chuẩn tác nhân (ABC) gồm 43 mục để nhanh chóng xác định mức độ hiệu lực của nhiệm vụ và kết quả
ABC:
5/8
Chúng tôi đã áp dụng ABC cho 10 điểm chuẩn có tác động được sử dụng để đánh giá o3, Gemini 2.5 và Sonnet 4. Dưới đây là tổng quan về những phát hiện của chúng tôi:
1. 7/10 điểm chuẩn không đạt hiệu lực của kết quả
2. 7/10 chứa các phím tắt ẩn / nhiệm vụ không thể giải quyết
3. Chỉ có 2/10 tiết lộ các vấn đề đã biết
Hãy theo dõi. Chúng tôi sẽ sớm công bố thêm chi tiết định lượng và bản sửa lỗi cho các vấn đề đã xác định!
6/8
ABC trao quyền cho cả các nhà phát triển điểm chuẩn và mô hình để phát hiện và sửa chữa các sai sót - trước khi có kết quả tiêu đề.
Khám phá danh sách kiểm tra đầy đủ, ví dụ và đóng góp thông qua trang web và kho lưu trữ GitHub của chúng tôi để cùng nhau xây dựng các điểm chuẩn xứng đáng với AI biên giới.
7/8
Đây là một công việc chung với @maxYuxuanZhu, @yadapruksachatk và những người khác từ Stanford, Berkeley, Yale, Princeton, MIT, Transluce, ML Commons, Amazon và UK AISI.
8/8
22,02K
Hàng đầu
Thứ hạng
Yêu thích