LLM như một thẩm phán đã trở thành cách đánh giá chính để xem một mô hình tốt như thế nào trong việc giải quyết một nhiệm vụ, vì nó hoạt động mà không cần tập kiểm tra và xử lý các trường hợp mà câu trả lời không phải là duy nhất. Nhưng mặc dù điều này được sử dụng rộng rãi, hầu hết tất cả các kết quả được báo cáo đều có sự thiên lệch cao. Rất hào hứng để chia sẻ bản thảo trước của chúng tôi về cách sử dụng LLM đúng cách như một thẩm phán. 🧵 === Vậy mọi người thực sự sử dụng LLM như một thẩm phán như thế nào? Hầu hết mọi người chỉ sử dụng LLM như một người đánh giá và báo cáo xác suất thực nghiệm rằng LLM nói rằng câu trả lời trông có vẻ đúng. Khi LLM hoàn hảo, điều này hoạt động tốt và cung cấp một ước lượng không thiên lệch. Nếu LLM không hoàn hảo, điều này sẽ bị phá vỡ. Hãy xem xét một trường hợp mà LLM đánh giá đúng 80 phần trăm thời gian. Cụ thể hơn, nếu câu trả lời là đúng, LLM nói "điều này trông có vẻ đúng" với xác suất 80 phần trăm, và xác suất 80 phần trăm đó cũng áp dụng khi câu trả lời thực sự là sai. Trong tình huống này, bạn không nên báo cáo xác suất thực nghiệm, vì nó bị thiên lệch. Tại sao? Giả sử xác suất thực sự của mô hình được kiểm tra là đúng là p. Vậy xác suất thực nghiệm mà LLM nói "đúng" (= q) là q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p Vì vậy, ước lượng không thiên lệch nên là...