Các nhà nghiên cứu tại Stanford đã xây dựng một kỹ thuật gợi ý mới! Bằng cách thêm ~20 từ vào một gợi ý, nó: - tăng cường sự sáng tạo của LLM lên 1.6-2x - nâng cao sự đa dạng được đánh giá bởi con người lên 25.7% - vượt qua mô hình đã được tinh chỉnh mà không cần đào tạo lại - phục hồi 66.8% sự sáng tạo đã mất của LLM sau khi căn chỉnh Các phương pháp căn chỉnh sau đào tạo, chẳng hạn như RLHF, được thiết kế để làm cho LLM hữu ích và an toàn. Tuy nhiên, những phương pháp này vô tình gây ra sự sụt giảm đáng kể về sự đa dạng đầu ra (gọi là sự sụp đổ chế độ). Khi một LLM sụp đổ vào một chế độ, nó bắt đầu ưa chuộng một tập hợp hẹp các phản hồi có thể đoán trước hoặc điển hình hơn so với các đầu ra khác. Điều này xảy ra vì dữ liệu sở thích của con người được sử dụng để đào tạo LLM có một khuyết điểm ẩn gọi là thiên lệch điển hình. Dưới đây là cách điều này xảy ra: - Những người chú thích đánh giá các phản hồi khác nhau từ một LLM, và sau đó, LLM được đào tạo bằng cách sử dụng một mô hình thưởng để bắt chước những sở thích của con người này. - Tuy nhiên, những người chú thích tự nhiên có xu hướng ưa chuộng các câu trả lời quen thuộc hơn, dễ đọc và có thể đoán trước. Đây là thiên lệch điển hình. Vì vậy, ngay cả khi một câu trả lời mới, sáng tạo cũng tốt như vậy, sở thích của con người thường nghiêng về câu trả lời phổ biến hơn. Do đó, mô hình thưởng thúc đẩy các phản hồi mà mô hình gốc (trước khi căn chỉnh) đã xem là có khả năng. Điều này làm sắc nét một cách mạnh mẽ phân phối xác suất của LLM, làm cho đầu ra sáng tạo của mô hình sụp đổ thành một hoặc hai phản hồi chiếm ưu thế, có thể đoán trước cao. Nói vậy, đây không phải là một hiệu ứng không thể đảo ngược, và LLM vẫn có hai tính cách sau khi căn chỉnh: - Mô hình gốc đã học những khả năng phong phú trong quá trình đào tạo trước. - Mô hình tập trung vào an toàn, đã được căn chỉnh sau....