Tại sao cross-entropy lại là một hàm mất mát tốt cho việc tiền huấn luyện ngôn ngữ? Lưu ý: tất cả những điều này đều đã được biết đến; thú vị là, mặc dù có nhiều quan điểm và trực giác về "tại sao x-ent", nhưng tất cả đều có thể được đưa ra từ một điểm khởi đầu duy nhất. Đây là một phép suy diễn đơn giản từ các nguyên lý cơ bản mà không giả định gì về phân phối dữ liệu. Nó xuất phát từ một yêu cầu hoạt động rất hợp lý :) "Tôi muốn mô hình của mình nghe có vẻ thông minh" nhưng chúng ta không thể đo lường điều đó, vì vậy chúng ta hỏi "Tôi muốn mô hình của mình nghe giống như một con người" Mặc dù chúng ta có quyền truy cập vào tất cả các văn bản đã từng được viết, nhưng chúng ta cũng không thể đo lường điều đó, vì vậy chúng ta thay vào đó hỏi "Tôi muốn mô hình của mình có khả năng cao nhất để tạo ra một trong những văn bản đã từng được viết" Hoặc thẳng thắn hơn: "Tôi muốn mô hình của mình ghi nhớ dữ liệu huấn luyện." Hãy xem xét thí nghiệm tư duy này: Cho một tập dữ liệu S của tất cả văn bản đã từng được viết bởi con người, chúng ta thực hiện các thử nghiệm độc lập cho mỗi "văn bản" trong S: Mẫu: "văn bản mẫu" từ mô hình của chúng ta Pr( ;W) Kiểm tra: "văn bản mẫu" có khớp chính xác với bản gốc không? Lưu ý: chúng ta không điều kiện trên bất cứ điều gì! chúng ta chỉ hỏi, trong tất cả những gì mô hình có thể tạo ra, liệu chúng ta có được "văn bản". Định nghĩa thành công là sự kiện E = "tất cả các kiểm tra theo mẫu đều thành công" Xác suất của E là, tích của các xác suất được gán cho sự thật đúng bởi mô hình của bạn W Pr(E) = Π_{văn bản trong S} Pr(văn bản; W) Tối đa hóa log Pr(E) trên W sẽ cho bạn mục tiêu cross-entropy. Bạn làm thế nào để tối ưu hóa điều này với SGD? văn bản mẫu từ tập hợp tính toán grad log Pr(token|prefix) cho mọi tiền tố của văn bản cập nhật mô hình Điều thanh lịch là điều này cùng lúc: 1) Giảm thiểu độ dài mô tả của dữ liệu dưới mô hình P( ;W) (quan điểm nén) 2) Giảm thiểu KL divergence đến phân phối thực—nếu một cái tồn tại (mặc dù chúng ta chưa bao giờ giả định một cái) 3) Thực hiện ước lượng khả năng tối đa Phép suy diễn là đơn giản và đã được biết đến, nhưng nó làm nổi bật một điều quan trọng: cross-entropy xuất hiện một cách tự nhiên từ việc muốn tái tạo chính xác dữ liệu huấn luyện. P.S. bạn có thể đã hỏi để tối đa hóa Pr(văn bản được tạo ra bởi mô hình nằm trong sự thật đúng) thú vị là, tối ưu hóa điều này có thể dẫn đến sự sụp đổ chế độ, vì một giải pháp tối ưu là luôn dự đoán một mảnh văn bản duy nhất từ tập hợp. Tuy nhiên, các gradient lại trông giống như x-entropy nhưng với một yếu tố nhân tức là, Pr(văn bản;W) grad log Pr(văn bản;W)
64,23K