Phần thú vị nhất đối với tôi là nơi @karpathy mô tả tại sao LLM không thể học như con người. Như bạn mong đợi, anh ấy đưa ra một cụm từ gợi cảm tuyệt vời để mô tả RL: “hút các bit giám sát qua một cái ống.” Một phần thưởng cuối cùng được phát sóng trên mỗi token trong một quỹ đạo thành công, tăng trọng số ngay cả những lượt sai hoặc không liên quan dẫn đến câu trả lời đúng. > “Con người không sử dụng học tăng cường, như tôi đã nói trước đây. Tôi nghĩ họ làm điều gì đó khác. Học tăng cường tệ hơn nhiều so với những gì người bình thường nghĩ. Học tăng cường thật tệ. Chỉ là mọi thứ mà chúng ta có trước đây tệ hơn nhiều.” Vậy con người làm gì thay vào đó? > “Cuốn sách tôi đang đọc là một tập hợp các gợi ý để tôi thực hiện việc tạo dữ liệu tổng hợp. Bằng cách thao tác thông tin đó, bạn thực sự có được kiến thức. Chúng ta không có tương đương với điều đó với LLM; chúng thực sự không làm điều đó.” > “Tôi rất muốn thấy trong quá trình tiền huấn luyện một loại giai đoạn nào đó mà mô hình suy nghĩ về tài liệu và cố gắng hòa giải nó với những gì nó đã biết. Không có tương đương nào cho điều này. Tất cả đều là nghiên cứu.” Tại sao chúng ta không thể chỉ thêm việc huấn luyện này vào LLM ngay hôm nay? > “Có những lý do rất tinh vi, khó hiểu tại sao điều đó không đơn giản. Nếu tôi chỉ cung cấp việc tạo tổng hợp của mô hình suy nghĩ về một cuốn sách, bạn nhìn vào nó và bạn sẽ nghĩ, 'Điều này trông tuyệt vời. Tại sao tôi không thể huấn luyện trên đó?' Bạn có thể thử, nhưng mô hình thực sự sẽ trở nên tệ hơn nhiều nếu bạn tiếp tục thử.” > “Giả sử chúng ta có một chương của một cuốn sách và tôi yêu cầu một LLM suy nghĩ về nó. Nó sẽ đưa cho bạn một cái gì đó trông rất hợp lý. Nhưng nếu tôi hỏi nó 10 lần, bạn sẽ nhận thấy rằng tất cả đều giống nhau.” > “Bạn không nhận được sự phong phú và đa dạng và entropy từ những mô hình này như bạn sẽ nhận được từ con người. Làm thế nào bạn có thể làm cho việc tạo dữ liệu tổng hợp hoạt động bất chấp sự sụp đổ và trong khi duy trì entropy? Đây là một vấn đề nghiên cứu.” Con người làm thế nào để vượt qua sự sụp đổ của mô hình? > “Những phép ẩn dụ này thật sự tốt. Con người sụp đổ trong suốt cuộc đời của họ. Trẻ em chưa bị overfit. Chúng sẽ nói những điều khiến bạn sốc. Bởi vì chúng chưa bị sụp đổ. Nhưng chúng tôi [người lớn] đã bị sụp đổ. Chúng tôi cuối cùng quay lại những suy nghĩ giống nhau, chúng tôi cuối cùng nói nhiều hơn và nhiều điều giống nhau, tỷ lệ học giảm xuống, sự sụp đổ tiếp tục trở nên tồi tệ hơn, và sau đó mọi thứ xấu đi.” Thực tế, có một bài báo thú vị lập luận rằng việc mơ mộng đã tiến hóa để hỗ trợ tổng quát hóa, và chống lại việc overfitting với việc học hàng ngày - hãy tìm bài viết The Overfitted Brain của @erikphoel. Tôi đã hỏi Karpathy: Có phải không thú vị rằng con người học tốt nhất ở một phần của cuộc đời họ (thời thơ ấu) mà các chi tiết thực tế họ hoàn toàn quên, người lớn vẫn học rất tốt nhưng có trí nhớ tồi tệ về những điều cụ thể mà họ đọc hoặc xem, và LLM có thể ghi nhớ các chi tiết tùy ý về văn bản mà không ai có thể nhưng hiện tại khá tệ trong việc tổng quát hóa? ...