Gần đây, podcaster nổi tiếng Dwarkesh Patel đã có một cuộc phỏng vấn với AK, đây là mô tả của anh ấy: Đối với tôi, phần thú vị nhất là Andrej Karpathy (thường được người hâm mộ gọi là "Thần thánh AI") giải thích tại sao các mô hình ngôn ngữ lớn (LLM) không thể học như con người. Quả nhiên, Thần thánh lại tạo ra một từ rất sinh động để mô tả học tăng cường (Reinforcement Learning, viết tắt là RL): "sử dụng ống hút để hút dữ liệu giám sát". Câu này có ý nghĩa gì? Có nghĩa là, trong một lần thử nghiệm thành công (ví dụ như AI chơi cờ và thắng), phần thưởng cuối cùng của "thắng" sẽ được phân bổ cho từng bước đi mà nó đã thực hiện, cho từng từ mà nó đã tạo ra. Ngay cả khi có một số bước ở giữa là sai hoặc không quan trọng, chỉ cần kết quả cuối cùng là đúng, thì những bước đó cũng sẽ được thuật toán "tăng điểm". > "Tôi đã từng nói rằng, con người không sử dụng học tăng cường. Tôi nghĩ cách học của con người hoàn toàn khác. Học tăng cường tệ hơn nhiều so với những gì người bình thường nghĩ. Học tăng cường rất tệ. Chỉ là, những thuật toán khác mà chúng ta đã có trước đây còn tệ hơn nó nhiều." Vậy con người học như thế nào? > "Tôi đọc một cuốn sách, cuốn sách đó đối với tôi giống như một bộ 'gợi ý' (prompts), để tôi có thể 'tổng hợp dữ liệu' (synthetic data generation) trong đầu. Bạn phải chủ động xử lý những thông tin này để thực sự có được kiến thức. Nhưng các mô hình ngôn ngữ lớn (LLM) không có cơ chế tương ứng; chúng thực sự không làm như vậy." > "Tôi rất muốn thấy một giai đoạn trong quá trình tiền huấn luyện (pretraining) của mô hình, nơi mô hình có thể 'suy nghĩ' về tài liệu mà nó đã đọc và cố gắng liên kết nó với những kiến thức mà nó đã biết (tức là hiểu biết tổng hợp). Hiện tại không có cơ chế như vậy. Điều này vẫn đang ở giai đoạn nghiên cứu." Vậy tại sao chúng ta không thể thêm việc "suy nghĩ" này vào các mô hình ngôn ngữ lớn ngay bây giờ? > "Có những lý do rất tinh vi và khó hiểu khiến việc này không đơn giản như vậy. Nếu tôi để mô hình 'suy nghĩ' về một cuốn sách và tạo ra một số dữ liệu tổng hợp, bạn có thể nghĩ: 'Điều này trông thật tuyệt! Tại sao không thể sử dụng nó để huấn luyện?' Bạn có thể thử, nhưng nếu bạn kiên trì làm như vậy, hiệu suất của mô hình thực sự sẽ trở nên tệ hơn." > "Ví dụ, chúng ta lấy một chương nào đó trong một cuốn sách, tôi để một mô hình ngôn ngữ lớn 'suy nghĩ' về nó. Nó sẽ đưa ra một câu trả lời trông có vẻ hợp lý. Nhưng nếu tôi để nó trả lời 10 lần, bạn sẽ thấy rằng 10 lần trả lời đó gần như giống hệt nhau." > "Bạn không thể nhận được sự phong phú, đa dạng và 'entropy' (ở đây chỉ sự hỗn loạn và sáng tạo trong suy nghĩ) mà con người có khi suy nghĩ từ những mô hình này. Bạn không thể có được những ý tưởng kỳ quặc như con người. Vì vậy, làm thế nào để trong khi mô hình có xu hướng 'sụp đổ' (collapse) (chỉ việc câu trả lời trở nên đơn điệu, thiếu đa dạng), vẫn có thể làm cho dữ liệu tổng hợp có tác dụng và giữ được 'entropy' này? Đây vẫn là một vấn đề nghiên cứu." Vậy con người làm thế nào để tránh được sự "sụp đổ tư duy" này? > "(So sánh con người và mô hình) Ý tưởng này thật sự rất hay. Con người trong suốt cuộc đời của họ cũng sẽ 'sụp đổ'. Trẻ em chưa 'quá khớp' (overfitting) (chỉ việc tư duy cứng nhắc, chỉ thích ứng với các mẫu cụ thể). Chúng sẽ nói ra những điều khiến bạn ngạc nhiên. Đó là vì chúng chưa 'sụp đổ'. Nhưng chúng ta, những người lớn, đã 'sụp đổ'. Cuối cùng, chúng ta sẽ lặp đi lặp lại những ý tưởng giống nhau, những gì chúng ta nói cũng ngày càng giống nhau, tỷ lệ học của chúng ta giảm, tình trạng 'sụp đổ' ngày càng tồi tệ, cuối cùng mọi thứ đều thoái hóa." Thực tế, có một bài báo rất thú vị (Bài báo của Erik Hoel "Não bộ quá khớp" (The Overfitted Brain)) đã đề xuất rằng, sự tiến hóa của chức năng mơ mộng của con người là để giúp chúng ta nâng cao 'khả năng tổng quát' (generalization) (chỉ khả năng rút ra bài học từ một ví dụ), chống lại 'quá khớp' do việc học hàng ngày mang lại. ...