Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vậy anh ấy đang nói rằng chó mơ để ngăn chặn việc quá khớp dữ liệu? Bởi vì tôi biết rằng những chú chó của tôi đuổi theo thỏ trong giấc ngủ của chúng.
Tôi cho rằng bạn có thể tổng quát hóa khái niệm này nhưng như đã trình bày thì nó không thuyết phục.

02:51 18 thg 10
Phần thú vị nhất đối với tôi là nơi @karpathy mô tả tại sao LLM không thể học như con người.
Như bạn mong đợi, anh ấy đưa ra một cụm từ gợi cảm tuyệt vời để mô tả RL: “hút các bit giám sát qua một cái ống.”
Một phần thưởng cuối cùng được phát sóng trên mỗi token trong một quỹ đạo thành công, tăng trọng số ngay cả những lượt sai hoặc không liên quan dẫn đến câu trả lời đúng.
> “Con người không sử dụng học tăng cường, như tôi đã nói trước đây. Tôi nghĩ họ làm điều gì đó khác. Học tăng cường tệ hơn nhiều so với những gì người bình thường nghĩ. Học tăng cường thật tệ. Chỉ là mọi thứ mà chúng ta có trước đây tệ hơn nhiều.”
Vậy con người làm gì thay vào đó?
> “Cuốn sách tôi đang đọc là một tập hợp các gợi ý để tôi thực hiện việc tạo dữ liệu tổng hợp. Bằng cách thao tác thông tin đó, bạn thực sự có được kiến thức. Chúng ta không có tương đương với điều đó với LLM; chúng thực sự không làm điều đó.”
> “Tôi rất muốn thấy trong quá trình tiền huấn luyện một loại giai đoạn nào đó mà mô hình suy nghĩ về tài liệu và cố gắng hòa giải nó với những gì nó đã biết. Không có tương đương nào cho điều này. Tất cả đều là nghiên cứu.”
Tại sao chúng ta không thể chỉ thêm việc huấn luyện này vào LLM ngay hôm nay?
> “Có những lý do rất tinh vi, khó hiểu tại sao điều đó không đơn giản. Nếu tôi chỉ cung cấp việc tạo tổng hợp của mô hình suy nghĩ về một cuốn sách, bạn nhìn vào nó và bạn sẽ nghĩ, 'Điều này trông tuyệt vời. Tại sao tôi không thể huấn luyện trên đó?' Bạn có thể thử, nhưng mô hình thực sự sẽ trở nên tệ hơn nhiều nếu bạn tiếp tục thử.”
> “Giả sử chúng ta có một chương của một cuốn sách và tôi yêu cầu một LLM suy nghĩ về nó. Nó sẽ đưa cho bạn một cái gì đó trông rất hợp lý. Nhưng nếu tôi hỏi nó 10 lần, bạn sẽ nhận thấy rằng tất cả đều giống nhau.”
> “Bạn không nhận được sự phong phú và đa dạng và entropy từ những mô hình này như bạn sẽ nhận được từ con người. Làm thế nào bạn có thể làm cho việc tạo dữ liệu tổng hợp hoạt động bất chấp sự sụp đổ và trong khi duy trì entropy? Đây là một vấn đề nghiên cứu.”
Con người làm thế nào để vượt qua sự sụp đổ của mô hình?
> “Những phép ẩn dụ này thật sự tốt. Con người sụp đổ trong suốt cuộc đời của họ. Trẻ em chưa bị overfit. Chúng sẽ nói những điều khiến bạn sốc. Bởi vì chúng chưa bị sụp đổ. Nhưng chúng tôi [người lớn] đã bị sụp đổ. Chúng tôi cuối cùng quay lại những suy nghĩ giống nhau, chúng tôi cuối cùng nói nhiều hơn và nhiều điều giống nhau, tỷ lệ học giảm xuống, sự sụp đổ tiếp tục trở nên tồi tệ hơn, và sau đó mọi thứ xấu đi.”
Thực tế, có một bài báo thú vị lập luận rằng việc mơ mộng đã tiến hóa để hỗ trợ tổng quát hóa, và chống lại việc overfitting với việc học hàng ngày - hãy tìm bài viết The Overfitted Brain của @erikphoel.
Tôi đã hỏi Karpathy: Có phải không thú vị rằng con người học tốt nhất ở một phần của cuộc đời họ (thời thơ ấu) mà các chi tiết thực tế họ hoàn toàn quên, người lớn vẫn học rất tốt nhưng có trí nhớ tồi tệ về những điều cụ thể mà họ đọc hoặc xem, và LLM có thể ghi nhớ các chi tiết tùy ý về văn bản mà không ai có thể nhưng hiện tại khá tệ trong việc tổng quát hóa?
> “[Trí nhớ con người có thể sai lầm] là một tính năng, không phải là một lỗi, vì nó buộc bạn chỉ học các thành phần có thể tổng quát hóa. LLM bị phân tâm bởi tất cả trí nhớ mà chúng có về các tài liệu đã được tiền huấn luyện. Đó là lý do tại sao khi tôi nói về lõi nhận thức, tôi thực sự muốn loại bỏ trí nhớ. Tôi rất muốn chúng có ít trí nhớ hơn để chúng phải tra cứu và chỉ duy trì các thuật toán cho suy nghĩ, và ý tưởng về một thí nghiệm, và tất cả những chất kết dính nhận thức này để hành động.
@karpathy đang bị quá khớp
399
Hàng đầu
Thứ hạng
Yêu thích