Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tài liệu cho bài giảng của tôi "Lý luận LLM" tại Stanford CS 25:
Các điểm chính:
1. Lý luận trong LLM chỉ đơn giản có nghĩa là tạo ra một chuỗi các token trung gian trước khi đưa ra câu trả lời cuối cùng. Việc điều này có giống với lý luận của con người hay không là không quan trọng. Điều quan trọng là các mô hình transformer có thể trở nên mạnh mẽ gần như vô hạn bằng cách tạo ra nhiều token trung gian, mà không cần phải mở rộng kích thước mô hình (
2. Các mô hình đã được huấn luyện trước, ngay cả khi không có bất kỳ tinh chỉnh nào, cũng có khả năng lý luận. Thách thức là các đầu ra dựa trên lý luận thường không xuất hiện ở đầu phân phối đầu ra, vì vậy việc giải mã tham lam tiêu chuẩn không thể làm nổi bật chúng (
3. Các kỹ thuật gợi ý (ví dụ: gợi ý chuỗi suy nghĩ hoặc "hãy nghĩ từng bước") và tinh chỉnh có giám sát thường được sử dụng để khơi gợi lý luận. Bây giờ, tinh chỉnh RL đã xuất hiện như là phương pháp mạnh mẽ nhất. Mẹo này đã được phát hiện độc lập bởi một số phòng thí nghiệm. Tại Google, công lao thuộc về Jonathan Lai trong nhóm của tôi. Dựa trên lý thuyết của chúng tôi (xem điểm 1), việc mở rộng RL nên tập trung vào việc tạo ra các phản hồi dài thay vì điều gì khác.
4. Lý luận LLM có thể được cải thiện rất nhiều bằng cách tạo ra nhiều phản hồi và sau đó tổng hợp chúng, thay vì chỉ dựa vào một phản hồi duy nhất (
177,33K
Hàng đầu
Thứ hạng
Yêu thích