Trong một bài báo chung với @OwainEvans_UK như một phần của Chương trình Nghiên cứu sinh Nhân loại, chúng tôi nghiên cứu một hiện tượng đáng ngạc nhiên: học tập tiềm thức. Các mô hình ngôn ngữ có thể truyền các đặc điểm của chúng sang các mô hình khác, ngay cả trong những gì dường như là dữ liệu vô nghĩa.
Owain Evans
Owain Evans23 thg 7, 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Học ngầm có thể xảy ra đối với những đặc điểm vô hại (như thích đại bàng) hoặc những đặc điểm đáng lo ngại hơn (như sự không phù hợp). Điều này có những hệ quả đối với việc đào tạo trên dữ liệu do mô hình tạo ra. Đọc thêm trên blog Khoa học Căn chỉnh của chúng tôi:
240,67K