Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài báo này của NVIDIA vừa làm tôi choáng váng.
Mọi người cứ nói về việc mở rộng các transformer với các cụm lớn hơn và các bộ tối ưu thông minh hơn… trong khi đó NVIDIA và Oxford vừa cho thấy bạn có thể huấn luyện các mô hình tỷ lệ tỷ tham số bằng cách sử dụng các chiến lược tiến hóa, một phương pháp mà hầu hết mọi người đã viết ra như là cổ xưa.
Mánh khóe là một hệ thống mới gọi là EGGROLL, và nó đảo ngược toàn bộ mô hình chi phí của ES.
Thông thường, ES chết ở quy mô lớn vì bạn phải tạo ra các ma trận nhiễu đầy đủ cho mỗi thành viên trong quần thể. Đối với các mô hình tỷ lệ tỷ tham số, điều đó có nghĩa là di chuyển bộ nhớ điên cuồng và tính toán vô lý.
Những người này đã giải quyết vấn đề bằng cách tạo ra các nhiễu bậc thấp bằng cách sử dụng hai ma trận mảnh A và B và để ABᵀ hoạt động như là cập nhật.
Trung bình quần thể sau đó hoạt động như một cập nhật bậc đầy đủ mà không phải trả giá cho bậc đầy đủ.
Kết quả?
Họ chạy các chiến lược tiến hóa với kích thước quần thể lên đến hàng trăm nghìn, một con số mà các công trình trước đó không thể chạm tới vì mọi thứ đều tan chảy dưới áp lực bộ nhớ. Bây giờ, thông lượng cơ bản nhanh như suy diễn theo lô.
Điều đó là chưa từng có đối với bất kỳ phương pháp nào không dựa vào gradient.
Toán học cũng kiểm tra được.
Sự xấp xỉ bậc thấp hội tụ về gradient ES thực sự với tỷ lệ 1/r, vì vậy việc đẩy bậc tái tạo hành vi ES đầy đủ mà không có sự bùng nổ tính toán.
Nhưng các thí nghiệm mới là nơi mọi thứ trở nên điên rồ.
→ Họ tiền huấn luyện các LM hồi tiếp từ đầu chỉ bằng cách sử dụng các kiểu dữ liệu nguyên. Không có gradient. Không có backprop. Hoàn toàn ổn định ngay cả ở quy mô lớn.
→ Họ đạt được các phương pháp cấp GRPO trên các tiêu chuẩn lý luận LLM.
Điều đó có nghĩa là ES có thể cạnh tranh với các phương pháp RL hiện đại cho lý luận trên các nhiệm vụ thực tế.
→ ES đột nhiên trở nên khả thi cho các hệ thống lớn, rời rạc, hỗn hợp và không khả vi, chính xác là những nơi mà backprop là đau đớn hoặc không thể.
...

Hàng đầu
Thứ hạng
Yêu thích

