vậy bạn chọn cái chết
Để phản hồi ở cấp độ đối tượng @TheZvi Về mặt kỹ thuật, DSA có thể là một bước nhảy vọt lớn khiến các ngữ cảnh quy mô Gemini trở nên rẻ một cách dễ dàng, ngay cả đối với các mô hình thế hệ trước. Một số lưu ý: - chúng tôi không chắc *nếu* nó có thể mở rộng đến 1M+ (nhưng V3.2 exp≥V3.1 mặc dù được huấn luyện trước giống nhau, và V3.2>> exp, vì vậy rất có khả năng là có) - chúng tôi không chắc nó có thể được huấn luyện mà không cần khởi động từ sự chú ý dày đặc. Có thể DeepSeek biết. Tôi nghĩ V4 sẽ không sử dụng DSA, nó được gọi rõ ràng là một nguyên mẫu. Trong trường hợp xấu nhất, cũng hợp lý khi huấn luyện trước với sự chú ý đầy đủ => mở rộng => làm thưa, bạn sẽ tốn nhiều chi phí hơn trong việc huấn luyện trước để có sự suy diễn rẻ hơn vĩnh viễn. - Kimi's KDA hoặc Qwen's GDN+ hoặc một cái gì đó có thể thậm chí còn tốt hơn DSA+/NSA+ Ngoài những lưu ý này, đây không phải là một sự giảm giá 2x, tôi đang nói mỉa mai. Hơn như là 10x. Sự chú ý thưa mà không bị suy giảm là một vấn đề khá lớn. Về tốc độ, đây là một điểm trống từ góc độ mô hình. DeepSeek không quan tâm đến việc cung cấp sản phẩm tốt nhất. Họ phục vụ với các lô lớn từ H800s/Ascends. Bạn có thể đặt nó trên phần cứng của Mỹ và đạt được 60-150 t/s, hoặc trên Cerebras và đạt được 1000 t/s giống như GLM, mà không làm tăng chi phí. Kiến trúc này vốn đã nhanh (sự chú ý nông, rẻ), chỉ là DeepSeek phục vụ nó một cách chậm chạp. Về trí tuệ tiên phong, tôi đang nói rằng những lợi thế «sử dụng tối đa» của biên giới – chủ yếu là lập trình tác nhân, nhưng bạn có thể bao phủ nhiều lĩnh vực hơn theo cách tương tự – là sản phẩm của việc chi tiêu tính toán cho các bước RL và lặp qua các môi trường tổng hợp. Họ có công thức. Họ báo cáo ≈10% chi phí huấn luyện trước được chi cho Speciale. Đó là ≈600K đô la. Grok 4 được cho là đã sử dụng 100% Grok 3, hoặc hàng chục đến hàng trăm triệu. Rõ ràng là nó đã rất không hiệu quả với Grok, nhưng tôi nghĩ DeepSeek có thể dễ dàng đạt 100%, công thức đã được biết. Họ có thể không muốn lãng phí nó vào một nền tảng lỗi thời, vì họ lưu ý rằng nó vẫn bị tắc nghẽn kiến thức. Tôi thấy thái độ thờ ơ đối với hiệu suất toán học cấp IMO (hoặc việc giải các bài toán Erdos ở mức mà người giải thích nói «vâng, đó cơ bản là giải pháp của tôi») thật buồn cười. Chẳng phải chúng ta đều phải mong đợi AGI từ nghiên cứu toán học độc lập sao. Hay chỉ là lập trình bây giờ. Có thể đó là khả năng thú vị nhất để ước lượng tốc độ cất cánh. Nhưng dù sao, tôi tin vào việc cất cánh chậm, việc tự cải thiện sẽ gặp phải các vấn đề về logistics bất kể chúng ta bắt đầu từ đâu. Đóng góp chính ở đây, như tôi đã nói, là họ công bố niềm tin rằng về cơ bản họ đã giải quyết việc huấn luyện các LLM tiên phong vào cuối năm 2025 như một chương trình nghiên cứu, và có thể đạt được mức độ hiện tại của phương Tây hoặc vượt qua nó chỉ bằng cách đổ thêm tính toán (cộng với một số điều chỉnh nhỏ về hiệu quả token). Về lý thuyết, thông báo của họ về việc xem xét việc huấn luyện quy mô lớn hơn cuối cùng có thể được hiểu là «và đó là những gì chúng tôi đang làm bây giờ». Nhưng điều đó vẫn cần được chứng minh.
@TheZvi > mặc dù được huấn luyện trước và sau giống hệt nhau, điều chỉnh
3,33K