Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
nhà nghiên cứu ai & kỹ sư phần mềm, trong nhiệm vụ xây dựng cụm GPU DGX B200
NHỮNG ĐIỀU NGUY HIỂM
> hơn 20 triệu cuộc trò chuyện ChatGPT
> hiện là bằng chứng... một thẩm phán vừa ra lệnh
> OpenAI phải giao nộp chúng trong một vụ kiện
nếu có điều gì đó kêu gọi
> Mua một GPU
> chạy AI của bạn tại chỗ
> bảo vệ dữ liệu của bạn
thì chính là điều này đây.


Adam Eisgrau02:12 4 thg 12
TIN NÓNG: @OpenAI phải chuyển giao hơn 20 triệu nhật ký trò chuyện cho nguyên đơn, Thẩm phán Ona Wang đã ra phán quyết trong một Quyết định dài 9 trang vừa được phát hành:

626,01K
tín hiệu cực kỳ giảm giá
> chiêu đãi và mời gọi những nhân viên tiềm năng
> xảy ra hoặc do lòng hào phóng
> hoặc do sự tuyệt vọng
> trong trường hợp này là cái sau
Mark Zuckerberg sẽ được nhớ đến vì
> đã thuê Alexandr Wang,
> làm sếp của Yann LeCun &
> phá hủy FAIR
đã đạt đỉnh với Llama3 ig


Yuchen Jin02:47 3 thg 12
Mark Chen của OpenAI:
- "Meta đã nhắm đến một nửa số báo cáo trực tiếp của tôi và tất cả họ đều từ chối."
- "Meta có 10 tỷ đô la vốn mỗi năm để triển khai cho tài năng."
- "Zuck đã tự tay nấu và giao tận tay súp cho những người mà anh ấy đang cố gắng tuyển dụng từ OpenAI."
Cuộc chiến tài năng AI điên rồ.
13,62K
> trở thành arcee
> nhìn xung quanh
> nhận ra rằng trọng số mở MoE về cơ bản là một độc quyền Qwen/DeepSeek
> quyết định “không, chúng tôi sẽ tự xây dựng”
> huấn luyện trước thực sự từ đầu đến cuối
> trên đất Mỹ
> giới thiệu Trinity
> Nano (6B MoE) và Mini (26B MoE)
> trọng số mở, Apache 2.0
> miễn phí trên OpenRouter tạm thời
> Nano: mô hình tính cách với 800M tham số hoạt động
> Mini: mô hình lý luận với 3B hoạt động
> Lớn: đang huấn luyện ngay bây giờ trên 2048 B300s vì sao không
> tương lai là rõ ràng
> các mô hình sẽ không phải là thiết bị tĩnh
> chúng sẽ là các hệ thống phát triển
> thích ứng
> học từ người dùng của bạn
> huấn luyện lại từ việc sử dụng trực tiếp
> bạn không thể làm điều đó nếu bạn không sở hữu trọng số
> hoặc vòng lặp huấn luyện
> vì vậy arcee lật bàn
> quyết định tự huấn luyện mọi thứ
> bước 1: AFM-4.5B
> 8T token được chọn lọc
> huấn luyện với DatologyAI
> thí nghiệm “chúng ta có thể làm điều này không”
> câu trả lời: có
> cũng: toán học và mã vẫn đau
> tiếp tục bất chấp
> bước 2: Trinity Nano & Mini
> nhảy thẳng vào vùng đất MoE
> 56 lớp, 128 chuyên gia
> định tuyến sigmoid, chuyên gia chia sẻ, không mất mát phụ
> chú ý có cổng, QK-norm, truy vấn nhóm
> mô hình hóa cục bộ/toàn cầu
> bộ tối ưu hóa muon
> huấn luyện bf16 trên 512 H200s
> toàn bộ Dion/TorchTitan/HSDP đặc biệt
> độ dài ngữ cảnh?
> Nano được huấn luyện ở 256k (suy diễn ở 128k)
> Mini được huấn luyện ở 128k
> dữ liệu?
> 10T token qua 3 giai đoạn
> rộng → sắc nét → nặng STEM
> Datology sản xuất ra vòi phun tổng hợp
> Prime Intellect giữ cho các cụm H100 sống sót
> và vâng
> huấn luyện MoE ở quy mô này là đau
> “không có cách nào lịch sự để nói điều đó,” đau
> 20T token cho Trinity Large
> 2048 H100s tạo ra dữ liệu tổng hợp
> 2048 B300s huấn luyện mô hình thực tế
> (gỡ lỗi là lối sống btw)
> nhưng đây là nơi nó trở nên thú vị
> vì một khi bạn sở hữu huấn luyện trước
> bạn sở hữu mọi thứ phía trên “sản phẩm”
> nguồn gốc dữ liệu
> mục tiêu
> độ trôi hành vi
> huấn luyện lại tại chỗ
> hệ thống thực sự lâu dài
> không phải là địa ngục API như một sự phụ thuộc
> vậy điều gì tiếp theo?
> Trinity Large
> 420B tham số
> 13B hoạt động cho mỗi token
> hoàn toàn mở
> nhắm đến tháng 1 năm 2026
> khoảnh khắc mà “MoE Mỹ” trở thành một Thứ™
> Nano + Mini là sự khởi động
> các mô hình bạn có thể thực sự sử dụng ngay bây giờ
> tải xuống
> lưu trữ
> tinh chỉnh
> phá vỡ
> báo lỗi
> định hình việc huấn luyện của Large
> vòng lặp cộng đồng được mở khóa
> nếu bạn quan tâm đến trọng số mở
> hoặc không muốn thuê toàn bộ hệ thống của bạn cho các phòng thí nghiệm hộp đen
> Trinity về cơ bản là một thách thức
> lấy Nano + Mini trên Hugging Face
> hoặc chạy chúng trên OpenRouter
> kiểm tra áp lực chúng
> tìm các vết nứt
> gửi phản hồi
> toàn bộ điểm là quyền sở hữu
> tôi thích arcee, họ đang xây dựng những mô hình này để bạn không phải thuê trí tuệ của mình từ người khác

27,61K
Hàng đầu
Thứ hạng
Yêu thích

