Hầu hết mọi người nghĩ rằng tính toán phi tập trung thất bại vì "không đủ GPU." Họ đang nhìn vào nguồn cung. Rào cản thực sự là sự phối hợp, và ai giải quyết được vấn đề này sẽ được quyền đặt ra các quy tắc cho hạ tầng AI. 🧵
/2 Chúng ta cứ học sai bài học từ việc tính toán tình nguyện như Folding@Home. Những công việc đó chấp nhận các nút chậm và sự gián đoạn. Việc đào tạo và suy diễn AI hiện đại trừng phạt sự không nhất quán, một GPU không ổn định có thể làm đình trệ toàn bộ quá trình.
/3 Một câu hỏi luôn được đặt ra cho chúng tôi: Liệu các GPU phân tán toàn cầu, không đồng nhất có thể hoạt động như một máy móc dự đoán được không? Nếu câu trả lời là không, độ tin cậy và trải nghiệm của nhà phát triển sẽ không quan trọng, vì không có gì được phát hành.
/4 Internet khiến GPU hoạt động như những nhạc cụ với các âm điệu khác nhau. Các cụm trung tâm dữ liệu giả định thời gian hoàn hảo. Một mạng lưới toàn cầu mang đến cho bạn độ trễ, băng thông không đồng đều, thời gian ngừng hoạt động ngẫu nhiên và sự biến đổi phần cứng. Sự phối hợp phải hấp thụ những rắc rối đó.
/5 @YottaLabs chọn con đường hệ điều hành, không phải con đường thị trường. Lên lịch, giao tiếp, tải bộ nhớ, xử lý lỗi, xác minh. Điểm chính rất đơn giản, biến những máy không đáng tin cậy thành một cụm hoạt động đủ dự đoán để đáp ứng các SLA.
/6 Hiểu biết cụ thể nhất, chia nhỏ suy diễn thành hai công việc. Prefill cần những GPU tốt nhất. Decode có thể chạy trên các GPU yếu hơn. Thiết kế đó ngăn chặn các thẻ đắt tiền phải chờ đợi các thẻ rẻ hơn, và nó làm cho “đội hình hỗn hợp” trở nên hữu ích thay vì đau đớn.
/7 Sau đó là nút thắt ẩn, di chuyển bộ nhớ làm việc của mô hình (bộ nhớ KV). Nếu bạn chuyển nó trong một lần lớn, bạn sẽ bị kẹt. Yotta truyền các phần nhỏ trong khi tính toán diễn ra, và nén bộ nhớ, vì vậy độ trễ WAN không còn chiếm ưu thế.
113