Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
nhà nghiên cứu ai & kỹ sư phần mềm, trong nhiệm vụ xây dựng cụm GPU DGX B200
mọi người:
- "chỉ cần sử dụng API"
PewDiePie:
- xây dựng một máy chủ AI GPU 10x (8x modded 48GB 4090s, 2x RTX 4000 Ada)
- chạy opensourcemodels với vLLM cho TP
- tự viết mã giao diện Chat của mình, bao gồm RAG, DeepResearch và TTS
- đang tinh chỉnh mô hình của riêng mình
hãy như PewDiePie
Mua một GPU

300,05K
> trở thành chúng tôi
> Larry & Sergey
> một ký túc xá ở Stanford, những cơn rung động do caffeine, tham vọng hoang dã
> ghép lại một trình thu thập thông tin web tạm bợ
> vô tình tổ chức toàn bộ internet
> gọi nó là Google
> xây dựng tìm kiếm, email, bản đồ, tài liệu, hệ điều hành, điện thoại, trình duyệt, ô tô, vệ tinh, nhiệt độ, phòng thí nghiệm AI, trang trại TPU, và máy tính lượng tử
> 2025
> mọi người nói về AGI
> OpenAI: “chúng tôi cần dữ liệu, cảm biến, phản hồi, và quy mô”
> chúng tôi: nhìn chằm chằm vào Google Maps, YouTube, Gmail, Android, Waymo, Pixel, Fitbit, Docs, Lịch, Street View, và Earth Engine
> "chết tiệt. có lẽ chúng tôi đã làm điều đó rồi."
> YouTube: 2.6 triệu video/ngày
> Android: 3 tỷ điện thoại, truyền dữ liệu cảm biến 24/7
> Gmail: 1.8 tỷ hộp thư của những người trước đây
> Tìm kiếm: RLHF quy mô toàn cầu
> Waymo: 71 triệu dặm video tự lái thực tế
> Google Earth: mô phỏng toàn bộ hành tinh
> cũng như lịch của bạn
> mọi người đang đào tạo LLM trên sách và PDF
> chúng tôi đào tạo trên nhân loại
> mỗi cú nhấp chuột, vuốt, chạm, tìm kiếm sai chính tả, cuộn, và đánh dấu
> vòng phản hồi từ địa ngục (hoặc thiên đường)
> tùy thuộc vào ai bạn hỏi
> OpenAI: “chúng tôi cần 100 tỷ đô la cho GPU”
> chúng tôi: đã xây dựng TPUs rồi
> silicon tùy chỉnh
> các trung tâm dữ liệu được đặt trước với các hồ dữ liệu hành tinh
> không có phí ra, không có độ trễ
> chỉ có cảm xúc và FLOPs
> lập trình viên: tinh chỉnh trên các kho GitHub
> chúng tôi: 2 TỶ dòng mã nội bộ
> được gán nhãn, gõ, kiểm tra
> mỗi cam kết là một tín hiệu đào tạo
> Code LLM mơ ước trở thành monorepo của chúng tôi
> công thức AGI?
> nhận thức đa phương thức
> phản hồi từ thế giới thực
> mã nguồn khổng lồ
> tính toán có thể mở rộng
> tín hiệu căn chỉnh
> cảm biến hiện thân
> dữ liệu người dùng trong nhiều ngày
> vâng, chúng tôi đã có điều đó từ năm 2016
> không có bản trình bày cho nhà đầu tư
> không có vòng huy động vốn hàng nghìn tỷ đô la
> chỉ là một mô phỏng trái đất tình cờ kéo dài 25 năm
> đang chạy trong sản xuất
> OpenAI huy động 1 nghìn tỷ đô la để xây dựng AGI
> các nhà đầu tư gọi đó là cách mạng
> chúng tôi: lặng lẽ lập bản đồ 10 triệu dặm mới trong Street View
> đồng bộ hóa thêm 80PB hình ảnh trái đất
> thu thập thêm một năm tín hiệu sinh học từ Fitbit
> hãy tận hưởng mô hình nền tảng của bạn
> chúng tôi SỞ HỮU nền tảng
> mọi người: “nhưng Google đang lúng túng”
> đúng
> chúng tôi đang lúng túng ở 120 quốc gia cùng một lúc
> với dấu chân tính toán lớn nhất và đội ngũ nghiên cứu trên trái đất
> lúng túng đủ mạnh và bạn sẽ quay lại chiến thắng
> AGI?
> chúng tôi không cần phải xây dựng nó
> nó đã ở bên trong tòa nhà
> được cung cấp bởi các tab Chrome và các phiên bản tài liệu
> mfw chúng tôi đã dành 20 năm để lập chỉ mục thực tế
> mfw dữ liệu của chúng tôi tốt đến mức khiến chúng tôi sợ hãi
> mfw điều duy nhất ngăn cản chúng tôi khỏi AGI là một cuộc họp giữa bốn phó chủ tịch và một luật sư bối rối
> gọi đó là nghiên cứu
> gọi đó là quy mô
> gọi đó là “mô phỏng hành tinh như một dịch vụ”
> chúng tôi gọi đó là Thứ Ba

57,84K
tuần trước, Karpathy đã phát hành hướng dẫn TỐI THƯỢNG để nhanh chóng bước vào LLMs
trong dự án này, bạn sẽ xây dựng tất cả những điều cần thiết, tất cả dưới 8k dòng mã
> huấn luyện tokenizer — triển khai rust mới
> tiền huấn luyện một transformer LLM trên fineweb
> đánh giá điểm cốt lõi qua một loạt các chỉ số
> midtrain — các cuộc hội thoại giữa người dùng và trợ lý từ smoltalk,
> câu hỏi trắc nghiệm, sử dụng công cụ
> sft, sau đó đánh giá mô hình chat trên:
> kiến thức thế giới MCQ (arc-e/c, mmlu)
> toán học (gsm8k)
> mã (humaneval)
> rl mô hình (tùy chọn) trên gsm8k với “grpo”
> suy diễn hiệu quả:
> bộ nhớ kv, điền/giải mã nhanh
> sử dụng công cụ (trình thông dịch python, trong môi trường cách ly)
> truy cập qua cli hoặc giao diện web giống chatgpt
> viết một báo cáo markdown duy nhất,
> tóm tắt + gamify toàn bộ quy trình
mô hình bạn sẽ xây dựng:
> chỉ rotary (không có nhúng vị trí)
> qk norm
> nhúng / không nhúng không gắn bó
> chuẩn hóa sau khi nhúng token
> relu² mlp
> không có độ thiên trong các tuyến tính
> rmsnorm (không có tham số học được)
> mqa (chú ý nhiều truy vấn)
> logit softcap
> bộ tối ưu: muon + adamw
nếu tôi có điều này cách đây vài năm, tôi đã tránh được một nửa nỗi đau và bỏ qua gấp đôi những cái hố thỏ
chúc bạn lập trình vui vẻ

38,28K
Hàng đầu
Thứ hạng
Yêu thích

