Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Khóc rồi, SOTA chỉ là bề ngoài, làm việc thực sự vẫn phải dựa vào "Mô hình Bò Ngựa" Người sáng lập OpenRouter, Alex Atallah vừa đăng một tweet, nói rằng mình vẫn sử dụng nhiều nhất là Kimi-K2-0711 (Kimi-K2-Instruct tháng 7). Sau đó là openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3. Lần đầu tiên nhìn thấy, tôi nghĩ người này có phải đã mất mạng không, lâu rồi không dùng mô hình lớn mới? Nhưng suy nghĩ kỹ lại, không đúng, rất không đúng. Đây mới thực sự là cách sử dụng của Power User, quá thực tế. Nếu vào thời điểm này tìm một mô hình đủ lớn với ngữ cảnh (128K), hiệu suất sử dụng được (SWE-Bench Verified > 65), khả năng Agent mạnh (Tau2-bench > 65), kiến thức rộng lớn (số lượng tham số khá lớn), và trả lời nhanh (không phải mô hình Thinking), có vẻ chỉ còn Kimi-K2-Instruct. Vậy suy ra Alex Atallah chắc hẳn phần lớn công việc đều là xử lý tài liệu (ngữ cảnh dài, đặc biệt là đã sử dụng 13.4M token), sử dụng công cụ phân tích và viết báo cáo (khả năng Agent), tất cả những điều này Kimi-K2-Instruct đều có thể làm được, sau đó viết một số kịch bản (o4 và Claude-3.7-Sonnet làm dự phòng, thậm chí đóng gói thành Agent để Kimi-k2 gọi những mô hình này để viết kịch bản). Cuối cùng Kimi-k2 còn đáp ứng được điều quan trọng nhất, đó là bảo mật dữ liệu, vì mô hình có trọng số mở, có thể triển khai trên máy chủ riêng, bất kỳ thông tin nhạy cảm nào cũng sẽ không bị rò rỉ cho OpenAI hoặc Anthropic. Thậm chí mô hình GPT-OSS-120B bên dưới có lẽ cũng tồn tại với ý nghĩa này. Tôi có thể hiểu tại sao các mô hình lớn mới hiện nay lại cạnh tranh về khả năng Agent, con người trực tiếp sử dụng AI chỉ là giai đoạn trung gian, người dùng cao cấp đã sử dụng AI để điều khiển AI rồi. Một mô hình Agent chuyên biệt dùng để nhận và gửi tất cả ngữ cảnh AI chắc chắn sẽ là mô hình được sử dụng nhiều nhất.

Hàng đầu

Thứ hạng

Yêu thích