哭了, SOTA 只是面子, 真幹活還得靠"牛馬模型" OpenRouter 創始人 Alex Atallah 剛發了個推, 說自己用量最大的還是 Kimi-K2-0711 (7月份的 Kimi-K2-Instruct). 然後是 openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3 我第一看上去, 這人是不是斷網了, 好久沒用新的大模型了? 但仔細一想, 不對, 很不對勁. 這才是真正 Power User 的用法, 太真實了 如果在這個時間點找一個, 足夠大上下文(128K), 性能夠用(SWE-Bench Verified > 65), Agent 能力強(Tau2-bench > 65), 知識面巨廣(參數量相當大), 且回答得快(非Thinking模型), 好像只有 Kimi-K2-Instruct 了. 這麼倒推 Alex Atallah 應該大部分工作都是處理文檔 (長上下文, 尤其是用了13.4M token), 使用工具分析並撰寫報告 (Agent 能力), 這些 Kimi-K2-Instruct 都能搞定, 然後寫寫腳本 (o4 和 Claude-3.7-Sonnet 兜底, 甚至包裝成 Agent 讓 Kimi-k2 調用這些模型來寫腳本). 最後 Kimi-k2 還能滿足最重要的一點, 數據隱私, 因為模型是開放權重的, 可以部署在自家服務器, 任何敏感信息都不會洩露給 OpenAI 或者 Anthropic. 甚至下面那個 GPT-OSS-120B 存在意義應該也在於此. 我大概能懂現在新的大模型為什麼卷 Agent 能力了, 人直接用 AI 只是中間階段, 高級用戶都已經用 AI 來操作 AI 了. 一個用來收發所有 AI 上下文的 Agent 特化模型必然會是用量 Top. 原帖: