热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
哭了, SOTA 只是面子, 真干活还得靠"牛马模型"
OpenRouter 创始人 Alex Atallah 刚发了个推, 说自己用量最大的还是 Kimi-K2-0711 (7月份的 Kimi-K2-Instruct).
然后是 openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3
我第一看上去, 这人是不是断网了, 好久没用新的大模型了?
但仔细一想, 不对, 很不对劲. 这才是真正 Power User 的用法, 太真实了
如果在这个时间点找一个, 足够大上下文(128K), 性能够用(SWE-Bench Verified > 65), Agent 能力强(Tau2-bench > 65), 知识面巨广(参数量相当大), 且回答得快(非Thinking模型), 好像只有 Kimi-K2-Instruct 了.
这么倒推 Alex Atallah 应该大部分工作都是处理文档 (长上下文, 尤其是用了13.4M token), 使用工具分析并撰写报告 (Agent 能力), 这些 Kimi-K2-Instruct 都能搞定, 然后写写脚本 (o4 和 Claude-3.7-Sonnet 兜底, 甚至包装成 Agent 让 Kimi-k2 调用这些模型来写脚本).
最后 Kimi-k2 还能满足最重要的一点, 数据隐私, 因为模型是开放权重的, 可以部署在自家服务器, 任何敏感信息都不会泄露给 OpenAI 或者 Anthropic. 甚至下面那个 GPT-OSS-120B 存在意义应该也在于此.
我大概能懂现在新的大模型为什么卷 Agent 能力了, 人直接用 AI 只是中间阶段, 高级用户都已经用 AI 来操作 AI 了. 一个用来收发所有 AI 上下文的 Agent 特化模型必然会是用量 Top.
原帖:


热门
排行
收藏
