热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
哪个模型最适合您下一个软件工程任务?我们AA-Omniscience基准的结果显示,没有单一最佳模型能够在编程语言知识上表现出色。
AA-Omniscience是我们最近添加到版本4的智能指数中的基准,衡量模型在健康、商业、科学和工程等领域的知识和幻觉,包括针对编程语言的一组专门问题。我们的主要指标,Omniscience指数,衡量嵌入知识并惩罚幻觉,正确答案得分,错误猜测扣分,弃权视为中立(例如,模型承认无法可靠地回答问题)。
对于编码代理,衡量知识和幻觉尤其相关。用户必须依赖模型了解语言语法、库和版本变化,同时也要知道何时使用外部搜索工具,而不是依赖嵌入知识进行猜测。
我们的结果显示,在编程语言知识上没有单一最佳模型:
➤ Python: 🥇 Claude Opus 4.5 (推理) (56),🥈 Gemini 3 Pro Preview (高) (34),🥉 GPT-5.2 (超高) (29)
➤🥇 Gemini 3 Pro Preview (高) (56),🥈 Gemini 3 Flash Preview (推理) (54),🥉 Claude Opus 4.5 (推理) (50)
➤ Go: 🥇 Claude Opus 4.5 (推理) (54),🥈 GPT-5.2 (超高) (30),🥉 Gemini 3 Pro Preview (高) (24)
➤ R: 🥇 Claude 4.5 Sonnet (推理) (38),🥈 Claude Opus 4.5 (推理) (36),🥉 Gemini 3 Flash Preview (推理) (28)
➤ Swift: 🥇 Gemini 3 Pro Preview (高) (56),🥈 Gemini 3 Flash Preview (推理) (52),🥉 GPT-5.2 (超高) (44)

7.78K
LTX-2 是新的领先开放权重视频模型,在人工分析视频领域中超越了 Wan 2.2 A14B,无论是在文本到视频还是图像到视频方面!
LTX-2 最初由 @Lightricks 于 11 月发布,最近已开源,包括基础的 19B 模型和一个精简版本。开放权重模型与 LTX-2 API 端点(专业版和快速版)不同,后者在基础模型之上应用了额外的管道增强。
模型权重可在 @huggingface 上根据 LTX-2 社区许可证获取,该许可证通常允许在收入不超过 1000 万美元的情况下进行商业使用,并且只要不与 Lightricks 的产品直接竞争。
查看 LTX-2 如何与其他领先的开放权重视频模型(如 Wan 2.2 或 HunyuanVideo)在人工分析视频领域进行比较!

65
GLM 4.7 提供者概述:GLM 4.7 在开放权重模型中领先于人工分析智能指数,是最强的开放权重模型,适用于代理使用案例——这使得提供者的速度和定价至关重要。
来自 @Zai_org 的 GLM 4.7 现在是最智能的开放权重模型,超越了其他开放权重模型,包括 DeepSeek V3.2 和 Kimi K2 Thinking,以及专有模型如 Grok 4。它在代理设置中表现尤为强劲,在 Tau2 Bench Telecom 代理工具使用基准中记录了最高分。代理使用案例特别需要高水平的令牌使用,而 GLM 4.7 记录了运行人工分析智能指数所需的最高令牌使用量,这使得提供者的选择至关重要。
关键基准总结:
➤ ⚡ 速度:@cerebras 提供了最快的 GLM 4.7 端点,输出速度为 1,445 令牌/秒。在 GPU 推理提供者中,@FireworksAI_HQ 是最快的(430 t/s),其次是 @basetenco(327 t/s)。
➤ ⏳ 延迟:我们跟踪 TTFT(首次令牌时间)和 TTFAT(首次答案令牌时间)。对于推理模型,TTFAT 是关键指标,因为它标志着用户首次看到可用输出的时间。推理令牌的生成与答案令牌的生成具有相同的性能特征,因此 TTFAT 的主要驱动因素是输出速度——而不是标准的 TTFT,后者受预填充(输入处理)性能的驱动。Cerebras 在 TTFAT 上领先,时间为 1.6 秒,领先于 Fireworks(5.1 秒)和 Baseten(6.7 秒)。Cerebras 在 TTFT 上也名列前茅,时间为 0.24 秒,随后是 Fireworks(0.46 秒)和 @parasail_io(0.5 秒)。
➤ $ 定价:@DeepInfra 是 GLM 4.7 的最低成本提供者,基于 3:1 输入/输出令牌成本比,定价为 $0.43/M 输入令牌和 $1.75/M 输出令牌。其次是 @gmi_cloud 的 $0.4/$2,以及 @SiliconFlowAI 的 $0.5/$2。
➤ 🔄 缓存折扣:与 DeepInfra($0.08/M 令牌)、Novita($0.11/M 令牌)和 Fireworks($0.30/M 令牌)确认了缓存输入令牌的折扣。
➤ 🪟 上下文窗口:除了 Cerebras 和 Parasail(均支持 131k 令牌上下文窗口)外,所有提供者均支持 200k 的完整上下文窗口。
➤ 🧰 支持的工具:所有提供者均支持 JSON 模式和工具调用。

2.09K
热门
排行
收藏
