每個人都在忽視 AWS 的這篇新論文。 一個比 GPT 和 Claude 小 100 倍的模型在工具調用上壓倒了它們。 AWS 的研究人員使用了 Facebook 的 OPT-350M,這是一個來自 2022 年的模型,參數比 GPT 少 500 倍,並在 ToolBench 上進行了單次訓練。 結果非常驚人: ↳ 他們的 SLM:77.55% 的通過率 ↳ ChatGPT-CoT:26% ↳ ToolLLaMA:30% ↳ Claude-CoT:2.73% 這裡發生了什麼: 大型模型受到 "參數稀釋 "的影響。它們的大部分能力都是針對一般語言任務進行優化的,而不是工具調用所需的精確思維-行動-行動輸入模式。 一個專門針對工具調用訓練的小型模型將其所有能力集中在這一點上。沒有分心。 訓練設置出奇的簡單。Hugging Face TRL,187K 範例,學習率為 5e-5,並進行了激進的梯度裁剪以保持穩定性。 但我想澄清一點: 這並不意味著小型模型在所有地方都能獲勝。作者承認他們的模型可能在複雜的上下文細微差別或模糊請求上遇到困難。這是一個專家,而不是通才。 不過,如果你正在構建自主系統並希望將推理成本降低幾個數量級,這是值得關注的。 我已在下一條推文中分享了論文的鏈接。