熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
工作流程如下:
- 使用者提交查詢
- 兩個模型生成推理令牌以及最終回應
- 查詢、回應和推理邏輯被發送進行評估
- 使用Opik的G-Eval在四個指標上進行詳細評估。
讓我們實現這個!
1️⃣ 加載 API 密鑰
在這個演示中,我們將使用 OpenRouter 訪問 gpt-oss 和 Qwen3 模型。
在 G-Eval 中,評判 LLM 需要 OpenAI 密鑰。
將 OpenRouter 和 OpenAI API 密鑰存儲在 .env 文件中以加載到環境中。
查看這個 👇

2️⃣ 邏輯推理指標
我們現在將使用 Opik 的 G-Eval 為我們的任務創建評估指標。
該指標評估邏輯步驟和結論的連貫性和有效性。
查看這個 👇

3️⃣ 事實準確性指標
該指標評估事實聲明和信息的準確性。
查看這個 👇

4️⃣ 一致性指標
該指標評估回應的清晰度和組織性。
查看這個 👇

5️⃣ 分析深度指標
該指標評估推理的深度和洞察力。
查看這個 👇

6️⃣ 生成模型回應
現在我們已經準備好從兩個模型生成回應。
我們將查詢輸入到提示框中,並同時從兩個模型串流回應。
查看這個 👇

7️⃣ 評估生成的推理
最後,我們使用 GPT-4o 作為評判 LLM。
它評估兩個推理響應,生成上述提到的指標,並提供每個指標的詳細資訊。
查看這個 👇

是時候測試了.. (1/2)
查詢 1:構建一個 MCP 伺服器,監視 GitHub 倉庫的新問題,並將其發送到 Telegram 群組。
以下是詳細結果:

是時候測試了.. (2/2)
查詢 2:構建一個 MCP 伺服器,當有人將文件放入特定的 Google Drive 文件夾時,創建一個新的 Notion 頁面。
以下是詳細結果:

這兩種模型都非常強大:Qwen 3 提供詳細而豐富的推理,而 GPT-oss 則簡潔而準確。
歡迎您在更具挑戰性的查詢上進行測試。
以下是所有代碼:
如果你覺得這很有見地,請與你的網絡分享。
找到我 → @akshay_pachaar✔️
獲取更多有關LLMs、AI代理和機器學習的見解和教程!

8月6日 21:29
讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3:
測試時間.. (1/2)
查詢 1:一隻蝸牛爬上一面 10 英尺高的牆。它每天爬 3 英尺,但每晚滑回 2 英尺。它會在第幾天到達頂部?
以下是詳細結果:

該是測試的時候了.. (2/2)
問題 2:一輛失控的電車正朝著5個人駛去。你可以拉動一個杠杆,將其轉向一條側軌,這樣就會殺死1個人。你該怎麼做,為什麼?
以下是詳細結果:

這兩個模型都非常強大:Qwen 3 提供詳盡且詳細的推理,而 GPT-oss 則簡潔且準確。
隨時可以在更具挑戰性的查詢上進行測試。
這是所有的代碼:
如果你覺得這很有見地,請與你的網絡分享。
找到我 → @akshay_pachaar✔️
獲取更多有關LLMs、AI代理和機器學習的見解和教程!

8月6日 21:29
讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3:
292.34K
熱門
排行
收藏