一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3：

Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀

工作流程如下： - 使用者提交查詢 - 兩個模型生成推理令牌以及最終回應 - 查詢、回應和推理邏輯被發送進行評估 - 使用Opik的G-Eval在四個指標上進行詳細評估。讓我們實現這個！

1️⃣ 加載 API 密鑰在這個演示中，我們將使用 OpenRouter 訪問 gpt-oss 和 Qwen3 模型。在 G-Eval 中，評判 LLM 需要 OpenAI 密鑰。將 OpenRouter 和 OpenAI API 密鑰存儲在 .env 文件中以加載到環境中。查看這個 👇

2️⃣ 邏輯推理指標我們現在將使用 Opik 的 G-Eval 為我們的任務創建評估指標。該指標評估邏輯步驟和結論的連貫性和有效性。查看這個 👇

3️⃣ 事實準確性指標該指標評估事實聲明和信息的準確性。查看這個 👇

4️⃣ 一致性指標該指標評估回應的清晰度和組織性。查看這個 👇

5️⃣ 分析深度指標該指標評估推理的深度和洞察力。查看這個 👇

6️⃣ 生成模型回應現在我們已經準備好從兩個模型生成回應。我們將查詢輸入到提示框中，並同時從兩個模型串流回應。查看這個 👇

7️⃣ 評估生成的推理最後，我們使用 GPT-4o 作為評判 LLM。它評估兩個推理響應，生成上述提到的指標，並提供每個指標的詳細資訊。查看這個 👇

是時候測試了.. (1/2) 查詢 1：構建一個 MCP 伺服器，監視 GitHub 倉庫的新問題，並將其發送到 Telegram 群組。以下是詳細結果：

是時候測試了.. (2/2) 查詢 2：構建一個 MCP 伺服器，當有人將文件放入特定的 Google Drive 文件夾時，創建一個新的 Notion 頁面。以下是詳細結果：

這兩種模型都非常強大：Qwen 3 提供詳細而豐富的推理，而 GPT-oss 則簡潔而準確。歡迎您在更具挑戰性的查詢上進行測試。以下是所有代碼：

如果你覺得這很有見地，請與你的網絡分享。找到我 → @akshay_pachaar✔️ 獲取更多有關LLMs、AI代理和機器學習的見解和教程！

測試時間.. (1/2) 查詢 1：一隻蝸牛爬上一面 10 英尺高的牆。它每天爬 3 英尺，但每晚滑回 2 英尺。它會在第幾天到達頂部？以下是詳細結果：

該是測試的時候了.. (2/2) 問題 2：一輛失控的電車正朝著5個人駛去。你可以拉動一個杠杆，將其轉向一條側軌，這樣就會殺死1個人。你該怎麼做，為什麼？以下是詳細結果：

這兩個模型都非常強大：Qwen 3 提供詳盡且詳細的推理，而 GPT-oss 則簡潔且準確。隨時可以在更具挑戰性的查詢上進行測試。這是所有的代碼：

如果你覺得這很有見地，請與你的網絡分享。找到我 → @akshay_pachaar✔️ 獲取更多有關LLMs、AI代理和機器學習的見解和教程！

292.34K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可