讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
工作流程如下: - 使用者提交查詢 - 兩個模型生成推理令牌以及最終回應 - 查詢、回應和推理邏輯被發送進行評估 - 使用Opik的G-Eval在四個指標上進行詳細評估。 讓我們實現這個!
1️⃣ 加載 API 密鑰 在這個演示中,我們將使用 OpenRouter 訪問 gpt-oss 和 Qwen3 模型。 在 G-Eval 中,評判 LLM 需要 OpenAI 密鑰。 將 OpenRouter 和 OpenAI API 密鑰存儲在 .env 文件中以加載到環境中。 查看這個 👇
2️⃣ 邏輯推理指標 我們現在將使用 Opik 的 G-Eval 為我們的任務創建評估指標。 該指標評估邏輯步驟和結論的連貫性和有效性。 查看這個 👇
3️⃣ 事實準確性指標 該指標評估事實聲明和信息的準確性。 查看這個 👇
4️⃣ 一致性指標 該指標評估回應的清晰度和組織性。 查看這個 👇
5️⃣ 分析深度指標 該指標評估推理的深度和洞察力。 查看這個 👇
6️⃣ 生成模型回應 現在我們已經準備好從兩個模型生成回應。 我們將查詢輸入到提示框中,並同時從兩個模型串流回應。 查看這個 👇
7️⃣ 評估生成的推理 最後,我們使用 GPT-4o 作為評判 LLM。 它評估兩個推理響應,生成上述提到的指標,並提供每個指標的詳細資訊。 查看這個 👇
是時候測試了.. (1/2) 查詢 1:構建一個 MCP 伺服器,監視 GitHub 倉庫的新問題,並將其發送到 Telegram 群組。 以下是詳細結果:
是時候測試了.. (2/2) 查詢 2:構建一個 MCP 伺服器,當有人將文件放入特定的 Google Drive 文件夾時,創建一個新的 Notion 頁面。 以下是詳細結果:
這兩種模型都非常強大:Qwen 3 提供詳細而豐富的推理,而 GPT-oss 則簡潔而準確。 歡迎您在更具挑戰性的查詢上進行測試。 以下是所有代碼:
如果你覺得這很有見地,請與你的網絡分享。 找到我 → @akshay_pachaar✔️ 獲取更多有關LLMs、AI代理和機器學習的見解和教程!
Akshay 🚀
Akshay 🚀8月6日 21:29
讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3:
測試時間.. (1/2) 查詢 1:一隻蝸牛爬上一面 10 英尺高的牆。它每天爬 3 英尺,但每晚滑回 2 英尺。它會在第幾天到達頂部? 以下是詳細結果:
該是測試的時候了.. (2/2) 問題 2:一輛失控的電車正朝著5個人駛去。你可以拉動一個杠杆,將其轉向一條側軌,這樣就會殺死1個人。你該怎麼做,為什麼? 以下是詳細結果:
這兩個模型都非常強大:Qwen 3 提供詳盡且詳細的推理,而 GPT-oss 則簡潔且準確。 隨時可以在更具挑戰性的查詢上進行測試。 這是所有的代碼:
如果你覺得這很有見地,請與你的網絡分享。 找到我 → @akshay_pachaar✔️ 獲取更多有關LLMs、AI代理和機器學習的見解和教程!
Akshay 🚀
Akshay 🚀8月6日 21:29
讓我們在數學和推理方面比較 OpenAI gpt-oss 和 Qwen-3:
292.34K