Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Zde je pracovní postup: - Uživatel odešle dotaz - Oba modely generují tokeny uvažování spolu s konečnou odpovědí - Logika dotazu, odpovědi a uvažování jsou odeslány k vyhodnocení - Podrobné vyhodnocení se provádí pomocí nástroje Opik's G-Eval ve čtyřech metrikách. Pojďme to implementovat!
1️⃣ Načíst klíče API V této ukázce použijeme OpenRouter pro přístup k modelům gpt-oss a Qwen3. Klíč OpenAI je vyžadován pro posouzení LLM v G-Eval. Uložte klíče OpenRouter a OpenAI API do souboru .env a načtěte je do prostředí. Zkontrolujte toto 👇
2️⃣ Metrika logického uvažování Nyní si vytvoříme vyhodnocovací metriky pro náš úkol pomocí Opik's G-Eval. Tato metrika hodnotí provázanost a platnost logických kroků a závěrů. Podívejte se na 👇 to
3️⃣ Metrika faktické přesnosti Tato metrika hodnotí přesnost faktických tvrzení a informací. Podívejte se na 👇 to
4️⃣ Metrika soudržnosti Tato metrika hodnotí srozumitelnost a organizaci odpovědi. Podívejte se na 👇 to
5️⃣ Metrika hloubky analýzy Tato metrika hodnotí hloubku a pronikavost uvažování. Podívejte se na 👇 to
6️⃣ Generování odezvy modelu Nyní jsme všichni připraveni generovat odpovědi z obou modelů. Dotaz zadáme do pole s výzvou a streamujeme odpovědi z obou modelů současně. Zkontrolujte toto 👇
7️⃣ Vyhodnoťte vygenerované uvažování Nakonec používáme GPT-4o jako posuzovatele LLM. Vyhodnocuje obě odůvodněné odpovědi, generuje výše uvedené metriky a poskytuje podrobnosti pro každou metriku. Podívejte se na 👇 to
Je čas vyzkoušet... (1/2) Dotaz 1: Vytvořte server MCP, který sleduje repozitář GitHub pro nové problémy a odesílá je skupině Telegram. Zde jsou podrobné výsledky:
Je čas vyzkoušet... (2/2) Dotaz 2: Vytvořte server MCP, který vytvoří novou stránku Notion, když někdo umístí soubor do konkrétní složky na Disku Google. Zde jsou podrobné výsledky:
Oba modely jsou vysoce schopné: Qwen 3 nabízí upovídané a podrobné uvažování, zatímco GPT-oss je ostrý a přesný. Neváhejte a otestujte jej na náročnějších dotazech. Zde je veškerý kód:
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!
Akshay 🚀
Akshay 🚀6. 8. 21:29
Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:
Je čas vyzkoušet... (1/2) Otázka 1: Šnek leze po 10 stop vysoké stěně. Každý den vystoupá 3 stopy, ale každou noc se posune o 2 stopy zpět. Který den dosáhne vrcholu? Zde jsou podrobné výsledky:
Je čas vyzkoušet... (2/2) Dotaz 2: Splašený vozík míří k 5 lidem. Můžete zatáhnout za páku a odklonit jej na vedlejší kolej, kde místo toho zabije 1 člověka. Co byste měli dělat a proč? Zde jsou podrobné výsledky:
Oba modely jsou vysoce schopné: Qwen 3 nabízí upovídané a podrobné uvažování, zatímco GPT-oss je ostrý a přesný. Neváhejte a otestujte jej na náročnějších dotazech. Zde je veškerý kód:
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!
Akshay 🚀
Akshay 🚀6. 8. 21:29
Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:
292,34K