Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Zde je pracovní postup:
- Uživatel odešle dotaz
- Oba modely generují tokeny uvažování spolu s konečnou odpovědí
- Logika dotazu, odpovědi a uvažování jsou odeslány k vyhodnocení
- Podrobné vyhodnocení se provádí pomocí nástroje Opik's G-Eval ve čtyřech metrikách.
Pojďme to implementovat!
1️⃣ Načíst klíče API
V této ukázce použijeme OpenRouter pro přístup k modelům gpt-oss a Qwen3.
Klíč OpenAI je vyžadován pro posouzení LLM v G-Eval.
Uložte klíče OpenRouter a OpenAI API do souboru .env a načtěte je do prostředí.
Zkontrolujte toto 👇

2️⃣ Metrika logického uvažování
Nyní si vytvoříme vyhodnocovací metriky pro náš úkol pomocí Opik's G-Eval.
Tato metrika hodnotí provázanost a platnost logických kroků a závěrů.
Podívejte se na 👇 to

3️⃣ Metrika faktické přesnosti
Tato metrika hodnotí přesnost faktických tvrzení a informací.
Podívejte se na 👇 to

4️⃣ Metrika soudržnosti
Tato metrika hodnotí srozumitelnost a organizaci odpovědi.
Podívejte se na 👇 to

5️⃣ Metrika hloubky analýzy
Tato metrika hodnotí hloubku a pronikavost uvažování.
Podívejte se na 👇 to

6️⃣ Generování odezvy modelu
Nyní jsme všichni připraveni generovat odpovědi z obou modelů.
Dotaz zadáme do pole s výzvou a streamujeme odpovědi z obou modelů současně.
Zkontrolujte toto 👇

7️⃣ Vyhodnoťte vygenerované uvažování
Nakonec používáme GPT-4o jako posuzovatele LLM.
Vyhodnocuje obě odůvodněné odpovědi, generuje výše uvedené metriky a poskytuje podrobnosti pro každou metriku.
Podívejte se na 👇 to

Je čas vyzkoušet... (1/2)
Dotaz 1: Vytvořte server MCP, který sleduje repozitář GitHub pro nové problémy a odesílá je skupině Telegram.
Zde jsou podrobné výsledky:

Je čas vyzkoušet... (2/2)
Dotaz 2: Vytvořte server MCP, který vytvoří novou stránku Notion, když někdo umístí soubor do konkrétní složky na Disku Google.
Zde jsou podrobné výsledky:

Oba modely jsou vysoce schopné: Qwen 3 nabízí upovídané a podrobné uvažování, zatímco GPT-oss je ostrý a přesný.
Neváhejte a otestujte jej na náročnějších dotazech.
Zde je veškerý kód:
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí.
Najdi mě → @akshay_pachaar✔️
Další poznatky a návody na LLM, AI agenty a strojové učení!

6. 8. 21:29
Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:
Je čas vyzkoušet... (1/2)
Otázka 1: Šnek leze po 10 stop vysoké stěně. Každý den vystoupá 3 stopy, ale každou noc se posune o 2 stopy zpět. Který den dosáhne vrcholu?
Zde jsou podrobné výsledky:

Je čas vyzkoušet... (2/2)
Dotaz 2: Splašený vozík míří k 5 lidem. Můžete zatáhnout za páku a odklonit jej na vedlejší kolej, kde místo toho zabije 1 člověka. Co byste měli dělat a proč?
Zde jsou podrobné výsledky:

Oba modely jsou vysoce schopné: Qwen 3 nabízí upovídané a podrobné uvažování, zatímco GPT-oss je ostrý a přesný.
Neváhejte a otestujte jej na náročnějších dotazech.
Zde je veškerý kód:
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí.
Najdi mě → @akshay_pachaar✔️
Další poznatky a návody na LLM, AI agenty a strojové učení!

6. 8. 21:29
Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:
292,33K
Top
Hodnocení
Oblíbené