Confrontiamo OpenAI gpt-oss e Qwen-3 in matematica e ragionamento:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Ecco il flusso di lavoro: - L'utente invia una query - Entrambi i modelli generano token di ragionamento insieme alla risposta finale - La query, la risposta e la logica di ragionamento vengono inviate per la valutazione - Viene condotta una valutazione dettagliata utilizzando il G-Eval di Opik su quattro metriche. Implementiamo questo!
1️⃣ Carica le chiavi API In questa demo, utilizzeremo OpenRouter per accedere ai modelli gpt-oss e Qwen3. È necessaria una chiave OpenAI per il giudice LLM in G-Eval. Memorizza le chiavi API di OpenRouter e OpenAI in un file .env per caricarle nell'ambiente. Controlla questo 👇
2️⃣ Metri di Ragionamento Logico Ora creeremo metriche di valutazione per il nostro compito utilizzando il G-Eval di Opik. Questa metrica valuta la coerenza e la validità dei passaggi logici e delle conclusioni. Dai un'occhiata a questo 👇
3️⃣ Metodologia di Accuratezza Fattuale Questa metrica valuta l'accuratezza delle affermazioni e delle informazioni fattuali. Dai un'occhiata a questo 👇
4️⃣ Metri di coerenza Questo indicatore valuta la chiarezza e l'organizzazione della risposta. Dai un'occhiata a questo 👇
5️⃣ Metri di profondità dell'analisi Questo indicatore valuta la profondità e la perspicacia del ragionamento. Dai un'occhiata a questo 👇
6️⃣ Genera risposta del modello Ora siamo pronti per generare risposte da entrambi i modelli. Inseriamo la query nella casella di input e riceviamo le risposte da entrambi i modelli simultaneamente. Controlla questo 👇
7️⃣ Valuta il ragionamento generato Infine, utilizziamo GPT-4o come LLM giudice. Valuta entrambe le risposte di ragionamento, genera le metriche menzionate sopra e fornisce dettagli per ciascuna metrica. Dai un'occhiata a questo 👇
È tempo di testare.. (1/2) Query 1: Costruire un server MCP che monitora un repo GitHub per nuove segnalazioni e le invia a un gruppo Telegram. Ecco i risultati dettagliati:
È tempo di testare.. (2/2) Query 2: Crea un server MCP che genera una nuova pagina Notion quando qualcuno carica un file in una specifica cartella di Google Drive. Ecco i risultati dettagliati:
Entrambi i modelli sono altamente capaci: Qwen 3 offre ragionamenti dettagliati e verbosi, mentre GPT-oss è preciso e conciso. Sentiti libero di metterlo alla prova con domande più impegnative. Ecco tutto il codice:
Se lo hai trovato interessante, condividilo con la tua rete. Trova me → @akshay_pachaar✔️ Per ulteriori approfondimenti e tutorial su LLM, agenti AI e machine learning!
Akshay 🚀
Akshay 🚀6 ago, 21:29
Confrontiamo OpenAI gpt-oss e Qwen-3 in matematica e ragionamento:
È tempo di testare.. (1/2) Domanda 1: Una lumaca scala un muro alto 10 piedi. Ogni giorno sale di 3 piedi, ma ogni notte scivola indietro di 2 piedi. In quale giorno raggiungerà la cima? Ecco i risultati dettagliati:
È tempo di testare.. (2/2) Domanda 2: Un tram in fuga sta andando verso 5 persone. Puoi tirare una leva per deviarlo su un binario laterale dove ucciderà 1 persona invece. Cosa dovresti fare e perché? Ecco i risultati dettagliati:
Entrambi i modelli sono altamente capaci: Qwen 3 offre ragionamenti dettagliati e verbosi, mentre GPT-oss è preciso e conciso. Sentiti libero di metterlo alla prova con domande più impegnative. Ecco tutto il codice:
Se lo hai trovato interessante, condividilo con la tua rete. Trova me → @akshay_pachaar✔️ Per ulteriori approfondimenti e tutorial su LLM, agenti AI e machine learning!
Akshay 🚀
Akshay 🚀6 ago, 21:29
Confrontiamo OpenAI gpt-oss e Qwen-3 in matematica e ragionamento:
292,34K