Vamos comparar OpenAI gpt-oss e Qwen-3 em matemática e raciocínio:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Aqui está o fluxo de trabalho: - O usuário envia a consulta - Ambos os modelos geram tokens de raciocínio junto com a resposta final - Consulta, resposta e lógica de raciocínio são enviadas para avaliação - A avaliação detalhada é conduzida usando o G-Eval da Opik em quatro métricas. Vamos implementar isso!
1️⃣ Carregar chaves de API Nesta demonstração, usaremos o OpenRouter para acessar os modelos gpt-oss e Qwen3. A chave OpenAI é necessária para o juiz LLM em G-Eval. Armazene as chaves de API do OpenRouter e do OpenAI em um arquivo .env para carregar no ambiente. Verifique isso 👇
2️⃣ Métrica de raciocínio lógico Agora criaremos métricas de avaliação para nossa tarefa usando o G-Eval da Opik. Essa métrica avalia a coerência e a validade das etapas e conclusões lógicas. Confira isso 👇
3️⃣ Métrica de precisão factual Essa métrica avalia a precisão das alegações e informações factuais. Confira isso 👇
4️⃣ Métrica de coerência Essa métrica avalia a clareza e a organização da resposta. Confira isso 👇
5️⃣ Métrica de profundidade de análise Essa métrica avalia a profundidade e a perspicácia do raciocínio. Confira isso 👇
6️⃣ Gerar resposta do modelo Agora estamos prontos para gerar respostas de ambos os modelos. Inserimos a consulta na caixa de prompt e transmitimos respostas de ambos os modelos simultaneamente. Verifique isso 👇
7️⃣ Avalie o raciocínio gerado Por fim, usamos GPT-4o como juiz LLM. Ele avalia ambas as respostas de raciocínio, gera as métricas mencionadas acima e fornece detalhes para cada métrica. Confira isso 👇
Hora de testar.. (1/2) Consulta 1: Crie um servidor MCP que observe um repositório GitHub em busca de novos problemas e os envie para um grupo do Telegram. Aqui estão os resultados detalhados:
Hora de testar.. (2/2) Consulta 2: crie um servidor MCP que crie uma nova página do Notion quando alguém soltar um arquivo em uma pasta específica do Google Drive. Aqui estão os resultados detalhados:
Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e detalhado, enquanto o GPT-oss é nítido e preciso. Sinta-se à vontade para testá-lo em consultas mais desafiadoras. Aqui está todo o código:
Se você achou perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar✔️ Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!
Akshay 🚀
Akshay 🚀7 horas atrás
Vamos comparar OpenAI gpt-oss e Qwen-3 em matemática e raciocínio:
Hora de testar.. (1/2) Consulta 1: Um caracol sobe uma parede de 10 pés. A cada dia ele sobe 3 pés, mas a cada noite ele desliza para trás 2 pés. Em que dia chegará ao topo? Aqui estão os resultados detalhados:
Hora de testar.. (2/2) Consulta 2: Um bonde desgovernado está indo em direção a 5 pessoas. Você pode puxar uma alavanca para desviá-lo para uma pista lateral, onde matará 1 pessoa. O que você deve fazer e por quê? Aqui estão os resultados detalhados:
Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e detalhado, enquanto o GPT-oss é nítido e preciso. Sinta-se à vontade para testá-lo em consultas mais desafiadoras. Aqui está todo o código:
Se você achou perspicaz, compartilhe novamente com sua rede. Encontre-me → @akshay_pachaar✔️ Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!
Akshay 🚀
Akshay 🚀7 horas atrás
Vamos comparar OpenAI gpt-oss e Qwen-3 em matemática e raciocínio:
124,28K