Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vamos comparar OpenAI gpt-oss e Qwen-3 em matemática e raciocínio:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Aqui está o fluxo de trabalho:
- O usuário envia a consulta
- Ambos os modelos geram tokens de raciocínio junto com a resposta final
- Consulta, resposta e lógica de raciocínio são enviadas para avaliação
- A avaliação detalhada é conduzida usando o G-Eval da Opik em quatro métricas.
Vamos implementar isso!
1️⃣ Carregar chaves de API
Nesta demonstração, usaremos o OpenRouter para acessar os modelos gpt-oss e Qwen3.
A chave OpenAI é necessária para o juiz LLM em G-Eval.
Armazene as chaves de API do OpenRouter e do OpenAI em um arquivo .env para carregar no ambiente.
Verifique isso 👇

2️⃣ Métrica de raciocínio lógico
Agora criaremos métricas de avaliação para nossa tarefa usando o G-Eval da Opik.
Essa métrica avalia a coerência e a validade das etapas e conclusões lógicas.
Confira isso 👇

3️⃣ Métrica de precisão factual
Essa métrica avalia a precisão das alegações e informações factuais.
Confira isso 👇

4️⃣ Métrica de coerência
Essa métrica avalia a clareza e a organização da resposta.
Confira isso 👇

5️⃣ Métrica de profundidade de análise
Essa métrica avalia a profundidade e a perspicácia do raciocínio.
Confira isso 👇

6️⃣ Gerar resposta do modelo
Agora estamos prontos para gerar respostas de ambos os modelos.
Inserimos a consulta na caixa de prompt e transmitimos respostas de ambos os modelos simultaneamente.
Verifique isso 👇

7️⃣ Avalie o raciocínio gerado
Por fim, usamos GPT-4o como juiz LLM.
Ele avalia ambas as respostas de raciocínio, gera as métricas mencionadas acima e fornece detalhes para cada métrica.
Confira isso 👇

Hora de testar.. (1/2)
Consulta 1: Crie um servidor MCP que observe um repositório GitHub em busca de novos problemas e os envie para um grupo do Telegram.
Aqui estão os resultados detalhados:

Hora de testar.. (2/2)
Consulta 2: crie um servidor MCP que crie uma nova página do Notion quando alguém soltar um arquivo em uma pasta específica do Google Drive.
Aqui estão os resultados detalhados:

Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e detalhado, enquanto o GPT-oss é nítido e preciso.
Sinta-se à vontade para testá-lo em consultas mais desafiadoras.
Aqui está todo o código:
Se você achou perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar✔️
Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!

7 horas atrás
Vamos comparar OpenAI gpt-oss e Qwen-3 em matemática e raciocínio:
Hora de testar.. (1/2)
Consulta 1: Um caracol sobe uma parede de 10 pés. A cada dia ele sobe 3 pés, mas a cada noite ele desliza para trás 2 pés. Em que dia chegará ao topo?
Aqui estão os resultados detalhados:

Hora de testar.. (2/2)
Consulta 2: Um bonde desgovernado está indo em direção a 5 pessoas. Você pode puxar uma alavanca para desviá-lo para uma pista lateral, onde matará 1 pessoa. O que você deve fazer e por quê?
Aqui estão os resultados detalhados:

Ambos os modelos são altamente capazes: o Qwen 3 oferece raciocínio detalhado e detalhado, enquanto o GPT-oss é nítido e preciso.
Sinta-se à vontade para testá-lo em consultas mais desafiadoras.
Aqui está todo o código:
Se você achou perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar✔️
Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!

7 horas atrás
Vamos comparar OpenAI gpt-oss e Qwen-3 em matemática e raciocínio:
124,28K
Melhores
Classificação
Favoritos