Mari kita bandingkan OpenAI gpt-oss dan Qwen-3 pada matematika & penalaran:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Berikut alur kerjanya: - Pengguna mengirimkan kueri - Kedua model menghasilkan token penalaran bersama dengan respons akhir - Logika kueri, respons, dan penalaran dikirim untuk evaluasi - Evaluasi terperinci dilakukan menggunakan G-Eval Opik di empat metrik. Mari kita terapkan ini!
1️⃣ Muat kunci API Dalam demo ini, kita akan menggunakan OpenRouter untuk mengakses model gpt-oss dan Qwen3. Kunci OpenAI diperlukan untuk hakim LLM di G-Eval. Simpan kunci OpenRouter dan OpenAI API dalam file .env untuk dimuat ke lingkungan. Periksa ini 👇
2️⃣ Metrik Penalaran Logis Kami sekarang akan membuat metrik evaluasi untuk tugas kami menggunakan G-Eval Opik. Metrik ini mengevaluasi koherensi dan validitas langkah dan kesimpulan logis. Lihat 👇 ini
3️⃣ Metrik Akurasi Faktual Metrik ini menilai keakuratan klaim dan informasi faktual. Lihat 👇 ini
4️⃣ Metrik koherensi Metrik ini mengevaluasi kejelasan dan organisasi respons. Lihat 👇 ini
5️⃣ Metrik Kedalaman Analisis Metrik ini mengevaluasi kedalaman dan wawasan penalaran. Lihat 👇 ini
6️⃣ Hasilkan respons model Sekarang kita siap untuk menghasilkan respons dari kedua model. Kami memasukkan kueri ke dalam kotak prompt dan mengalirkan respons dari kedua model secara bersamaan. Periksa ini 👇
7️⃣ Mengevaluasi penalaran yang dihasilkan Terakhir, kami menggunakan GPT-4o sebagai hakim LLM. Ini mengevaluasi kedua respons penalaran, menghasilkan metrik yang disebutkan di atas, dan memberikan detail untuk setiap metrik. Lihat 👇 ini
Saatnya menguji.. (1/2) Kueri 1: Bangun server MCP yang mengawasi repositori GitHub untuk masalah baru dan mengirimkannya ke grup Telegram. Berikut adalah hasil detailnya:
Saatnya menguji.. (2/2) Kueri 2: Buat server MCP yang membuat halaman Notion baru saat seseorang memasukkan file ke folder Google Drive tertentu. Berikut adalah hasil detailnya:
Kedua model sangat mumpuni: Qwen 3 menawarkan penalaran yang bertele-tele dan terperinci, sedangkan GPT-oss tajam dan akurat. Jangan ragu untuk mengujinya pada pertanyaan yang lebih menantang. Berikut semua kodenya:
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda. Temukan saya → @akshay_pachaar✔️ Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!
Akshay 🚀
Akshay 🚀6 Agu, 21.29
Mari kita bandingkan OpenAI gpt-oss dan Qwen-3 pada matematika & penalaran:
Saatnya menguji.. (1/2) Pertanyaan 1: Seekor siput memanjat dinding setinggi 10 kaki. Setiap hari ia naik 3 kaki, tetapi setiap malam ia meluncur mundur 2 kaki. Pada hari apa ia akan mencapai puncak? Berikut adalah hasil detailnya:
Saatnya menguji.. (2/2) Pertanyaan 2: Troli yang melarikan diri sedang menuju 5 orang. Anda dapat menarik tuas untuk mengalihkannya ke jalur samping di mana ia akan membunuh 1 orang sebagai gantinya. Apa yang harus Anda lakukan dan mengapa? Berikut adalah hasil detailnya:
Kedua model sangat mumpuni: Qwen 3 menawarkan penalaran yang bertele-tele dan terperinci, sedangkan GPT-oss tajam dan akurat. Jangan ragu untuk mengujinya pada pertanyaan yang lebih menantang. Berikut semua kodenya:
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda. Temukan saya → @akshay_pachaar✔️ Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!
Akshay 🚀
Akshay 🚀6 Agu, 21.29
Mari kita bandingkan OpenAI gpt-oss dan Qwen-3 pada matematika & penalaran:
292,34K