DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Herkes AWS'nin bu yeni makalesini uyur. GPT'den 100 kat küçük bir model ve Claude onları alet çağırmada ezdi. AWS araştırmacıları 2022 modeli olan Facebook'un OPT-350M'sini aldı; bu model GPT'den 500 kat daha az parametreye sahip, ToolBench'te tek bir dönem için ince ayar yaptı. Sonuçlar çılgın: ↳ SLM: %77,55 geçiş oranı ↳ ChatGPT-CoT: %26 ↳ ToolLLaMA: %30 ↳ Claude-CoT: %2,73 Olanlar şunlar: Büyük modeller "parametre seyreltme" (parametre seyreltme) ile mücadele eder. Kapasitelerinin çoğu genel dil görevleri için optimize edilmiştir, araç çağırışının ihtiyaç duyduğu kesin Düşünce-Eylem-Eylem Giriş kalıpları için değil. Özel olarak araç çağrısı üzerine eğitilmiş küçük bir model, tüm kapasitesini o tek bir şeye odaklar. Dikkat dağıtıcı bir şey yok. Eğitim düzeni şaşırtıcı derecede basitti. Hugging Face TRL, 187K örnek, 5e-5 öğrenme hızı ve stabilite için agresif gradyan kırpma. Ama bir konuda net olmak istiyorum: Bu, küçük modellerin her yerde kazandığı anlamına gelmez. Yazarlar, modellerinin karmaşık bağlamsal nüanslar veya belirsiz taleplerle zorlanabileceğini kabul ediyor. Uzman, genelci değil. Yine de, ajanik sistemler inşa ediyorsanız ve çıkarım maliyetlerini kat kat azaltmak istiyorsanız, buna dikkat etmeye değer. Bir sonraki tweet'te gazetenin linkini paylaştım.

En İyiler

Sıralama

Takip Listesi