Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Herkes AWS'nin bu yeni makalesini uyur.
GPT'den 100 kat küçük bir model ve Claude onları alet çağırmada ezdi.
AWS araştırmacıları 2022 modeli olan Facebook'un OPT-350M'sini aldı; bu model GPT'den 500 kat daha az parametreye sahip, ToolBench'te tek bir dönem için ince ayar yaptı.
Sonuçlar çılgın:
↳ SLM: %77,55 geçiş oranı
↳ ChatGPT-CoT: %26
↳ ToolLLaMA: %30
↳ Claude-CoT: %2,73
Olanlar şunlar:
Büyük modeller "parametre seyreltme" (parametre seyreltme) ile mücadele eder. Kapasitelerinin çoğu genel dil görevleri için optimize edilmiştir, araç çağırışının ihtiyaç duyduğu kesin Düşünce-Eylem-Eylem Giriş kalıpları için değil.
Özel olarak araç çağrısı üzerine eğitilmiş küçük bir model, tüm kapasitesini o tek bir şeye odaklar. Dikkat dağıtıcı bir şey yok.
Eğitim düzeni şaşırtıcı derecede basitti. Hugging Face TRL, 187K örnek, 5e-5 öğrenme hızı ve stabilite için agresif gradyan kırpma.
Ama bir konuda net olmak istiyorum:
Bu, küçük modellerin her yerde kazandığı anlamına gelmez. Yazarlar, modellerinin karmaşık bağlamsal nüanslar veya belirsiz taleplerle zorlanabileceğini kabul ediyor. Uzman, genelci değil.
Yine de, ajanik sistemler inşa ediyorsanız ve çıkarım maliyetlerini kat kat azaltmak istiyorsanız, buna dikkat etmeye değer.
Bir sonraki tweet'te gazetenin linkini paylaştım.

En İyiler
Sıralama
Takip Listesi
