Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic'teki mühendislik bir başka başarı daha verdi.
Yapay zeka ajanlarını değerlendirmek için iç oyun kitabları.
İşte bundan öğrendiğim en ters sezgi ders:
Temsilcinizin attığı adımları test etmeyin. Gerçekten ne ürettiğini test edin.
Bu her içgüdüye aykırı. Her adımı kontrol etmek kaliteyi garanti eder diye düşünebilirsiniz. Ama ajanlar yaratıcıdır. Beklemediğiniz çözümler buluyorlar. Beklenmedik yolları cezalandırmak sadece değerlendirmelerinizi kırılgan hale getirir.
Önemli olan nihai sonuç. Bunu doğrudan test edin.
Oyun kitabı üç tip notlayıcıyı ayırıyor:
- Kod tabanlı: Hızlı ve objektif, ancak geçerli varyasyonlara karşı kırılgan.
- Model bazlı: Değerlendirme listeleriyle LLM-as-judge. Esnek, ama kalibrasyon gerektiriyor.
- İnsan: Altın standart, ama pahalı. Dikkatli kullanın.
Ayrıca kodlama ajanları, konuşma ajanları, araştırma ajanları ve bilgisayar kullanım ajanları için değerlendirme stratejilerini de kapsar.
Önemli çıkarımlar:
- Gerçek başarısızlıklardan 20-50 test vakası ile başlayın
- Her deneme temiz bir ortamdan başlamalıdır
- Model çıktıları değişken olduğundan birden fazla deneme yapmak
- Tutanakları okuyun. Notlama hatalarını böyle yakalarsınız.
Güvenilir acenteler göndermek konusunda ciddi iseniz. Okumayı kesinlikle tavsiye ederim.
Bir sonraki tweet'te bağlantı.

En İyiler
Sıralama
Takip Listesi
