Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aakash Gupta
Herkes buna ters bakıyor.
Başlık "ajanlar beklenenden daha basittir." Gerçek bulgu, stratejinin sadelik olduğudur.
İnsan müdahalesinden önce %68 10 adımla sınırlandırılması bir sınırlama değildir. Bu bir tasarım tercihi. Ekipler, güvenilirlik ve özerkliğin bunu zayıflattığını anladı. Her eklediğiniz adım, başarısızlık modlarınızı katlar.
Çerçeve ayrımı ise daha da açıklayıcı. Anket katılımcılarının %61'i LangChain kullanıyor. Ancak gerçek üretim dağıtımı olan ekiplerin %85'i sıfırdan inşa ediyor. Anketlere cevap veren kişiler deney yapıyor. Göndericiler bağımlılıklardan kaçınıyor.
Kapalı kaynak modeli, benimseme eğrisinin nerede olduğunu gösterir. 20 vaka çalışmasından 17'si Claude veya GPT ile çalıştırılır çünkü çıkarım maliyetleri bu ajanların artırdığı insanlara kıyasla hâlâ önemsizdir. Açık kaynak sadece API fiyatlandırmasını engelleyen hacme ulaştığınızda kazanır.
Bu çalışmayı değerli kılan şey: neyin işe yaradığını ölçmek, neyin iyi gösterildiğini değil. "Etkileyici prototip" ile "üretim sistemi" arasındaki boşluk, insan döngüsünde olan kontrol noktaları, önceden tanımlanmış iş akışları ve yüksek güvenli çıktılarda bile %5 örnekleme ile dolu.
Yeni teknoloji böyle benimseniyor. İnsan yargısını değiştirerek değil, kasıtlı kısıtlamalarla güven kazanarak. Sofistike daha sonra, güvenilirlik kanıtlandıktan sonra gelir.

DAIR.AI7 Ara 02:06
Yapay zeka ajanlarının üretimde gerçekten çalıştığı ilk büyük ölçekli çalışma.
Heyecan ajanların her şeyi dönüştürdüğünü söylüyor. Veriler farklı bir hikaye anlatıyor.
Araştırmacılar, 306 uygulayıcıyı ankete yaptı ve 26 alanda 20 derinlemesine vaka çalışması gerçekleştirdi. Buldukları, üretim ajanlarının nasıl inşa edildiğiyle ilgili yaygın varsayımları sorgular.
Gerçek ise: prodüksiyon ajanları kasıtlı olarak basit ve sıkı şekilde sınırlandırılmıştır.
1) Kalıplar ve Güvenilirlik
- %68'i insan müdahalesine ihtiyaç duymadan önce en fazla 10 adımı gerçekleştirir.
- %47'si 5 adımdan az tamamlanır.
- %70'i rafta hazır modelleri ince ayar olmadan yönlendirmeye dayanır.
- %74'ü öncelikle insan değerlendirmesine dayanır.
Takımlar kasıtlı olarak özerkliği güvenilirlikle değiştirir.
Neden kısıtlamalar? Güvenilirlik, çözülmemiş en büyük sorun olmaya devam ediyor. Uygulayıcılar, ajan doğruluğunu ölçekte doğrulayamaz. Kamu kıyaslamaları, alana özgü üretim görevlerine nadiren uygulanır. Mülakata katılan ekiplerin %75'i resmi kıyaslamalar olmadan, A/B testine ve doğrudan kullanıcı geri bildirimine dayanarak değerlendirme yapıyor.
2) Model Seçimi
Model seçimi deseni araştırmacıları şaşırttı. 20 vaka çalışmasından 17'si Claude Sonnet 4, Claude Opus 4.1 ve GPT o3 gibi kapalı kaynaklı sınır modellerini kullanıyor. Açık kaynak benimseme nadirdir ve belirli kısıtlamalarla yönlendirilir: çıkarım maliyetlerinin yüksek hale geldiği yüksek hacimli iş yükleri veya dış sağlayıcılarla veri paylaşımını engelleyen düzenleyici gereksinimler. Çoğu ekip için, işletme süresi maliyetleri, ajanın artırdığı insan uzmanlara kıyasla önemsizdir.
3) Ajan Çerçeveleri
Çerçeve benimsenmesi çarpıcı bir ayrım gösteriyor. Ankete katılanların %61'i LangChain/LangGraph gibi üçüncü taraf çerçeveleri kullanıyor. Ancak üretim dağıtımı yapan ekiplerin %85'i sıfırdan özel uygulamalar oluşturuyor. Sebebi: çekirdek ajan döngüleri doğrudan API çağrılarıyla kolayca uygulanabilir. Takımlar, bağımlılık şişkinliği ve soyutlama katmanları yerine minimal, özel olarak inşa edilmiş iskeleleri tercih eder.
4) Ajan Kontrol Akışı
Üretim mimarileri, açık uçlu özerklikten ziyade önceden tanımlanmış statik iş akışlarını tercih eder. Vaka çalışmalarının %80'i yapılandırılmış kontrol akışı kullanır. Ajanlar, çevreleri özgürce keşfetmek yerine iyi kapsamlı aksiyon alanlarında çalışırlar. Sadece bir vaka sınırsız keşif sağladı ve o sistem yalnızca sıkı CI/CD doğrulaması olan sandbox ortamlarında çalışıyordu.
5) Temsilci Benimseme
Temsilci benimsenmesini ne tetikliyor? Sadece verimlilik artışları. %73'ü ajanları öncelikle verimliliği artırmak ve manuel görevlerde zamanı azaltmak için kullanıyor. Kuruluşlar, ajanların cevap vermek için dakikalar almasına tahammül ediyor çünkü bu hâlâ insan taban seviyelerinden 10 kat veya daha fazla performans gösteriyor. %66'sı dakikalar veya daha uzun yanıt sürelerine izin veriyor.
6) Ajan Değerlendirmesi
Değerlendirme meydan okuması beklenenden daha derin. Ajan davranışı geleneksel yazılım testlerini bozuyor. Üç vaka çalışması ekibi, ajanları mevcut CI/CD boru hatlarına entegre etmeye çalıştıklarını ancak zorlandıklarını bildiriyor.
Zorluk: belirsizlik ve çıktıları programatik olarak değerlendirmenin zorluğu. Sıfırdan kıyaslama oluşturmak bir ekibin yaklaşık 100 örneğe ulaşması altı ay sürdü.
7) İnsan döngüsünde
İnsan-döngü değerlendirmesi %74 ile baskınlık yapıyor. LLM jüri olarak %52 ile takip ediyor, ancak LLM jüri üyelerini kullanan her mülakat ekip insan doğrulaması da kullanıyor. Örnek: LLM yargıçları her yanıtta güveni değerlendirir, yüksek güvenli çıktıları otomatik olarak kabul ederken belirsiz vakaları insan uzmanlara yönlendirir. Takımlar ayrıca jüri yüksek güven ifade etse bile üretim serilerinin %5'ini seçiyor.
Özetle, prodüksiyon ajanları başarılı olur, sofistike özerklikle değil, bilinçli sadelikle. Ekipler, ajan davranışını kısıtlar, insan gözetimine güvenir ve kontrol edilebilirliği yetenekten üstün tutar. Araştırma prototipleri ile üretim dağıtımları arasındaki boşluk, alanın gerçekte nerede durduğunu ortaya koyuyor.
Kâğıt:
Akademimizde tasarım kalıplarını ve gerçek dünya yapay zeka ajanlarının nasıl oluşturulacağını öğrenin:

8,9K
En İyiler
Sıralama
Takip Listesi



