DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Tomasz Tunguz

2025 adalah tahun agen, & kemampuan utama agen adalah alat panggilan. Saat menggunakan Claude Code, saya dapat memberi tahu AI untuk menyaring buletin, menemukan semua tautan ke startup, memverifikasi keberadaannya di CRM kami, dengan satu perintah. Ini mungkin melibatkan dua atau tiga alat berbeda yang dipanggil. Tapi inilah masalahnya: menggunakan model fondasi besar untuk ini mahal, seringkali tarif terbatas, & terlalu kuat untuk tugas seleksi. Apa cara terbaik untuk membangun sistem agen dengan panggilan alat? Jawabannya terletak pada model aksi kecil. NVIDIA merilis makalah yang menarik yang berpendapat bahwa "Model bahasa kecil (SLM) cukup kuat, secara inheren lebih cocok, dan tentu saja lebih ekonomis untuk banyak pemanggilan dalam sistem agen." Saya telah menguji model lokal yang berbeda untuk memvalidasi latihan pengurangan biaya. Saya mulai dengan model parameter Qwen3:30b, yang berfungsi tetapi bisa sangat lambat karena ini adalah model yang sangat besar, meskipun hanya 3 miliar dari 30 miliar parameter tersebut yang aktif pada satu waktu. Makalah NVIDIA merekomendasikan model Salesforce xLAM – arsitektur berbeda yang disebut model aksi besar yang dirancang khusus untuk pemilihan alat. Jadi, saya menjalankan pengujian saya sendiri, setiap model memanggil alat untuk mencantumkan tugas Asana saya. Hasilnya sangat mengejutkan: xLAM menyelesaikan tugas dalam 2,61 detik dengan keberhasilan 100%, sementara Qwen membutuhkan 9,82 detik dengan keberhasilan 92% – hampir empat kali lebih lama. Eksperimen ini menunjukkan perolehan kecepatan, tetapi ada trade-off: berapa banyak kecerdasan yang harus hidup dalam model versus dalam alat itu sendiri. Ini terbatas Dengan model yang lebih besar seperti Qwen, alat bisa lebih sederhana karena model memiliki toleransi kesalahan yang lebih baik & dapat bekerja di sekitar antarmuka yang dirancang dengan buruk. Model ini mengkompensasi keterbatasan alat melalui penalaran brute-force. Dengan model yang lebih kecil, model memiliki kapasitas yang lebih kecil untuk pulih dari kesalahan, sehingga alat harus lebih kuat & logika pemilihan lebih tepat. Ini mungkin tampak seperti batasan, tetapi sebenarnya ini adalah fitur. Kendala ini menghilangkan tingkat kesalahan peracikan alat berantai LLM. Ketika model besar melakukan panggilan alat berurutan, kesalahan terakumulasi secara eksponensial. Model aksi kecil memaksa desain sistem yang lebih baik, menjaga yang terbaik dari LLM dan menggabungkannya dengan model khusus. Arsitektur ini lebih efisien, lebih cepat, dan lebih dapat diprediksi.

Kotak hitam kecil di tengah adalah kode pembelajaran mesin. Saya ingat membaca makalah Hutang Teknis Tersembunyi Google 2015 di ML & berpikir betapa sedikitnya aplikasi pembelajaran mesin adalah pembelajaran mesin yang sebenarnya. Sebagian besar adalah infrastruktur, manajemen data, & kompleksitas operasional. Dengan awal AI, tampaknya model bahasa besar akan memasukkan kotak-kotak ini. Janjinya adalah kesederhanaan: drop in LLM & menontonnya menangani segala sesuatu mulai dari layanan pelanggan hingga pembuatan kode. Tidak ada lagi pipeline yang rumit atau integrasi yang rapuh. Tetapi dalam membangun aplikasi internal, kami telah mengamati dinamika yang sama dengan AI. Agen membutuhkan banyak konteks, seperti manusia : bagaimana CRM terstruktur, apa yang kita masukkan ke dalam setiap bidang - tetapi input mahal model AI Lapar, Lapar. Mengurangi biaya berarti menulis perangkat lunak deterministik untuk menggantikan penalaran AI. Misalnya, mengotomatiskan manajemen email berarti menulis alat untuk membuat tugas Asana & memperbarui CRM. Karena jumlah alat meningkat melebihi sepuluh atau lima belas alat, pemanggilan alat tidak lagi berfungsi. Saatnya memutar model pembelajaran mesin klasik untuk memilih alat. Lalu ada mengamati sistem dengan observabilitas, mengevaluasi apakah itu berkinerja, & merutekan ke model yang tepat. Selain itu, ada seluruh kategori perangkat lunak seputar memastikan AI melakukan apa yang seharusnya. Pagar pembatas mencegah respons yang tidak pantas. Pembatasan tarif menghentikan biaya dari lepas kendali ketika suatu sistem menjadi kacau. Pengambilan informasi (RAG - retrieval augmented generation) sangat penting untuk sistem produksi apa pun. Di aplikasi email saya, saya menggunakan database vektor LanceDB untuk menemukan semua email dari pengirim tertentu & mencocokkan nada mereka. Ada teknik lain untuk manajemen pengetahuan seputar grafik RAG & database vektor khusus. Baru-baru ini, memori menjadi jauh lebih penting. Antarmuka baris perintah untuk alat AI menyimpan riwayat percakapan sebagai file penurunan harga. Ketika saya menerbitkan grafik, saya ingin keterangan Theory Ventures di kanan bawah, font, warna, & gaya tertentu. Itu semua sekarang disimpan dalam file .gemini atau .claude dalam serangkaian direktori berjenjang. Kesederhanaan asli model bahasa besar telah dimasukkan oleh kompleksitas produksi tingkat perusahaan. Ini tidak identik dengan sistem pembelajaran mesin generasi sebelumnya, tetapi mengikuti paralel yang jelas. Apa yang tampak seperti "kotak ajaib AI" sederhana ternyata adalah gunung es, dengan sebagian besar pekerjaan teknik tersembunyi di bawah permukaan.

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal