Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

汉松
Pengembangan aplikasi pabrik besar dan model besar | Kedatangan AI | Pembelajar Seumur Hidup | Rasa adalah semua yang Anda butuhkan
Dalam artikel keempat tentang penerapan vLLM dari awal, kita mengalihkan perhatian kita ke komponen lain yang tampaknya sederhana namun penting dari arsitektur Transformer: RMSNorm (Root Mean Square Normalization).
Pertama-tama mari kita lihat apa itu normalisasi, katakanlah Anda baru saja menyelesaikan ujian akhir dan hasil dari ketiga kursus keluar:
Matematika: 120 dari 150
Bahasa Inggris: 80 dari 100
Fisika: 160 dari 200
Kursus mana yang terbaik? Jika Anda membandingkan 120, 80, 160 secara langsung, Anda akan sampai pada kesimpulan terbaik dalam fisika. Tetapi situasi sebenarnya adalah bahwa ketiga kursus tersebut sebenarnya sama bagusnya.
Matematika: 120/150 = 80%
Bahasa Inggris: 80/100 = 80%
Fisik: 160/200 = 80%
Ini adalah ide inti dari normalisasi: mengubah data dengan dimensi yang berbeda dan rentang yang berbeda menjadi standar terpadu untuk perbandingan.
Mengapa jaringan saraf perlu dinormalisasi?
Bayangkan Anda sedang bermain game perpesanan. Orang pertama berkata "Saya suka apel", dan ketika beralih ke orang kesepuluh, itu menjadi "Saya suka nanas". Ini adalah masalah yang dihadapi oleh jaringan saraf dalam.
Setiap lapisan jaringan melakukan beberapa perhitungan pada input dan kemudian meneruskan hasilnya ke lapisan berikutnya. Masalahnya adalah bahwa seiring bertambahnya jumlah lapisan, nilai-nilai ini menjadi semakin tidak terkendali - baik meledak atau menghilang tanpa jejak. Seperti permainan perpesanan, informasi secara bertahap terdistorsi selama transmisi.
Menambahkan lapisan normalisasi ke model dapat mengurangi kemungkinan ledakan atau hilangnya gradien, dan proses pelatihan model menjadi lebih stabil. Teknologi normalisasi telah berkembang dari BatchNorm ke LayerNorm dan akhirnya ke RMSNorm, menjadi konfigurasi standar untuk model besar.
Artikel saya akan membawa Anda ke dalam sejarah evolusi teknologi normalisasi, jika Anda tertarik, Anda dapat memeriksa artikel aslinya.


63,93K
Keterampilan Agen Claude pada dasarnya adalah "offload konteks" yang memindahkan informasi keterampilan yang panjang di luar konteks dan memuatnya sesuai permintaan. Secara kebetulan, Manus' Peak baru-baru ini juga membagikan beberapa tips "offload kontekstual". Manus memiliki banyak alat, tetapi tidak memberikan model definisi lengkap dari alat-alat ini. Jadi bagaimana ia mengetahui alat apa yang ada dan bagaimana Anda menyebutnya? Bayangkan memberi Anda komputer baru, bagaimana Anda tahu alat apa yang tersedia? Rata-rata pengguna akan membuka daftar aplikasi, dan programmer akan 'ls /usr/bin' untuk melihat perintah apa yang tersedia.
Demikian pula, solusi Manus adalah memberi tahu model dalam prompt sistem bahwa ada banyak utilitas baris perintah yang telah diinstal sebelumnya di folder tertentu. Alat yang paling umum digunakan (ls, grep, cat, kurang, lebih, dll.) dibangun ke dalam perintah sistem secara default. Alih-alih memberi tahu model cara menggunakan alat, cukup cantumkan nama alat dan kemudian beri tahu cara menggunakan parameter --help untuk memahami cara menggunakan alat. Bagian terbaiknya adalah model operasi shell ini telah dipelajari, sehingga memiliki kemampuan generalisasi yang kuat, dan untuk menambahkan alat baru, Anda hanya perlu memasukkan perintah ke dalam folder.
Saya menemukan bahwa Manus benar-benar mengikuti filosofi Unix sampai akhir: KISS (Keep It Simple, Stupid).


宝玉17 Okt, 02.58
Keterampilan Agen adalah hal-hal hebat yang memandu agen ke keterampilan tertentu, dan mudah dibuat.
Membuat keterampilan seperti menulis manual orientasi untuk karyawan baru. Alih-alih membuat agen terpisah untuk setiap tugas yang berbeda, siapa pun dapat dengan cepat mengubah agen menjadi master di bidang yang sesuai dengan berbagi keahlian di bidang tertentu.
Saya menyebutkan sebelumnya bahwa seorang teman adalah agen berdasarkan Sistem Desain mereka, dan Anda perlu memandu agen untuk grep untuk mengambil dokumen melalui prompt, tetapi sekarang bahkan lebih sederhana, cukup tambahkan direktori di bawah .claude/skills di direktori global atau proyek, dan letakkan file SKILL\.md yang berisi informasi meta, Anda dapat memandu agen untuk belajar menggunakan keterampilan ini.
Pejabat itu juga memberikan contoh Keterampilan PDF, yang berisi serangkaian instruksi dan skrip pengoperasian PDF, dengan bantuan agen dapat memanipulasi PDF, seperti mengekstrak formulir. Konon, keterampilan tidak hanya dapat berisi dokumentasi tetapi juga skrip yang dapat dieksekusi.
Perlu dicatat bahwa informasi meta dalam keterampilan dimuat ke dalam konteks secara default, dan informasi lainnya hanya akan dimuat saat diperlukan.



136,51K
Teratas
Peringkat
Favorit

