Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aakash Gupta
✍️ https://t.co/8fvSCtAXgi: $54K/bln 🎙️ https://t.co/fmB6Zf5n9X: $32K/bln 💼 https://t.co/hNxFPvj3v1: $31K/bln 🤝 https://t.co/SqC3jTyhav: $28K/bln
.@HamelHusain tentang mengapa manajer produk harus memiliki analisis kesalahan dalam produk AI - bukan hanya insinyur.
Analisis kesalahan. Bukan evale otomatis. Bukan dasbor metrik. Analisis kesalahan manual dan langsung.

Aakash Gupta15 Jan, 14.51
Mereka melatih orang-orang di OpenAI, Anthropic, Google, dan Meta tentang AI evals (@HamelHusain dan @sh_reya).
Berikut proses lengkapnya:
8:27 - Mengapa setiap orang membutuhkan evals
15:43 - Proses analisis kesalahan
32:18 - Juri LLM
44:52 - Metrik
1
Semua orang kehilangan kisah sebenarnya di sini.
Ini bukan "teknik dorongan". Makalah ini disebut Model Bahasa Rekursif, bukan "Meta-Kognisi Rekursif." Dan penulis bukanlah peneliti acak yang menggiling jumlah kutipan.
Omar Khattab menciptakan DSPy, yang memiliki 31.000+ bintang GitHub dan mengubah cara orang membangun sistem AI majemuk. Tim Kraska memelopori struktur indeks yang dipelajari dengan Jeff Dean di Google dan menjalankan Sistem Data dan Lab AI MIT. Alex Zhang adalah mahasiswa PhD yang bekerja di persimpangan keduanya.
Makalah yang sebenarnya membahas masalah tertentu: LLM menurun pada konteks yang panjang. Grafik menunjukkan performa GPT-5 runtuh saat panjang input berskala dari 2^14 menjadi 2^21 token, sementara RLM mempertahankan performa yang stabil. Mereka menangani input 100x di luar jendela konteks.
Wawasan utama dari Twitter Khattab sendiri: "Kebanyakan orang salah memahami RLM tentang LLM yang memanggil diri mereka sendiri. Wawasan yang lebih dalam adalah LLM berinteraksi dengan petunjuk mereka sendiri sebagai objek."
Ini memperluas seluruh busur penelitian Khattab. DSPy mengubah prompt menjadi modul terprogram. ColBERT membuat pengambilan lebih cerdas. RLM mengubah konteks itu sendiri menjadi sesuatu yang dapat dimanipulasi oleh model seperti data dalam memori.
Prime Intellect, salah satu laboratorium AI terdesentralisasi terkemuka, sudah membangun hal ini. Mereka menulis bahwa RLM akan memungkinkan mereka "mengajarkan model untuk mengelola konteks mereka sendiri dari ujung ke ujung melalui pembelajaran penguatan" untuk agen yang berjalan selama berminggu-minggu atau berbulan-bulan.
Perdagangan nyata? Ini memecahkan kendala yang dihadapi setiap lab AI: jendela konteks adalah langit-langit yang keras. Memperluasnya melalui arsitektur dan pelatihan itu mahal. RLM menawarkan pendekatan waktu inferensi yang bekerja dengan model yang ada.
Tetapi perhatikan tangkapannya: ini membutuhkan model yang dapat menulis dan mengeksekusi kode dengan andal. Tolok ukur menggunakan GPT-5 dalam Python REPL. Model dengan pembuatan kode yang lebih lemah akan kesulitan untuk mengimplementasikan dekomposisi rekursif dengan bersih. Teknik ini diskalakan dengan kemampuan kode, bukan hanya kemampuan penalaran.

God of Prompt21 jam lalu
Petunjuk dasar R.I.P.
MIT baru saja menjatuhkan teknik yang membuat ChatGPT bernalar seperti tim ahli, bukan satu magang yang terlalu percaya diri.
Ini disebut "Rekursif Meta-Kognisi" dan mengungguli perintah standar sebesar 110%.
Inilah promptnya (dan mengapa ini mengubah segalanya) 👇

1
Tampilan perbedaan memecahkan masalah kepercayaan yang memblokir adopsi pengkodean AI.
Ketika pengembang dapat melihat dengan tepat apa yang berubah, mereka berhenti memperlakukan kode AI sebagai kotak hitam yang membutuhkan tinjauan manual baris demi baris. Ini adalah fitur yang mengubah skeptis pengkodean AI.
Keluhan terbesar dari insinyur senior tentang alat pengkodean AI: "Saya tetap harus meninjau setiap baris, sehingga tidak menghemat waktu." Keluhan itu menghilang ketika Anda dapat melihat dengan tepat apa yang berubah, dalam konteks, dengan perbedaan di sana.
GitHub mengajarkan pengembang untuk berpikir dalam perbedaan. Budaya tinjauan kode berjalan pada diff. Seluruh memori otot "apakah perubahan ini aman?" dipetakan ke garis hijau dan merah.
Claude Code hanya cocok dengan model mental itu. Sekarang AI bukanlah kotak hitam yang memuntahkan kode yang harus Anda audit. Ini adalah insinyur junior yang membuat PR yang dapat Anda tinjau dalam 30 detik.
Perbedaan antara "AI menulis ini" dan "AI mengubah 12 baris ini" adalah perbedaan antara ketidakpercayaan dan adopsi.
Saksikan angka penggunaan naik.

Claude16 jam lalu
Baru di Claude Code di web dan desktop: tampilan diff.
Lihat perubahan pasti yang dibuat Claude tanpa meninggalkan aplikasi.

2
Teratas
Peringkat
Favorit