Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek baru saja merilis makalah baru yang cukup mengejutkan. Mereka benar-benar mengubur lede di sini dengan menyebutnya hanya sebagai DeepSeek OCR.
Meskipun ini adalah model OCR yang sangat kuat, tujuannya dan implikasi dari pendekatan mereka jauh melampaui apa yang Anda harapkan dari "model OCR lainnya."
Secara tradisional, token LLM visi hampir tampak seperti renungan-renungan atau "melesatkan" pada paradigma LLM. Dan 10 ribu kata bahasa Inggris akan memakan jauh lebih banyak ruang dalam LLM multimodal ketika dinyatakan sebagai piksel yang dapat dipahami daripada ketika dinyatakan sebagai token.
Jadi 10 ribu kata itu mungkin telah berubah menjadi 15 ribu token, atau 30 ribu hingga 60 ribu "token visual". Jadi token visi jauh kurang efisien dan benar-benar masuk akal untuk digunakan untuk data yang tidak dapat disampaikan secara efektif dengan kata-kata.
Tapi itu terbalik sekarang dari ide-ide dalam makalah ini. DeepSeek menemukan cara mendapatkan kompresi 10x lebih baik menggunakan token penglihatan daripada dengan token teks! Jadi, secara teoritis, Anda dapat menyimpan 10 ribu kata itu hanya dalam 1.500 token visual terkompresi khusus mereka.
Ini mungkin tidak terduga seperti kedengarannya jika Anda memikirkan bagaimana pikiran Anda sendiri bekerja. Lagi pula, saya tahu bahwa ketika saya mencari bagian dari buku yang telah saya baca, saya membayangkannya secara visual dan selalu mengingat di sisi mana buku itu berada dan kira-kira di mana di halaman itu berada, yang menunjukkan semacam representasi memori visual di tempat kerja.
Sekarang, tidak jelas bagaimana tepatnya ini berinteraksi dengan fungsi kognitif hilir lainnya dari LLM; Dapatkah model bernalar dengan cerdas atas token visual terkompresi tersebut seperti yang dapat dilakukan menggunakan token teks biasa? Apakah itu membuat model kurang artikulasi dengan memaksanya ke dalam modalitas yang lebih berorientasi pada visi?
Tetapi Anda dapat membayangkan bahwa, tergantung pada pengorbanan yang tepat, itu bisa menjadi sumbu baru yang sangat menarik untuk memperluas ukuran konteks yang efektif. Terutama jika dikombinasikan dengan makalah terbaru DeepSeek lainnya dari beberapa minggu yang lalu tentang perhatian yang jarang.
Untuk semua yang kita tahu, Google bisa saja sudah menemukan sesuatu seperti ini, yang dapat menjelaskan mengapa Gemini memiliki ukuran konteks yang begitu besar dan sangat bagus dan cepat dalam tugas OCR. Jika mereka melakukannya, mereka mungkin tidak akan mengatakan karena itu akan dipandang sebagai rahasia dagang yang penting.
Tetapi hal yang menyenangkan tentang DeepSeek adalah mereka telah membuat semuanya open source dan bobot terbuka dan menjelaskan bagaimana mereka melakukannya, jadi sekarang semua orang dapat mencobanya dan menjelajah.
Bahkan jika trik ini membuat perhatian lebih merugikan, potensi mendapatkan LLM perbatasan dengan jendela konteks 10 atau 20 juta token cukup menarik.
Anda pada dasarnya dapat menjejalkan semua dokumen internal utama perusahaan ke dalam pembukaan prompt dan meng-cache ini dengan OpenAI dan kemudian menambahkan kueri atau prompt spesifik Anda di atasnya dan tidak perlu berurusan dengan alat pencarian dan tetap membuatnya cepat dan hemat biaya.
Atau masukkan seluruh basis kode ke dalam konteks dan cache, lalu terus menambahkan yang setara dengan git diffs saat Anda membuat perubahan pada kode.
Jika Anda pernah membaca cerita tentang fisikawan hebat Hans Bethe, dia dikenal karena memiliki sejumlah besar fakta fisik acak yang dihafal (seperti seluruh tabel periodik; titik didih berbagai zat, dll.) sehingga dia dapat berpikir dan menghitung dengan mulus tanpa harus mengganggu alirannya untuk mencari sesuatu di tabel referensi.
Memiliki sejumlah besar pengetahuan khusus tugas dalam memori kerja Anda sangat berguna. Ini tampaknya seperti pendekatan yang sangat cerdas dan aditif untuk berpotensi memperluas bank memori itu sebesar 10x atau lebih.
Berikut adalah beberapa poin yang bagus dari Claude Opus4.1 di atas kertas jika Anda tidak ingin membaca semuanya (ini juga cukup teknis):




Hal-hal tentang bagaimana Anda dapat "mengompres" dalam memori konteks lama yang hilang dengan secara otomatis menurunkan sampel representasi visual dari token tersebut (katakanlah, dari 1024x1024 piksel menjadi 512x512 piksel) untuk menghemat ruang dengan membuat ingatan itu "lebih kabur" secara langsung berbicara tentang apa yang @karpathy anjurkan dalam wawancara Dwarkesh-nya tentang membuat LLM kurang bergantung pada hafalan yang tepat. Dan tentu saja, ini mencerminkan bagaimana pikiran manusia bekerja lebih baik juga.
19,1K
Teratas
Peringkat
Favorit