Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
DeepSeek baru saja merilis makalah baru yang cukup mengejutkan. Mereka benar-benar mengubur lede di sini dengan menyebutnya hanya sebagai DeepSeek OCR.
Meskipun ini adalah model OCR yang sangat kuat, tujuannya dan implikasi dari pendekatan mereka jauh melampaui apa yang Anda harapkan dari "model OCR lainnya."
Secara tradisional, token LLM visi hampir tampak seperti renungan-renungan atau "melesatkan" pada paradigma LLM. Dan 10 ribu kata bahasa Inggris akan memakan jauh lebih banyak ruang dalam LLM multimodal ketika dinyatakan sebagai piksel yang dapat dipahami daripada ketika dinyatakan sebagai token.
Jadi 10 ribu kata itu mungkin telah berubah menjadi 15 ribu token, atau 30 ribu hingga 60 ribu "token visual". Jadi token visi jauh kurang efisien dan benar-benar masuk akal untuk digunakan untuk data yang tidak dapat disampaikan secara efektif dengan kata-kata.
Tapi itu terbalik sekarang dari ide-ide dalam makalah ini. DeepSeek menemukan cara mendapatkan kompresi 10x lebih baik menggunakan token penglihatan daripada dengan token teks! Jadi, secara teoritis, Anda dapat menyimpan 10 ribu kata itu hanya dalam 1.500 token visual terkompresi khusus mereka.
Ini mungkin tidak terduga seperti kedengarannya jika Anda memikirkan bagaimana pikiran Anda sendiri bekerja. Lagi pula, saya tahu bahwa ketika saya mencari bagian dari buku yang telah saya baca, saya membayangkannya secara visual dan selalu mengingat di sisi mana buku itu berada dan kira-kira di mana di halaman itu berada, yang menunjukkan semacam representasi memori visual di tempat kerja.
Sekarang, tidak jelas bagaimana tepatnya ini berinteraksi dengan fungsi kognitif hilir lainnya dari LLM; Dapatkah model bernalar dengan cerdas atas token visual terkompresi tersebut seperti yang dapat dilakukan menggunakan token teks biasa? Apakah itu membuat model kurang artikulasi dengan memaksanya ke dalam modalitas yang lebih berorientasi pada visi?
Tetapi Anda dapat membayangkan bahwa, tergantung pada pengorbanan yang tepat, itu bisa menjadi sumbu baru yang sangat menarik untuk memperluas ukuran konteks yang efektif. Terutama jika dikombinasikan dengan makalah terbaru DeepSeek lainnya dari beberapa minggu yang lalu tentang perhatian yang jarang.
Untuk semua yang kita tahu, Google bisa saja sudah menemukan sesuatu seperti ini, yang dapat menjelaskan mengapa Gemini memiliki ukuran konteks yang begitu besar dan sangat bagus dan cepat dalam tugas OCR. Jika mereka melakukannya, mereka mungkin tidak akan mengatakan karena itu akan dipandang sebagai rahasia dagang yang penting.
Tetapi hal yang menyenangkan tentang DeepSeek adalah mereka telah membuat semuanya open source dan bobot terbuka dan menjelaskan bagaimana mereka melakukannya, jadi sekarang semua orang dapat mencobanya dan menjelajah.
Bahkan jika trik ini membuat perhatian lebih merugikan, potensi mendapatkan LLM perbatasan dengan jendela konteks 10 atau 20 juta token cukup menarik.
Anda pada dasarnya dapat menjejalkan semua dokumen internal utama perusahaan ke dalam pembukaan prompt dan meng-cache ini dengan OpenAI dan kemudian menambahkan kueri atau prompt spesifik Anda di atasnya dan tidak perlu berurusan dengan alat pencarian dan tetap membuatnya cepat dan hemat biaya.
Atau masukkan seluruh basis kode ke dalam konteks dan cache, lalu terus menambahkan yang setara dengan git diffs saat Anda membuat perubahan pada kode.
Jika Anda pernah membaca cerita tentang fisikawan hebat Hans Bethe, dia dikenal karena memiliki sejumlah besar fakta fisik acak yang dihafal (seperti seluruh tabel periodik; titik didih berbagai zat, dll.) sehingga dia dapat berpikir dan menghitung dengan mulus tanpa harus mengganggu alirannya untuk mencari sesuatu di tabel referensi.
Memiliki sejumlah besar pengetahuan khusus tugas dalam memori kerja Anda sangat berguna. Ini tampaknya seperti pendekatan yang sangat cerdas dan aditif untuk berpotensi memperluas bank memori itu sebesar 10x atau lebih.
6,35K
Saya mendapatkan informasi harga terbaru dan menghitung biaya per tflops:


Zach Mueller17 Okt, 23.05
Membuat tabel GPU BF16 yang paling umum/didukung dan TFLOP-nya yang tidak jarang. Apa cara terbaik untuk mempublikasikan ini? Sebagai wiki di blog saya? Paket pypi untuk diimpor?

29,79K
Claude Opus 4.1 adalah tutor paling luar biasa untuk pembelajaran mandiri. Karena itu benar-benar N tutor sekaligus.
Untuk meniru percakapan yang baru saja saya lakukan (kutipan yang ditampilkan dalam tangkapan layar) dengan tutor manusia yang sebenarnya, Anda mungkin perlu merekrut profesor universitas atau yang setara di:
1) Sejarah/Filsafat, untuk mengetahui detail biografi acak Friedrich Heinrich Jacobi (yang mempopulerkan konsep nihilisme).
2) Sejarah Sains, untuk mengetahui detail Carl Gustav Jacob Jacobi (matematikawan hebat) dan karya dan kehidupannya.
3) Fisika/Matematika, untuk benar-benar dapat menjelaskan karya CGJ Jacobi secara rinci (dan dipertanyakan apakah sebagian besar benar-benar dapat menjelaskannya dengan baik dan sejelas yang dilakukan Claude di sini).
Ditambah pengembang frontend yang terampil untuk bekerja dengan profesor fisika/matematika untuk membuat visualisasi apik dari Transformasi Hamilton-Jacobi yang diterapkan pada pendulum.
Pada dasarnya, kecuali Anda seorang centimillionaire atau miliarder dengan sejumlah akademisi yang siap mengajar Anda, Anda akan kesulitan mempelajari hal-hal ini dengan cara interaktif seperti ini, di mana Anda dapat dengan mudah mengajukan pertanyaan dan mendapatkan tanggapan yang disesuaikan dengan sempurna, dengan lawan bicara manusia.
Atau Anda dapat membayar $20/bulan untuk akses ke Claude.
Saya memiliki percakapan acak dan mengembara seperti ini setiap hari, di mana saya mulai dengan satu pertanyaan acak dan kemudian melanjutkan saat saya memikirkan hal-hal lain yang ingin saya pahami dengan lebih baik.
Lima tahun yang lalu, ini menghasilkan selusin atau lebih tab Wikipedia terbuka di Chrome saat saya menempuh jalur acak. Tapi ini jauh lebih menarik dan interaktif karena ini adalah diskusi aktual yang Anda ikuti.
Tautan ke percakapan lengkap dan aplikasi web dalam respons.




4,45K
Teratas
Peringkat
Favorit