Mengapa DeepSeek-OCR MASALAH BESAR? LLM yang ada berjuang dengan input yang panjang karena mereka hanya dapat menangani sejumlah token tetap, yang dikenal sebagai jendela konteks, dan biaya perhatian tumbuh dengan cepat seiring dengan masukan yang semakin panjang. DeepSeek-OCR mengambil pendekatan baru. Alih-alih mengirim konteks panjang langsung ke LLM, ia mengubahnya menjadi gambar, mengompresi gambar itu menjadi token visual, dan kemudian meneruskan token tersebut ke LLM. Lebih sedikit token mengarah pada biaya komputasi yang lebih rendah dari perhatian dan jendela konteks efektif yang lebih besar. Hal ini membuat chatbot dan model dokumen lebih mumpuni dan efisien. Bagaimana DeepSeek-OCR dibangun? Sistem ini memiliki dua bagian utama: 1. Encoder: Ini memproses gambar teks, mengekstrak fitur visual, dan mengompresnya menjadi sejumlah kecil token penglihatan. 2. Dekoder: Model bahasa Campuran Pakar yang membaca token tersebut dan menghasilkan teks satu token pada satu waktu, mirip dengan transformator khusus dekoder standar. Kapan menggunakannya? DeepSeek-OCR menunjukkan bahwa teks dapat dikompresi secara efisien menggunakan representasi visual. Ini sangat berguna untuk menangani dokumen yang sangat panjang yang melebihi batas konteks standar. Anda dapat menggunakannya untuk kompresi konteks, tugas OCR standar, atau penguraian mendalam, seperti mengonversi tabel dan tata letak kompleks menjadi teks. Terserah Anda: Apa pendapat Anda tentang menggunakan token visual untuk menangani masalah konteks panjang di LLM? Bisakah ini menjadi standar berikutnya untuk model besar? -- Kami baru saja meluncurkan Menjadi Insinyur AI | Belajar dengan Melakukan: Kohort 2. Jika Anda melewatkan Kelompok 1, sekarang adalah kesempatan Anda untuk bergabung dengan kami untuk Kelompok 2. Lihat di sini: #AI #AIEngineer #MachineLearning...