DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Andrej Karpathy

Membangun @EurekaLabsAI. Sebelumnya Direktur AI @ Tesla, tim pendiri @ OpenAI, CS231n/PhD @ Stanford. Saya suka melatih jaring saraf dalam yang besar.

Saya cukup menyukai makalah DeepSeek-OCR baru. Ini adalah model OCR yang bagus (mungkin sedikit lebih buruk dari titik), dan ya pengumpulan data dll., Tapi bagaimanapun itu tidak masalah. Bagian yang lebih menarik bagi saya (terutama sebagai visi komputer di hati yang untuk sementara menyamar sebagai orang bahasa alami) adalah apakah piksel adalah input yang lebih baik untuk LLM daripada teks. Apakah token teks boros dan mengerikan, pada input. Mungkin lebih masuk akal bahwa semua input ke LLM hanya boleh berupa gambar. Bahkan jika Anda kebetulan memiliki input teks murni, mungkin Anda lebih suka merendernya dan kemudian memasukkannya: - Kompresi informasi lebih banyak (lihat makalah) => jendela konteks yang lebih pendek, lebih efisiensi - aliran informasi yang jauh lebih umum => bukan hanya teks, tetapi misalnya teks tebal, teks berwarna, gambar sewenang-wenang. - Input sekarang dapat diproses dengan perhatian dua arah dengan mudah dan sebagai default, bukan perhatian regresif otomatis - jauh lebih kuat. - hapus tokenizer (di input)!! Saya sudah mengoceh tentang betapa saya tidak menyukai tokenizer. Tokenizer jelek, terpisah, bukan tahap ujung ke ujung. Ini "mengimpor" semua keburukan Unicode, pengkodean byte, mewarisi banyak bagasi historis, risiko keamanan/jailbreak (misalnya byte kelanjutan). Itu membuat dua karakter yang terlihat identik dengan mata terlihat sebagai dua token yang sama sekali berbeda secara internal dalam jaringan. Emoji tersenyum terlihat seperti token aneh, bukan... wajah tersenyum yang sebenarnya, piksel dan semuanya, dan semua pembelajaran transfer yang dibawa. Tokenizer harus pergi. OCR hanyalah salah satu dari banyak tugas teks > visi yang berguna. Dan tugas teks -> teks dapat dibuat menjadi tugas visi->teks. Tidak sebaliknya. Begitu banyak pesan Pengguna adalah gambar, tetapi dekoder (respons Asisten) tetap teks. Jauh lebih jelas bagaimana menghasilkan piksel secara realistis... atau jika Anda mau. Sekarang saya juga harus melawan keinginan untuk mencari sampingan versi nanochat khusus input gambar...

Teratas

Peringkat

Favorit