Andrej Karpathy mengusulkan ide radikal: semua input LLM harus berupa gambar, termasuk teks biasa. Apa maksudmu? Model bahasa besar tradisional: Tokenizer → teks → output → LLM Visi Andrej: Teks → dirender menjadi gambar → output → LLM Bahkan jika Anda ingin memasukkan teks biasa, render sebagai gambar dan masukkan ke model. Mengapa melakukan ini? Dia memberikan 4 alasan: 1. Kompresi informasi lebih efisien Inilah yang dibuktikan oleh DeepSeek-OCR. Untuk dokumen satu halaman, metode tradisional mungkin memerlukan 2.000 token teks, dan token visi hanya membutuhkan 64. Rasio kompresi 30 kali. Token teks boros, token gambar lebih padat. 2. Lebih serbaguna Token teks hanya dapat mengekspresikan kata-kata. Tetapi informasi dunia nyata lebih dari sekadar kata-kata: - Tebal, miring - Teks berwarna - Tabel, bagan - Gambar sewenang-wenang Semua dirender sebagai input gambar, dan model dapat menanganinya secara alami. ...