Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy mengusulkan ide radikal: semua input LLM harus berupa gambar, termasuk teks biasa.
Apa maksudmu?
Model bahasa besar tradisional: Tokenizer → teks → output → LLM
Visi Andrej: Teks → dirender menjadi gambar → output → LLM
Bahkan jika Anda ingin memasukkan teks biasa, render sebagai gambar dan masukkan ke model.
Mengapa melakukan ini?
Dia memberikan 4 alasan:
1. Kompresi informasi lebih efisien
Inilah yang dibuktikan oleh DeepSeek-OCR. Untuk dokumen satu halaman, metode tradisional mungkin memerlukan 2.000 token teks, dan token visi hanya membutuhkan 64. Rasio kompresi 30 kali.
Token teks boros, token gambar lebih padat.
2. Lebih serbaguna
Token teks hanya dapat mengekspresikan kata-kata. Tetapi informasi dunia nyata lebih dari sekadar kata-kata:
- Tebal, miring
- Teks berwarna
- Tabel, bagan
- Gambar sewenang-wenang
Semua dirender sebagai input gambar, dan model dapat menanganinya secara alami.
...
Teratas
Peringkat
Favorit