Andrej Karpathy đã đưa ra một ý tưởng rất táo bạo: tất cả đầu vào của LLM nên là hình ảnh, bao gồm cả văn bản thuần túy. Điều này có nghĩa là gì? Mô hình ngôn ngữ lớn truyền thống: văn bản → tokenizer → LLM → đầu ra Tầm nhìn của Andrej: văn bản → chuyển đổi thành hình ảnh → LLM → đầu ra Ngay cả khi bạn muốn nhập vào chỉ là văn bản thuần túy, hãy chuyển đổi nó thành hình ảnh trước, rồi đưa cho mô hình. Tại sao lại làm như vậy? Ông đã đưa ra 4 lý do: 1. Nén thông tin hiệu quả hơn Đây chính là điều mà DeepSeek-OCR đã chứng minh. Một trang tài liệu, theo cách truyền thống có thể cần 2000 token văn bản, nhưng chỉ cần 64 token hình ảnh. Tỷ lệ nén 30 lần. Token văn bản rất lãng phí, token hình ảnh thì dày đặc hơn. 2. Đa dụng hơn Token văn bản chỉ có thể biểu đạt chữ viết. Nhưng thông tin trong thế giới thực không chỉ là chữ viết: - Chữ in đậm, in nghiêng - Chữ màu - Bảng, biểu đồ - Hình ảnh bất kỳ Tất cả được chuyển đổi thành hình ảnh đầu vào, mô hình tự nhiên có thể xử lý những điều này. ...