Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

AI进化论-花生

Andrej Karpathy đã đưa ra một ý tưởng rất táo bạo: tất cả đầu vào của LLM nên là hình ảnh, bao gồm cả văn bản thuần túy. Điều này có nghĩa là gì? Mô hình ngôn ngữ lớn truyền thống: văn bản → tokenizer → LLM → đầu ra Tầm nhìn của Andrej: văn bản → chuyển đổi thành hình ảnh → LLM → đầu ra Ngay cả khi bạn muốn nhập vào chỉ là văn bản thuần túy, hãy chuyển đổi nó thành hình ảnh trước, rồi đưa cho mô hình. Tại sao lại làm như vậy? Ông đã đưa ra 4 lý do: 1. Nén thông tin hiệu quả hơn Đây chính là điều mà DeepSeek-OCR đã chứng minh. Một trang tài liệu, theo cách truyền thống có thể cần 2000 token văn bản, nhưng chỉ cần 64 token hình ảnh. Tỷ lệ nén 30 lần. Token văn bản rất lãng phí, token hình ảnh thì dày đặc hơn. 2. Đa dụng hơn Token văn bản chỉ có thể biểu đạt chữ viết. Nhưng thông tin trong thế giới thực không chỉ là chữ viết: - Chữ in đậm, in nghiêng - Chữ màu - Bảng, biểu đồ - Hình ảnh bất kỳ Tất cả được chuyển đổi thành hình ảnh đầu vào, mô hình tự nhiên có thể xử lý những điều này. 3. Có thể sử dụng sự chú ý hai chiều Đây là chi tiết kỹ thuật. Cách truyền thống từ văn bản đến văn bản là tự hồi quy (từ trái sang phải). Đầu vào hình ảnh có thể sử dụng sự chú ý hai chiều, nhìn thấy thông tin toàn cục, mạnh mẽ hơn. 4. Loại bỏ tokenizer (điểm quan trọng!) Andrej rất ghét tokenizer. Những phàn nàn của ông: - Tokenizer là một giai đoạn xấu xí, độc lập, không đầu cuối - Nó kế thừa tất cả gánh nặng lịch sử của Unicode, mã byte - Có rủi ro an ninh (như tấn công byte tiếp tục) - Hai ký tự trông giống nhau, trong mắt tokenizer có thể hoàn toàn khác nhau - 😊 emoji này trong tokenizer chỉ là một token kỳ lạ, không phải là một hình ảnh thực sự của khuôn mặt cười Ông hy vọng tokenizer sẽ biến mất. Tầm nhìn của ông là gì - Đầu vào: tất cả là hình ảnh (ngay cả khi ban đầu là văn bản) - Đầu ra: vẫn là văn bản (bởi vì đầu ra pixel là không thực tế) OCR chỉ là một trong những nhiệm vụ vision→text. Nhiều nhiệm vụ text→text có thể biến thành vision→text. Hiểu biết của tôi Quan điểm của Andrej rất táo bạo, nhưng thực sự có lý. Từ góc độ lý thuyết thông tin, hình ảnh thực sự hiệu quả hơn văn bản. DeepSeek-OCR đã chứng minh điều này: 64 token hình ảnh có thể biểu đạt thông tin của 2000 token văn bản. Từ góc độ đa dụng, đầu vào hình ảnh tự nhiên hỗ trợ nhiều định dạng khác nhau (in đậm, màu sắc, biểu đồ), không cần lớp trung gian tokenizer. Nhưng vấn đề là: 1. Chi phí tính toán: xử lý token hình ảnh đắt hơn token văn bản. Mặc dù số lượng token đã giảm, nhưng khối lượng tính toán cho mỗi token hình ảnh lớn hơn. 2. Dữ liệu huấn luyện: phần lớn dữ liệu huấn luyện hiện có là văn bản thuần túy. Để chuyển đổi tất cả thành hình ảnh, chi phí rất cao. 3. Vấn đề đầu ra: ông cũng thừa nhận, đầu ra pixel là không thực tế. Vì vậy chỉ có thể là chế độ kết hợp đầu vào hình ảnh → đầu ra văn bản. Nhưng về lâu dài, hướng đi này có thể là đúng. Đặc biệt là khi xem xét: - Đầu vào của con người vốn đã là đa phương thức (chữ viết, hình ảnh, video) - Tokenizer thực sự có nhiều vấn đề (an ninh, Unicode, gánh nặng lịch sử) - AI trong tương lai nên có thể hiểu trực tiếp pixel, thay vì biến mọi thứ thành token DeepSeek-OCR có thể chỉ là khởi đầu. Nó đã chứng minh rằng "nén quang học theo ngữ cảnh" là khả thi. Andrej nhìn thấy một tương lai xa hơn: một thế giới không có tokenizer, tất cả đầu vào là hình ảnh, tất cả đầu ra là văn bản. Liệu điều này có trở thành hiện thực? Không biết. Nhưng ít nhất, hướng đi này đáng để khám phá.

Tôi khá thích bài báo mới về DeepSeek-OCR. Đây là một mô hình OCR tốt (có thể kém hơn một chút so với dots), và đúng là việc thu thập dữ liệu v.v., nhưng dù sao thì điều đó không quan trọng. Phần thú vị hơn đối với tôi (đặc biệt là một người yêu thích thị giác máy tính nhưng tạm thời giả vờ là một người ngôn ngữ tự nhiên) là liệu pixel có phải là đầu vào tốt hơn cho LLM so với văn bản hay không. Liệu các token văn bản có lãng phí và thật tệ ở đầu vào hay không. Có thể hợp lý hơn nếu tất cả các đầu vào cho LLM chỉ nên là hình ảnh. Ngay cả khi bạn có đầu vào văn bản thuần túy, có thể bạn sẽ thích việc render nó và sau đó đưa vào: - nén thông tin nhiều hơn (xem bài báo) => cửa sổ ngữ cảnh ngắn hơn, hiệu quả hơn - dòng thông tin tổng quát hơn đáng kể => không chỉ văn bản, mà ví dụ như văn bản in đậm, văn bản màu, hình ảnh tùy ý. - đầu vào giờ đây có thể được xử lý dễ dàng với sự chú ý hai chiều và như mặc định, không phải là sự chú ý tự hồi quy - mạnh mẽ hơn rất nhiều. - xóa bỏ bộ phân tách (ở đầu vào)!! Tôi đã từng phàn nàn về việc tôi không thích bộ phân tách. Các bộ phân tách thật xấu xí, tách biệt, không phải là giai đoạn end-to-end. Nó "nhập khẩu" tất cả sự xấu xí của Unicode, mã byte, nó thừa hưởng rất nhiều gánh nặng lịch sử, rủi ro bảo mật/thoát hiểm (ví dụ: byte tiếp tục). Nó làm cho hai ký tự trông giống hệt nhau với mắt lại trông như hai token hoàn toàn khác nhau bên trong mạng. Một emoji cười trông như một token kỳ lạ, không phải là... một khuôn mặt cười thực sự, pixel và tất cả, và tất cả việc học chuyển giao mà nó mang theo. Bộ phân tách phải biến mất. OCR chỉ là một trong nhiều nhiệm vụ hữu ích từ thị giác -> văn bản. Và các nhiệm vụ văn bản -> văn bản có thể được biến thành các nhiệm vụ thị giác -> văn bản. Không phải ngược lại. Vậy nên nhiều thông điệp người dùng là hình ảnh, nhưng bộ giải mã (phản hồi của Trợ lý) vẫn là văn bản. Thật khó để xuất ra pixel một cách thực tế... hoặc nếu bạn muốn làm vậy. Bây giờ tôi cũng phải chiến đấu với sự thôi thúc để phát triển một phiên bản chỉ đầu vào hình ảnh của nanochat...

Thời đại AI, đừng bao giờ đánh giá thấp sự sáng tạo mà một người có thể sở hữu. Nhiều điều, những gì bạn không thể làm cách đây vài tháng, bây giờ thử lại có thể hoàn toàn khác. Cách đây nửa năm, tôi đã thử phát triển một trò chơi bắn súng 3D với chủ đề quân sự bằng Cursor + Unity mà hoàn toàn không có kinh nghiệm sử dụng Unity hay phát triển trò chơi. Khi đó, trở ngại lớn nhất chính là tài sản 3D. Các mô hình xe bọc thép được tạo ra từ các công cụ AI 3D mà tôi tìm thấy trên thị trường, về bản chất, là một đống không thể tách rời, muốn tạo hoạt ảnh và hiệu ứng hư hại độc lập cho tháp pháo, xích xe là điều hoàn toàn không thể, dự án đã bị kẹt lại. Tôi nghĩ rằng mọi thứ đã kết thúc, cho đến khi gần đây tôi thấy @DeemosTech. Họ vừa ra mắt Rodin Gen-2 với một cấu trúc gọi là BANG, thật sự tuyệt vời, nó có thể hiểu rằng mô hình được tạo thành từ các bộ phận khác nhau, có thể tách bất kỳ mô hình 3D nào theo logic hợp lý, chẳng hạn như xe bọc thép, trực thăng, lính trong video của tôi. Trong trường hợp này, tôi có thể lấy được tháp pháo, bánh xe độc lập, có thể trực tiếp sử dụng để làm gán hoạt ảnh và thiết lập tham số, điều này đã giải quyết hầu hết các vấn đề mà tôi đã gặp phải lần trước. Tôi bỗng nhận ra, chỉ mới nửa năm trôi qua, toàn bộ quy trình phát triển AI của tôi đã gần như được thay thế hoàn toàn: 1. Công cụ lập trình AI từ Cursor chuyển sang Claude Code. 2. Tài liệu 2D từ Midjourney chuyển sang Nano Banana. 3. Và sự tiến hóa của tài sản 3D là điều đột phá nhất, từ đồ chơi trở thành công cụ. Vì vậy, đừng tự giới hạn bản thân, đừng giới hạn AI, bạn chỉ cần nghĩ rõ bạn muốn làm gì, hãy thử lại sau mỗi nửa năm, rất có thể sẽ có những bất ngờ không ngờ tới. Tôi cảm thấy khả năng mới hyper3d có cơ hội giúp nhiều nhóm phát triển trò chơi nhỏ nâng cao hiệu suất, và cũng sẽ cho nhiều nhà phát triển như tôi, những người không có nền tảng, cơ hội để tạo ra trò chơi 3D đầu tiên của mình.

Hàng đầu

Thứ hạng

Yêu thích