Các nhà nghiên cứu từ Meta đã xây dựng một phương pháp RAG mới mà: - vượt trội hơn LLaMA trên 16 tiêu chuẩn RAG. - có thời gian đến token đầu tiên nhanh hơn 30.85 lần. - xử lý các cửa sổ ngữ cảnh lớn hơn 16 lần. - và sử dụng ít token hơn từ 2-4 lần. Đây là vấn đề cốt lõi với một thiết lập RAG điển hình mà Meta giải quyết: Hầu hết những gì chúng ta truy xuất trong các thiết lập RAG không thực sự giúp ích cho LLM. Trong RAG cổ điển, khi một truy vấn đến: - Bạn mã hóa nó thành một vector. - Lấy các đoạn tương tự từ cơ sở dữ liệu vector. - Đổ ngữ cảnh đã truy xuất vào LLM. Nó thường hoạt động, nhưng với một chi phí lớn: - Hầu hết các đoạn chứa văn bản không liên quan. - LLM phải xử lý nhiều token hơn rất nhiều. - Bạn phải trả tiền cho tính toán, độ trễ và ngữ cảnh. Đó chính là vấn đề mà phương pháp mới REFRAG của Meta AI giải quyết. Nó cơ bản suy nghĩ lại về việc truy xuất và sơ đồ dưới đây giải thích cách nó hoạt động. Về cơ bản, thay vì cung cấp cho LLM mỗi đoạn và mỗi token, REFRAG nén và lọc ngữ cảnh ở cấp độ vector: - Nén đoạn: Mỗi đoạn được mã hóa thành một nhúng nén duy nhất, thay vì hàng trăm nhúng token....