Meta 的研究人員建立了一種新的 RAG 方法,該方法: - 在 16 個 RAG 基準測試中超越 LLaMA。 - 擁有 30.85 倍更快的首次標記時間。 - 處理 16 倍更大的上下文窗口。 - 並且使用 2-4 倍更少的標記。 這裡是 Meta 解決的典型 RAG 設置的核心問題: 在 RAG 設置中,我們檢索的大部分內容實際上對 LLM 沒有幫助。 在經典的 RAG 中,當查詢到達時: - 你將其編碼為一個向量。 - 從向量數據庫中獲取相似的片段。 - 將檢索到的上下文丟入 LLM。 這通常有效,但代價巨大: - 大多數片段包含不相關的文本。 - LLM 必須處理更多的標記。 - 你需要支付計算、延遲和上下文的費用。 這正是 Meta AI 的新方法 REFRAG 解決的問題。 它從根本上重新思考檢索,下面的圖解釋了它的工作原理。 本質上,REFRAG 在向量層面上壓縮和過濾上下文,而不是將每個片段和每個標記都餵給 LLM: - 片段壓縮:每個片段被編碼為一個單一的壓縮嵌入,而不是數百個標記嵌入。...