Metaの研究者は、次のような新しいRAGアプローチを構築しました。 - 16 の RAG ベンチマークで LLaMA を上回ります。 - 最初のトークンまでの時間が 30.85 倍短縮されました。 - 16 倍の大きなコンテキスト ウィンドウを処理します。 - そして、使用するトークンは2〜4倍少なくなります。 Meta が解決する典型的な RAG セットアップの中心的な問題は次のとおりです。 RAG セットアップで取得するもののほとんどは、実際には LLM に役立つことはありません。 従来の RAG では、クエリが到着すると、次のようになります。 - ベクトルにエンコードします。 - ベクトルDBから同様のチャンクを取得します。 - 取得したコンテキストを LLM にダンプします。 通常は機能しますが、莫大なコストがかかります。 - ほとんどのチャンクには無関係なテキストが含まれています。 - LLM ははるかに多くのトークンを処理する必要があります。 - コンピューティング、レイテンシー、コンテキストに対して料金を支払います。 それがまさに Meta AI の新しい手法 REFRAG が解決する問題です。 検索を根本的に再考し、下の図はその仕組みを説明しています。 基本的に、REFRAG は LLM にすべてのチャンクとすべてのトークンを与える代わりに、ベクトル レベルでコンテキストを圧縮してフィルタリングします。 - チャンク圧縮: 各チャンクは、数百のトークン埋め込みではなく、1 つの圧縮された埋め込みにエンコードされます。...