Výzkumníci ze společnosti Meta vytvořili nový přístup RAG, který: - překonává LLaMA v 16 srovnávacích testech RAG. - má 30,85x rychlejší čas do prvního tokenu. - Zvládá 16x větší kontextová okna. - a využívá 2-4x méně tokenů. Zde je základní problém s typickým nastavením RAG, který Meta řeší: Většina toho, co získáme v nastavení RAG, ve skutečnosti LLM nikdy nepomůže. V klasickém RAG, když přijde dotaz: - Zakódujete to do vektoru. - Načtěte podobné bloky z vektorové databáze. - Vypište načtený kontext do LLM. Obvykle to funguje, ale za obrovskou cenu: - Většina bloků obsahuje irelevantní text. - LLM musí zpracovat mnohem více tokenů. - Platíte za výpočetní prostředky, latenci a kontext. To je přesně ten problém, který řeší nová metoda REFRAG od Meta AI. Zásadně přehodnocuje vyhledávání a níže uvedený diagram vysvětluje, jak to funguje. V podstatě, místo toho, aby REFRAG krmil LLM každý chunk a každý token, komprimuje a filtruje kontext na vektorové úrovni: - Komprese bloků: Každý blok dat je kódován do jednoho komprimovaného vložení, nikoli do stovek vložených tokenů....