Badacze z Meta opracowali nowe podejście RAG, które: - przewyższa LLaMA w 16 benchmarkach RAG. - ma 30,85 razy szybszy czas do pierwszego tokena. - obsługuje 16 razy większe okna kontekstowe. - i wykorzystuje 2-4 razy mniej tokenów. Oto główny problem z typowym ustawieniem RAG, który rozwiązuje Meta: Większość tego, co odzyskujemy w ustawieniach RAG, nigdy tak naprawdę nie pomaga LLM. W klasycznym RAG, gdy przychodzi zapytanie: - Kodujesz je w wektor. - Pobierasz podobne fragmenty z bazy danych wektorów. - Wrzucasz odzyskany kontekst do LLM. Zazwyczaj działa, ale z ogromnym kosztem: - Większość fragmentów zawiera nieistotny tekst. - LLM musi przetwarzać znacznie więcej tokenów. - Płacisz za obliczenia, opóźnienia i kontekst. To dokładnie ten problem, który rozwiązuje nowa metoda REFRAG od Meta AI. Fundamentalnie przemyśla to, jak działa odzyskiwanie, a diagram poniżej wyjaśnia, jak to działa. Zasadniczo, zamiast podawać LLM każdy fragment i każdy token, REFRAG kompresuje i filtruje kontekst na poziomie wektora: - Kompresja fragmentów: Każdy fragment jest kodowany w pojedyncze skompresowane osadzenie, a nie setki osadzeń tokenów....