Meta的研究人员构建了一种新的RAG方法: - 在16个RAG基准测试中超越LLaMA。 - 首个令牌的时间快30.85倍。 - 处理16倍更大的上下文窗口。 - 并且使用2-4倍更少的令牌。 Meta解决的典型RAG设置的核心问题是: 在RAG设置中,我们检索的大部分内容实际上并没有帮助LLM。 在经典RAG中,当查询到达时: - 你将其编码为一个向量。 - 从向量数据库中获取相似的块。 - 将检索到的上下文输入LLM。 这通常有效,但代价巨大: - 大多数块包含无关的文本。 - LLM必须处理更多的令牌。 - 你为计算、延迟和上下文付费。 这正是Meta AI的新方法REFRAG所解决的问题。 它从根本上重新思考了检索,下面的图解说明了它是如何工作的。 本质上,REFRAG在向量级别压缩和过滤上下文,而不是将每个块和每个令牌都输入LLM: - 块压缩:每个块被编码为一个单一的压缩嵌入,而不是数百个令牌嵌入。...