2.1.2 检索增强生成_大模型垂直领域低算力迁移：微调、部署与优化-QQ阅读女频青春网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.1.2 检索增强生成

检索增强生成（Retrieval-Augmented Generation，RAG）是低成本提升垂直领域大模型性能的关键方法之一。RAG技术通过在生成过程中引入预定义数据集的相关信息，显著提高模型的输出质量。其运作机理在于结合了检索（Retrieval）与生成（Gen eration）两种机制。当大模型回答问题或执行任务时，它不仅依赖于自身已经学习到的知识，还会实时从外部的结构化数据集中检索相关信息，并将这些信息整合到模型的回答中。因此，这种技术极大地扩展了模型利用外部知识的能力，从而增强了模型对新领域的适应性和泛化能力。

RAG技术通常与向量数据库结合使用，以提高信息检索和内容生成的效率与准确性。图2.5展示了RAG在一个典型应用场景中的工作流程。初始查询首先通过一个编码器转换成向量嵌入，该向量随后用于在文档向量数据库中检索相关文档。检索系统根据相关性排名，选取最相关的文档（即Top-k文档），并将这些文档送入一个大模型。基于这些文档，LLM生成响应。

图2.5 RAG应用场景示例

RAG技术在多跳推理任务中显示出特别的价值。多跳推理涉及从多个文档中提取并综合信息以解决问题。例如，解答涉及复杂公司政策的查询时，单一文档往往不足以提供完整的信息。RAG系统通过检索并综合多个相关文档的信息，能够生成更为准确的响应。向量数据库在这一过程中起到关键作用，它能够高效且精确地定位与查询最相关的文档向量。这一能力对于需要解读和关联不同来源信息的推理任务至关重要。借助RAG技术，大模型不仅能发挥其强大的内容生成能力，还能结合来自广泛信息源的深度分析和推理，显著提高解决复杂问题的能力。

RAG技术在资源消耗方面相对较少，因为它无须对模型的参数进行微调。为了最大化RAG的效果，选取高质量的预定义数据集至关重要，因为这将直接影响检索信息的准确性和相关性。例如，若数据集质量低或与任务不相关，即使检索过程高效，最终生成的内容也可能因信息不准确或不相关而变得不可信。

此外，根据具体任务的需求，可以调整检索与内容生成两个阶段的权重比。在某些情况下，可能需要重点关注检索阶段，以确保信息的准确性；而在其他情况下，则可能更注重内容生成阶段的创新性。在实际应用中，根据任务的复杂度和数据集的规模，这种权重比的调整需进行细致优化。

同时，RAG技术还可以与其他模型适应性策略（如提示工程或模型微调）结合使用。提示工程通过设计特定的输入提示来引导模型输出，而模型微调则调整模型参数以更好适应特定任务。这两种策略可以与RAG互为补充，以进一步提升模型在特定任务上的表现。

RAG为大模型提供了一种在保证输出质量的同时，有效利用外部信息并节约资源的策略。通过智能化的信息检索与综合性的内容生成能力，RAG拓展了大模型在各种应用场景中的适应性和有效性。