RAG检索增强LLM：打造更智能的问答系统，避开这些坑

字数: (2621)

阅读: (0343)

2026-04-02 10:02:31

内容摘要：RAG检索增强LLM：打造更智能的问答系统，避开这些坑,

在构建基于大语言模型（LLM）的问答系统时，我们经常会遇到一个挑战：LLM 虽然知识储备丰富，但对于特定领域或私有数据却知之甚少，导致回答不够准确或者直接“胡说八道”。这时，RAG (Retrieval-Augmented Generation) 检索增强 LLM 就应运而生。RAG 通过在 LLM 回答问题之前，先从外部知识库中检索相关信息，然后将这些信息融入到 LLM 的输入中，从而显著提高回答的准确性和可靠性。

为什么需要 RAG？传统方案的局限性

传统的 fine-tuning 方法虽然也能让 LLM 学习特定领域的知识，但存在以下局限性：

训练成本高昂： fine-tuning 需要大量的标注数据和计算资源，成本较高。
泛化能力差： fine-tuning 后的模型可能只擅长特定领域，在其他领域的表现会下降。
更新困难： 当知识库发生变化时，需要重新 fine-tuning 模型，效率低下。

RAG 则可以有效地解决这些问题。它将知识存储在外部知识库中，LLM 只需要在需要时从知识库中检索相关信息，无需重新训练，大大降低了成本，并且易于更新。

RAG 的工作原理：拆解检索增强流程

RAG 的核心流程可以分为以下几个步骤：

数据准备和索引构建：
- 将原始数据（如文档、网页、数据库等）进行清洗和预处理，例如去除 HTML 标签、分段落等。
- 将处理后的数据切分成小块 (chunks)，例如固定长度的文本片段。
- 使用 Embedding 模型（例如 Sentence Transformers）将每个 chunk 转换为向量表示。
- 将向量表示存储到向量数据库中（例如 Milvus、Pinecone、Weaviate 等）。在选择向量数据库时，要考虑查询速度、存储容量、并发能力等因素。类似于我们在选择数据库时会考虑 MySQL、Redis、MongoDB 的差异，根据业务场景选择最合适的方案。
问题编码：
- 接收用户的问题，并使用相同的 Embedding 模型将其转换为向量表示。
信息检索：
- 在向量数据库中，根据问题向量检索与问题最相关的 chunk。
- 可以使用不同的相似度度量方法，例如余弦相似度、点积等。
生成回答：
- 将检索到的 chunk 和原始问题一起作为 LLM 的输入。
- LLM 根据输入的信息生成回答。

代码示例：基于 Langchain 和 Milvus 的 RAG 实现

以下是一个简单的基于 Langchain 和 Milvus 的 RAG 实现示例：

from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Milvus
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
import os

# 设置 OpenAI API 密钥
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"  # 替换为你的 OpenAI API 密钥

# 1. 加载文档
loader = TextLoader("your_document.txt")  # 替换为你的文档路径
documents = loader.load()

# 2. 切割文本
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 3. 创建 Embedding 模型
embeddings = OpenAIEmbeddings()

# 4. 连接 Milvus 向量数据库
vectorstore = Milvus.from_documents(
    docs,
    embeddings,
    connection_args={
        "host": "localhost",  # Milvus 服务地址
        "port": "19530",   # Milvus 服务端口
    },
    collection_name="my_collection",  # 集合名称
)

# 5. 创建 RetrievalQA 链
qa = RetrievalQA.from_chain_type(
    llm=OpenAI(),  # 使用 OpenAI LLM
    chain_type="stuff",
    retriever=vectorstore.as_retriever(),
    return_source_documents=True,
)

# 6. 提问
query = "你的问题是什么？"
result = qa({"query": query})

# 打印结果
print(result["result"])
print(result["source_documents"])

代码解释：

TextLoader 用于加载文本文件。
CharacterTextSplitter 用于将文本分割成 chunks。
OpenAIEmbeddings 用于创建 OpenAI Embedding 模型。
Milvus 用于连接 Milvus 向量数据库。
RetrievalQA 是 Langchain 提供的 RAG 链，可以方便地进行信息检索和回答生成。

实战避坑经验总结

Chunk 大小选择： Chunk 大小会直接影响检索效果。Chunk 太小可能包含的信息不足，Chunk 太大可能引入噪声。需要根据实际情况进行调整。
Embedding 模型选择： 选择合适的 Embedding 模型至关重要。不同的 Embedding 模型在不同的领域表现不同。建议尝试不同的 Embedding 模型，并选择效果最好的。
向量数据库选择： 向量数据库的选择也需要谨慎。要考虑查询速度、存储容量、并发能力等因素。对于高并发场景，可以考虑使用具有分布式架构的向量数据库。就像我们使用 Nginx 做负载均衡，提升系统并发能力一样，向量数据库也需要考虑高并发场景下的优化。
检索策略优化： 可以尝试不同的检索策略，例如使用不同的相似度度量方法、增加检索结果的数量等。还可以使用 query expansion 技术，对问题进行扩展，从而提高检索效果。
Prompt 工程： Prompt 工程在 RAG 中也扮演着重要的角色。精心设计的 Prompt 可以引导 LLM 生成更准确、更流畅的回答。
评估指标： 使用合适的评估指标来评估 RAG 系统的性能。常用的评估指标包括准确率、召回率、F1 值等。

RAG 检索增强 LLM 是一项强大的技术，可以帮助我们构建更智能、更可靠的问答系统。希望本文能帮助你更好地理解 RAG 的原理和实践，并在实际应用中取得更好的效果。

RAG检索增强LLM：打造更智能的问答系统，避开这些坑

转载请注明出处: 加班到秃头

本文的链接地址: http://m.acea2.store/blog/167334.SHTML

本文最后发布于2026-04-02 10:02:31，已经过了25天没有更新，若内容或图片失效，请留言反馈

推荐阅读

(66)

告别硬编码：掌握环境变量、多环境配置与安全实践深度剖析！C 语言语义陷阱与缺陷：程序员避坑指南

您可能对以下文章感兴趣