一文读懂 RAG：从概念到落地，解锁 AI 知识问答新方式

2024-11-03 约 300 字预计阅读 2 分钟 - 次阅读 - 条评论

https://gorantan-blog.oss-cn-shanghai.aliyuncs.com/pic/20241204102529533.jpg

在 AI 问答领域，“为什么模型答非所问？”“如何让 AI 精准引用我的行业资料？” 是很多人面临的难题。而检索增强生成（Retrieval-Augmented Generation，简称 RAG) 正是解决这些问题的关键技术。今天我们就从 “是什么”“为什么”“怎么做” 三个维度，用通俗的语言拆解 RAG，再聊聊市面上主流的实现技术。

一、RAG 是什么？—— 给 AI 装 “知识检索库” 的技术

简单来说，RAG 是一种 “先找资料、再写答案” 的 AI 技术。它的核心逻辑类似我们写报告时的流程：先从数据库、文档库中搜相关资料，再结合资料整理出最终内容，而不是凭记忆 “凭空创作”。

具体拆解 RAG 的工作流程，主要分三步：

知识存储阶段：把企业文档、行业报告、学术论文等 “私有知识”，拆成短句或段落（称为 “文本片段”），再通过 AI 模型转换成 “向量”（可以理解为给每个片段贴 “特征标签”），最后存到专门的 “向量数据库” 里，形成可快速检索的 “知识库”。
检索阶段：当用户提出问题（比如 “2024 年新能源汽车补贴政策有哪些变化？”），RAG 会先把问题也转换成向量，然后在向量数据库里 “比对”—— 找出和问题标签最匹配的几个文本片段（比如政策文件里的具体条款）。
生成阶段：把检索到的 “精准资料” 和用户问题一起，传给大语言模型（比如 GPT、文心一言），让模型基于这些资料写答案，同时还能标注答案来源，避免 “瞎编”。

一句话总结：RAG 不是让 AI “死记硬背”，而是给它配了一个 “可随时查阅的知识库”，让答案既专业又有依据。

二、为什么需要 RAG？—— 解决大模型的 3 个核心痛点

如果直接用大语言模型（LLM）问答，会遇到三个绕不开的问题，而 RAG 恰好能针对性解决：

解决 “知识过时” 问题：大模型的训练数据有 “截止日期”（比如 GPT-4 截止到 2023 年 10 月），无法回答 2023 年后的新事件（如 2024 年的新政策、2025 年的新产品）。而 RAG 可以实时接入最新文档，让 AI “与时俱进”。
解决 “私有知识缺失” 问题：大模型没学过企业内部的规章制度、客户案例、行业机密资料，直接问会 “答不上来” 或 “胡编乱造”。RAG 能把这些私有资料放进知识库，让 AI 成为 “公司专属顾问”。
解决 “答案不可追溯” 问题：大模型回答时经常 “一本正经地胡说八道”，用户不知道答案来自哪里，无法验证准确性。RAG 会明确引用知识库中的资料片段，相当于给答案加了 “参考文献”，既可信又便于核对。

举个例子：某车企用 RAG 后，销售可以问 “2024 款新车的电池参数和竞品对比”（最新 + 私有知识），AI 会引用内部产品手册和竞品分析报告，给出带来源的答案，避免了之前 “凭记忆说错参数” 的问题。

三、怎么做 RAG？—— 4 步搭建基础流程

搭建一个简单的 RAG 系统，不需要复杂的技术背景，核心分 4 步：

准备知识源：整理需要接入的资料，比如 Word 文档、PDF 报告、Excel 表格、网页链接等，确保内容清晰、无重复（比如先删除过时的旧文档）。
处理资料（文本拆分 + 向量转换）：用工具把长文档拆成 500-1000 字的短片段（避免片段太长导致检索不准），再用向量模型（如 Sentence-BERT、OpenAI 的 text-embedding-3-small）把片段转换成向量。
选择向量数据库存储：把向量存到专门的数据库里，方便快速检索。这里不用纠结 “选最先进的”，选适合自己的即可（比如小团队用开源的 Chroma、FAISS，大团队用商用的 Pinecone、Weaviate）。
对接问答流程：用户提问后，先让系统从向量数据库中检索 Top5-10 个相关片段，再把 “问题 + 片段” 传给大模型，最后让模型生成带引用的答案。

整个过程可以理解为：先 “整理资料建图书馆”，再 “根据问题找书”，最后 “结合书本写总结”。

四、市面上主流的 RAG 技术工具？

不同需求对应不同工具，不需要全学，选对类别即可：

向量数据库（核心存储工具）：

开源免费款：适合小团队或个人，比如Chroma（操作最简单，支持 Python 一键调用）、FAISS（Facebook 开源，检索速度快）、Milvus（支持大规模数据，适合企业级场景）。
商用付费款：适合追求稳定性的企业，比如Pinecone（无需自己部署，按存储量收费）、Weaviate（支持多模态数据，能存图片 + 文本向量）。

向量模型（负责转换文本为向量）：

轻量开源款：Sentence-BERT（免费，适合中文场景，对电脑配置要求低）。
商用高效款：OpenAI 的 text-embedding 系列（调用 API 即可，支持多语言，转换质量高，按调用次数收费）、阿里云的通义千问 Embedding（适合国内用户，稳定性好）。

一站式框架（简化搭建流程）：

如果不想自己拼各个环节，可以用现成的 RAG 框架，比如LangChain（最流行，支持对接各种 LLM 和数据库，文档丰富）、Dify，Coze、阿里云百炼 RAG（国内云厂商工具，无需自己部署服务器，开箱即用）。

五、小demo解读RAG流程

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42


import openai
import faiss
import numpy as np
from transformers import SentenceTransformer

# 设置OpenAI API密钥
openai.api_key = "your_openai_api_key"

# 加载用于生成Embedding的模型
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

# 示例文档数据
documents = [
    "苹果是一种常见的水果，富含维生素C。",
    "香蕉是热带水果，口感软糯。",
    "橙子是柑橘类水果，味道酸甜。"
]

# 生成文档的Embedding向量
document_embeddings = embedding_model.encode(documents).astype(np.float32)

# 创建Faiss向量索引
index = faiss.IndexFlatL2(document_embeddings.shape[1])
index.add(document_embeddings)

# 用户查询
user_query = "哪种水果富含维生素C？"
# 生成查询的Embedding向量
query_embedding = embedding_model.encode([user_query]).astype(np.float32)

# 在向量数据库中检索相似文档
_, indices = index.search(query_embedding, k=1)
similar_document = documents[indices[0][0]]

# 使用OpenAI GPT模型生成回答
prompt = f"根据以下信息回答问题：{similar_document}。问题：{user_query}"
response = openai.Completion.create(
    engine="text-davinci-003",  # 你可以根据需求选择合适的模型
    prompt=prompt,
    max_tokens=100
)
print(response.choices[0].text.strip())

如果觉得有用，可以赞赏我一杯咖啡，感谢支持！

赞赏

微信