RAG 基础

RAG(Retrieval Augmented Generation,检索增强生成）是 Evose 知识库的工作原理。理解它能让你少走 80% 的弯路。

是什么

LLM 本身只懂训练数据里的世界。要让它回答你公司的问题,有两条路:

路径	说明	成本
微调（Fine-tuning)	用公司数据继续训练 LLM	高（数据准备 + GPU + 维护)
RAG	推理时检索公司知识库，把相关片段塞进提示词	低（只需把文档喂给向量库)

绝大多数企业场景用 RAG 就够了。

1. 写入(一次性)
   文档 → 解析 → 分块 → 向量化 → 存入向量库

2. 检索(每次提问)
   问题 → 向量化 → 相似度搜索 → 取 TopK 块

3. 生成(每次提问)
   提示词模板 + TopK 块 + 用户问题 → LLM → 答案

回答不准？按这张地图排查:

现象	可能原因	解法
答非所问	检索没找对	增大 TopK · 换更好的 Embedding 模型 · 加 Reranker
知识库里有但答不出	块切得太碎，关键信息散在多块	增大块大小 · 启用语义分块
编造（幻觉)	LLM 自由发挥	强化提示词：“未在知识库出现的内容，明确说不知道”
慢	模型 + 检索都慢	选更快的 Embedding · 减小 TopK · 缓存常见问题
跨段问答（对比/汇总）失败	RAG 是“取若干块”,不擅长跨文档综合	改用 Workflow 多步检索+综合

RAG 不是银弹。以下情况要换工具:

你的场景	更好的做法
需要实时数据(库存、价格、订单状态)	用工具调实时 API,而非把数据冻结进知识库
需要精确数学/计算	用 LLM + Code 工具，而非靠检索文档
需要全文比较(找两篇合同的所有差异)	RAG 只取若干块，无法保证全覆盖。改用 Workflow 全文遍历 + 对比
文档极少(< 5 篇)	直接把全文塞进提示词，跳过 RAG 复杂度
结构化数据查询(数据库表)	用数据源 + Workflow + SQL 工具,不要 RAG

误区 1:把所有文档一股脑塞进知识库

检索质量 = max(分块质量， Embedding 质量)。烂数据进去 = 烂答案出来。先清洗、去重、规范化。

误区 2:盲目把 TopK 调到 50

检索越多,LLM 上下文越长,幻觉反而更严重(模型在噪声里挑信息)。建议从 5 起步，逐步调到 8–10 上限。

误区 3:不做评估直接上线

搭一个 Workflow 跑 50 个真实问题，人工标注 RAG 答案是否准确。这是最便宜的质量保险。