搭建数据 Data
知识库
多格式导入 · 三种分块 · 向量化 · ACL · 检索调优
知识库是 Agent 的事实底座。把企业文档结构化、向量化,Agent 在回答前先检索。
→ 不熟悉 RAG?先读 RAG 基础
多格式导入
| 格式类别 | 支持 |
|---|---|
| 文档 | PDF · Word · TXT · Markdown · PPT |
| 表格 | CSV · Excel |
| 结构化 | JSON |
| 网络 | URL 抓取 · REST API |
| 数据库 | 关系型 / 非关系型 |
处理流水线
每一步都可以在文档详情页查看状态、重新处理(Reparse)、预览中间结果。
三种分块策略
| 策略 | 行为 | 适合 |
|---|---|---|
| 固定长度 | 每 N 个 token 一切,带重叠 | 简单兜底,通用 |
| 语义分割 | 按段落 / 章节 / 句子等自然边界 | PDF / Markdown / 政策文档 |
| 智能分割 | 用 LLM 识别语义边界,保留完整性 | 高质量场景,成本略高 |
分块策略调整入口
知识库 → 设置 → 分块策略:
- 块大小(token):默认 1000,可调 200–4000
- 重叠(token):默认 200,可调 0–500
- 策略:固定 / 语义 / 智能
向量化
| 配置 | 默认 | 备注 |
|---|---|---|
| Embedding 模型 | 组织默认 | 在 模型平台 · 默认模型 设组织默认 |
| 多语言 | 中英混合开箱可用 | 推荐选支持多语言的 Embedding |
| 自定义 Embedding | 私有化支持自部署 | 见 模型部署 |
访问控制(ACL)
知识库的权限是 4 级:
| 权限 | 能做 |
|---|---|
| 查看 | 看到知识库存在,但不能搜 |
| 使用 | 可被 Agent / Workflow 检索调用 |
| 编辑 | 上传 / 删除文档 · 修改设置 |
| 管理 | + 改 ACL · 删除知识库 |
权限主体可以是 用户 / 角色 / 部门,继承自组织级 资源策略,也可在知识库内细化。
版本与审批
- 版本追踪:每次文档变更生成版本快照
- 审批流(可选):启用后,新增 / 修改文档需经审批才能进入向量库
RAG 使用
知识库可以被三种方式调用:
| 方式 | 说明 |
|---|---|
| 被动检索 | Agent 绑定后每次自动检索 |
| 主动查询 | Chatflow / Workflow 内显式加 知识检索节点,可控 TopK / 过滤 / 排序 |
| 知识推荐 | 工作台对话页右栏推荐相关文档 |
检索调优三板斧
按效果递减,自上而下尝试:
1 · 调整 TopK
默认 5。先调这个。
- 答非所问 → 试 8 / 10
- 答案太长太散 → 回到 5
2 · 加 Reranker
在知识检索节点启用 Reranker 模型,把初次检索的 TopK 重排,精准度显著提升,延迟略增。
3 · 调分块
只有前两步没解决才调:
| 现象 | 调整 |
|---|---|
| 关键信息被切散 | 增大块大小到 1500–2000 |
| 检索块过于宽泛 | 减小到 500–800 |
| 表格/代码被切碎 | 启用智能分割 |
使用追踪
知识库详情页 → 使用情况:
- 哪些 Agent / Workflow / Chatflow 在引用
- 检索命中率、空命中
- 用户反馈(满意 / 不满意标注)
- 知识缺口识别(高频但低命中的查询,提示你需补哪些文档)
数据源 vs 知识库
它们是两层抽象,不要混用:
| 数据源 | 知识库 | |
|---|---|---|
| 角色 | 文件存储 + 解析 | 检索服务 |
| 是否向量化 | 否 | 是 |
| 怎么用 | Workflow 节点直接读 / 喂给知识库 | Agent / Workflow 检索 |
| 结构化数据 | 适合 | 不适合 |
→ 数据源
反模式
- 把数据库表 dump 成 CSV 塞知识库 — 用 数据源 + SQL 工具
- 把实时数据(订单、库存)放知识库 — 用 HTTP 工具 调实时 API
- 一个超大知识库装所有文档 — 按业务拆,粒度更可控
接下来
- 上手 → 第一个 Agent · 接知识库
- 数据 ETL → 数据源
- 调优 → RAG 基础