搭建数据 Data

知识库

多格式导入 · 三种分块 · 向量化 · ACL · 检索调优

知识库是 Agent 的事实底座。把企业文档结构化、向量化,Agent 在回答前先检索。

→ 不熟悉 RAG?先读 RAG 基础

多格式导入

格式类别	支持
文档	PDF · Word · TXT · Markdown · PPT
表格	CSV · Excel
结构化	JSON
网络	URL 抓取 · REST API
数据库	关系型 / 非关系型

处理流水线

数据导入 → 格式识别 → 内容解析 → 智能分块 → 向量化 → 索引构建 → 就绪

每一步都可以在文档详情页查看状态、重新处理（Reparse)、预览中间结果。

三种分块策略

策略	行为	适合
固定长度	每 N 个 token 一切，带重叠	简单兜底，通用
语义分割	按段落 / 章节 / 句子等自然边界	PDF / Markdown / 政策文档
智能分割	用 LLM 识别语义边界，保留完整性	高质量场景，成本略高

默认就够用

默认采用智能分块。除非你有明确指标说明检索质量不够，否则不必折腾分块参数。

分块策略调整入口

知识库 → 设置 → 分块策略:

块大小（token):默认 1000，可调 200–4000
重叠（token):默认 200，可调 0–500
策略：固定 / 语义 / 智能

向量化

配置	默认	备注
Embedding 模型	组织默认	在模型平台 · 默认模型设组织默认
多语言	中英混合开箱可用	推荐选支持多语言的 Embedding
自定义 Embedding	私有化支持自部署	见模型部署

切换 Embedding 模型 = 重新向量化整个知识库

不同 Embedding 的向量空间不兼容。切换后需要重新处理所有文档，过程不可中断。

访问控制（ACL)

知识库的权限是 4 级:

权限	能做
查看	看到知识库存在，但不能搜
使用	可被 Agent / Workflow 检索调用
编辑	上传 / 删除文档 · 修改设置
管理	+ 改 ACL · 删除知识库

权限主体可以是 用户 / 角色 / 部门,继承自组织级资源策略,也可在知识库内细化。

版本与审批

版本追踪:每次文档变更生成版本快照
审批流（可选):启用后，新增 / 修改文档需经审批才能进入向量库

RAG 使用

知识库可以被三种方式调用:

方式	说明
被动检索	Agent 绑定后每次自动检索
主动查询	Chatflow / Workflow 内显式加知识检索节点,可控 TopK / 过滤 / 排序
知识推荐	工作台对话页右栏推荐相关文档

检索调优三板斧

按效果递减,自上而下尝试:

1 · 调整 TopK

默认 5。先调这个。

答非所问 → 试 8 / 10
答案太长太散 → 回到 5

2 · 加 Reranker

在知识检索节点启用 Reranker 模型，把初次检索的 TopK 重排，精准度显著提升，延迟略增。

3 · 调分块

只有前两步没解决才调:

现象	调整
关键信息被切散	增大块大小到 1500–2000
检索块过于宽泛	减小到 500–800
表格/代码被切碎	启用智能分割

使用追踪

知识库详情页 → 使用情况:

哪些 Agent / Workflow / Chatflow 在引用
检索命中率、空命中
用户反馈（满意 / 不满意标注)
知识缺口识别(高频但低命中的查询，提示你需补哪些文档)

数据源 vs 知识库

它们是两层抽象,不要混用:

	数据源	知识库
角色	文件存储 + 解析	检索服务
是否向量化	否	是
怎么用	Workflow 节点直接读 / 喂给知识库	Agent / Workflow 检索
结构化数据	适合	不适合

反模式

把数据库表 dump 成 CSV 塞知识库 — 用数据源 + SQL 工具
把实时数据（订单、库存）放知识库 — 用 HTTP 工具调实时 API
一个超大知识库装所有文档 — 按业务拆，粒度更可控

接下来

上手 → 第一个 Agent · 接知识库
数据 ETL → 数据源
调优 → RAG 基础

上一页

Workflow

下一页

数据源

页面导航

多格式导入处理流水线三种分块策略分块策略调整入口向量化访问控制（ACL)版本与审批 RAG 使用检索调优三板斧 1 · 调整 TopK 2 · 加 Reranker 3 · 调分块使用追踪数据源 vs 知识库反模式接下来