Evose
搭建数据 Data

知识库

多格式导入 · 三种分块 · 向量化 · ACL · 检索调优

知识库是 Agent 的事实底座。把企业文档结构化、向量化,Agent 在回答前先检索。

→ 不熟悉 RAG?先读 RAG 基础

多格式导入

格式类别支持
文档PDF · Word · TXT · Markdown · PPT
表格CSV · Excel
结构化JSON
网络URL 抓取 · REST API
数据库关系型 / 非关系型

处理流水线

数据导入 → 格式识别 → 内容解析 → 智能分块 → 向量化 → 索引构建 → 就绪

每一步都可以在文档详情页查看状态、重新处理(Reparse)、预览中间结果。

三种分块策略

策略行为适合
固定长度每 N 个 token 一切,带重叠简单兜底,通用
语义分割按段落 / 章节 / 句子等自然边界PDF / Markdown / 政策文档
智能分割用 LLM 识别语义边界,保留完整性高质量场景,成本略高

默认就够用

默认采用智能分块。除非你有明确指标说明检索质量不够,否则不必折腾分块参数。

分块策略调整入口

知识库 → 设置 → 分块策略:

  • 块大小(token):默认 1000,可调 200–4000
  • 重叠(token):默认 200,可调 0–500
  • 策略:固定 / 语义 / 智能

向量化

配置默认备注
Embedding 模型组织默认模型平台 · 默认模型 设组织默认
多语言中英混合开箱可用推荐选支持多语言的 Embedding
自定义 Embedding私有化支持自部署模型部署

切换 Embedding 模型 = 重新向量化整个知识库

不同 Embedding 的向量空间不兼容。切换后需要重新处理所有文档,过程不可中断。

访问控制(ACL)

知识库的权限是 4 级:

权限能做
查看看到知识库存在,但不能搜
使用可被 Agent / Workflow 检索调用
编辑上传 / 删除文档 · 修改设置
管理+ 改 ACL · 删除知识库

权限主体可以是 用户 / 角色 / 部门,继承自组织级 资源策略,也可在知识库内细化。

版本与审批

  • 版本追踪:每次文档变更生成版本快照
  • 审批流(可选):启用后,新增 / 修改文档需经审批才能进入向量库

RAG 使用

知识库可以被三种方式调用:

方式说明
被动检索Agent 绑定后每次自动检索
主动查询Chatflow / Workflow 内显式加 知识检索节点,可控 TopK / 过滤 / 排序
知识推荐工作台对话页右栏推荐相关文档

检索调优三板斧

按效果递减,自上而下尝试:

1 · 调整 TopK

默认 5。先调这个

  • 答非所问 → 试 8 / 10
  • 答案太长太散 → 回到 5

2 · 加 Reranker

在知识检索节点启用 Reranker 模型,把初次检索的 TopK 重排,精准度显著提升,延迟略增。

3 · 调分块

只有前两步没解决才调:

现象调整
关键信息被切散增大块大小到 1500–2000
检索块过于宽泛减小到 500–800
表格/代码被切碎启用智能分割

使用追踪

知识库详情页 → 使用情况:

  • 哪些 Agent / Workflow / Chatflow 在引用
  • 检索命中率、空命中
  • 用户反馈(满意 / 不满意标注)
  • 知识缺口识别(高频但低命中的查询,提示你需补哪些文档)

数据源 vs 知识库

它们是两层抽象,不要混用:

数据源知识库
角色文件存储 + 解析检索服务
是否向量化
怎么用Workflow 节点直接读 / 喂给知识库Agent / Workflow 检索
结构化数据适合不适合

数据源

反模式

  • 把数据库表 dump 成 CSV 塞知识库 — 用 数据源 + SQL 工具
  • 把实时数据(订单、库存)放知识库 — 用 HTTP 工具 调实时 API
  • 一个超大知识库装所有文档 — 按业务拆,粒度更可控

接下来

页面导航