Evose
搭建数据 Data

数据源

文件存储与解析层 · 4 种导入方式 · 与知识库的关系

数据源是知识库的上游。负责文件存储、解析、元数据管理。一个数据源可以喂给多个知识库,也可以被 Workflow 节点直接查询。

4 种导入方式

方式用途
批量上传拖入一批文档
引用现有数据源把另一个空间或组织数据源链接进来
网站抓取给一个 URL,自动抓取并解析
应用同步(SaaS)从 Notion / 飞书 / 钉钉 / Confluence 等同步
手动文本直接粘贴一段文本

支持格式

聚焦非结构化文档:

格式解析行为
PDF / Word文本抽取 + 段落识别 + 图片 OCR(可选)
TXT / Markdown直接读取
PPT按页抽取文本 + 图片
CSV / Excel按行 / 按 sheet 解析

结构化数据请用 SQL 工具

数据库表 / API JSON 不应进数据源。请用 HTTP 工具 或 [SQL 工具] 直查。

文档管理

每个文档有完整元数据:

字段说明
名称 / 类型 / 大小文件本身
解析状态等待 / 解析中 / 就绪 / 失败
来源上传 / 抓取 / 引用 / 同步
上传时间 / 创建者审计
字数 / Token 数容量预估

操作:重新解析 · 预览解析结果 · 软删除(可恢复)。

文件分组与 ACL

数据源可以创建文件分组,每组独立 ACL(查看 / 使用 / 编辑 / 管理)。常见模式:

数据源:产品文档
├─ 公开/(全员可见)
│   ├─ 用户手册.pdf
│   └─ FAQ.md
├─ 内部/(产研角色可见)
│   ├─ 设计稿.pdf
│   └─ 路线图.md
└─ 机密/(仅 PM)
    └─ 商业敏感数据.xlsx

配置导入

上传时可以指定:

配置说明
目标分组选已有 / 新建
分块模式智能 / 通用(只影响后续向量化)
文件类型限制白名单 / 黑名单
大小限制单文件最大 / 总容量上限

数据源 vs 知识库

┌───────────────────────────────────────────────────┐
│  数据源 Data Source                               │
│  原始文件 + 元数据 + 解析结果(文本/表格)         │
└───────────────────┬───────────────────────────────┘
                    ↓ 喂给                ↓ 直查(Workflow 节点)
┌───────────────────┐                  ┌──────────────┐
│  知识库 KB         │                  │  Workflow    │
│  分块 + 向量化     │                  │  按需读文件   │
└───────────────────┘                  └──────────────┘
                    ↑ 检索
                Agent / Chatflow

关键边界:

  • 数据源可以不进知识库(Workflow 直接消费)
  • 同一个数据源可以同时进多个知识库(不同分块策略)

反模式

  • 给数据源直接绑 Agent(应该绑知识库)
  • 把同一文档传两次(去重不会自动做,会浪费向量空间)
  • 大文件不拆分(> 100MB 的 PDF 解析慢且容易碎)

接下来

页面导航