搭建数据 Data
数据源
文件存储与解析层 · 4 种导入方式 · 与知识库的关系
数据源是知识库的上游。负责文件存储、解析、元数据管理。一个数据源可以喂给多个知识库,也可以被 Workflow 节点直接查询。
4 种导入方式
| 方式 | 用途 |
|---|---|
| 批量上传 | 拖入一批文档 |
| 引用现有数据源 | 把另一个空间或组织数据源链接进来 |
| 网站抓取 | 给一个 URL,自动抓取并解析 |
| 应用同步(SaaS) | 从 Notion / 飞书 / 钉钉 / Confluence 等同步 |
| 手动文本 | 直接粘贴一段文本 |
支持格式
聚焦非结构化文档:
| 格式 | 解析行为 |
|---|---|
| PDF / Word | 文本抽取 + 段落识别 + 图片 OCR(可选) |
| TXT / Markdown | 直接读取 |
| PPT | 按页抽取文本 + 图片 |
| CSV / Excel | 按行 / 按 sheet 解析 |
文档管理
每个文档有完整元数据:
| 字段 | 说明 |
|---|---|
| 名称 / 类型 / 大小 | 文件本身 |
| 解析状态 | 等待 / 解析中 / 就绪 / 失败 |
| 来源 | 上传 / 抓取 / 引用 / 同步 |
| 上传时间 / 创建者 | 审计 |
| 字数 / Token 数 | 容量预估 |
操作:重新解析 · 预览解析结果 · 软删除(可恢复)。
文件分组与 ACL
数据源可以创建文件分组,每组独立 ACL(查看 / 使用 / 编辑 / 管理)。常见模式:
配置导入
上传时可以指定:
| 配置 | 说明 |
|---|---|
| 目标分组 | 选已有 / 新建 |
| 分块模式 | 智能 / 通用(只影响后续向量化) |
| 文件类型限制 | 白名单 / 黑名单 |
| 大小限制 | 单文件最大 / 总容量上限 |
数据源 vs 知识库
关键边界:
- 数据源可以不进知识库(Workflow 直接消费)
- 同一个数据源可以同时进多个知识库(不同分块策略)
反模式
- 给数据源直接绑 Agent(应该绑知识库)
- 把同一文档传两次(去重不会自动做,会浪费向量空间)
- 大文件不拆分(> 100MB 的 PDF 解析慢且容易碎)
接下来
- 学怎么把数据源接知识库 → 知识库
- 学怎么在 Workflow 里直接读 → Workflow · 数据节点