数据源

数据源是知识库的上游。负责文件存储、解析、元数据管理。一个数据源可以喂给多个知识库，也可以被 Workflow 节点直接查询。

4 种导入方式

方式	用途
批量上传	拖入一批文档
引用现有数据源	把另一个空间或组织数据源链接进来
网站抓取	给一个 URL,自动抓取并解析
应用同步(SaaS)	从 Notion / 飞书 / 钉钉 / Confluence 等同步
手动文本	直接粘贴一段文本

支持格式

聚焦非结构化文档:

格式	解析行为
PDF / Word	文本抽取 + 段落识别 + 图片 OCR(可选)
TXT / Markdown	直接读取
PPT	按页抽取文本 + 图片
CSV / Excel	按行 / 按 sheet 解析

结构化数据请用 SQL 工具

数据库表 / API JSON 不应进数据源。请用 HTTP 工具或 [SQL 工具] 直查。

文档管理

每个文档有完整元数据:

字段	说明
名称 / 类型 / 大小	文件本身
解析状态	等待 / 解析中 / 就绪 / 失败
来源	上传 / 抓取 / 引用 / 同步
上传时间 / 创建者	审计
字数 / Token 数	容量预估

操作：重新解析 · 预览解析结果 · 软删除(可恢复)。

文件分组与 ACL

数据源可以创建文件分组，每组独立 ACL(查看 / 使用 / 编辑 / 管理)。常见模式:

数据源:产品文档
├─ 公开/(全员可见)
│   ├─ 用户手册.pdf
│   └─ FAQ.md
├─ 内部/(产研角色可见)
│   ├─ 设计稿.pdf
│   └─ 路线图.md
└─ 机密/(仅 PM)
    └─ 商业敏感数据.xlsx

配置导入

上传时可以指定:

配置	说明
目标分组	选已有 / 新建
分块模式	智能 / 通用（只影响后续向量化)
文件类型限制	白名单 / 黑名单
大小限制	单文件最大 / 总容量上限

数据源 vs 知识库

┌───────────────────────────────────────────────────┐
│  数据源 Data Source                               │
│  原始文件 + 元数据 + 解析结果(文本/表格)         │
└───────────────────┬───────────────────────────────┘
                    ↓ 喂给                ↓ 直查(Workflow 节点)
┌───────────────────┐                  ┌──────────────┐
│  知识库 KB         │                  │  Workflow    │
│  分块 + 向量化     │                  │  按需读文件   │
└───────────────────┘                  └──────────────┘
                    ↑ 检索
                Agent / Chatflow

关键边界:

数据源可以不进知识库（Workflow 直接消费)
同一个数据源可以同时进多个知识库（不同分块策略)

反模式

给数据源直接绑 Agent(应该绑知识库)
把同一文档传两次（去重不会自动做，会浪费向量空间)
大文件不拆分（> 100MB 的 PDF 解析慢且容易碎)

接下来

学怎么把数据源接知识库 → 知识库
学怎么在 Workflow 里直接读 → Workflow · 数据节点

页面导航