速率限制
默认配额 · 头信息 · 退避算法
防止滥用 + 保护底层模型。
默认配额
| 资源 | 限制 |
|---|---|
| API 整体 | 每 API Key 每秒 20 请求 |
| Agent chat | 每 user_id 每秒 5 请求 |
| Workflow run | 每 API Key 每秒 10 触发 |
| 知识库 upload | 每 API Key 每分钟 60 文档 |
| 管理类(create / delete) | 每 API Key 每秒 2 请求 |
响应头
每个响应都含速率限制状态:
| 头 | 含义 |
|---|---|
X-RateLimit-Limit | 当前窗口的总额 |
X-RateLimit-Remaining | 剩余额度 |
X-RateLimit-Reset | 重置时间(Unix 秒) |
超限响应
推荐退避算法
带 Retry-After 时遵守该值,否则用上面默认。
高并发场景
如果你的业务真需要更高并发:
- 联系商务申请提升配额
- 私有化部署不受 SaaS 配额限制
- 设计层面:用 Webhook + 异步,而非密集轮询