治理模型平台
模型部署
自部署模型实例的全生命周期 · 负载均衡 · 健康检查
模型部署管理自部署模型实例的生命周期。SaaS API(OpenAI / Anthropic 等)直接走 接口平台,不在这里管。
适用范围
| 我有…… | 用 |
|---|---|
| OpenAI / Claude API Key | 接口平台 |
| 自部署 Llama / Qwen / DeepSeek | 模型部署(此页) |
| 公司内部 OpenAI 兼容服务 | 也可在此页 |
核心动作
新建部署
- 选模型(从 模型定义 中选已注册的)
- 配置实例:
- 地址 + 端口(
http://10.0.0.5:8000/v1) - 资源(GPU 数 / 内存,仅显示用)
- 副本数
- 地址 + 端口(
- 创建后,连通性测试自动执行(发一个最小请求验证)
修改部署
- 扩缩副本
- 更换端点(滚动迁移)
删除
下线一个部署 = 立即从负载均衡池摘除。
负载均衡
多实例部署时:
| 策略 | 行为 |
|---|---|
| Round Robin | 轮询(默认) |
| 加权轮询 | 按权重分配(强机多权重) |
| Failover 优先级 | 主备 — 仅主挂了用备 |
健康检查会自动剔除异常实例,自动恢复正常实例。
健康检查
实时监控:
- 可达性(每 N 秒发心跳请求)
- 响应时间(P95)
- 错误率
出现连续 3 次失败 → 摘除 → 仍每 N 秒探测 → 恢复后重新挂上。
典型场景
1 · 私有化纯自部署
公司内部部署 Qwen / DeepSeek,Evose 上挂 4 个实例:
2 · 混合云
部分 SaaS API + 部分自部署。SaaS 走 接口平台;自部署在此页。在 默认模型 选择哪个为组织默认。