治理模型平台

模型部署

自部署模型实例的全生命周期 · 负载均衡 · 健康检查

模型部署管理自部署模型实例的生命周期。SaaS API(OpenAI / Anthropic 等）直接走接口平台,不在这里管。

适用范围

我有……	用
OpenAI / Claude API Key	接口平台
自部署 Llama / Qwen / DeepSeek	模型部署(此页)
公司内部 OpenAI 兼容服务	也可在此页

核心动作

新建部署

选模型（从模型定义中选已注册的)
配置实例:
- 地址 + 端口(http://10.0.0.5:8000/v1)
- 资源(GPU 数 / 内存，仅显示用)
- 副本数
创建后,连通性测试自动执行（发一个最小请求验证)

修改部署

扩缩副本
更换端点（滚动迁移)

删除

下线一个部署 = 立即从负载均衡池摘除。

负载均衡

多实例部署时:

策略	行为
Round Robin	轮询（默认)
加权轮询	按权重分配（强机多权重)
Failover 优先级	主备 — 仅主挂了用备

健康检查会自动剔除异常实例,自动恢复正常实例。

健康检查

实时监控:

可达性(每 N 秒发心跳请求)
响应时间(P95)
错误率

出现连续 3 次失败 → 摘除 → 仍每 N 秒探测 → 恢复后重新挂上。

典型场景

1 · 私有化纯自部署

公司内部部署 Qwen / DeepSeek,Evose 上挂 4 个实例:

部署 1:qwen-max,4 实例,Round Robin
部署 2:qwen-embedding,2 实例,主备 Failover

2 · 混合云

部分 SaaS API + 部分自部署。SaaS 走接口平台;自部署在此页。在默认模型选择哪个为组织默认。

3 · 跨区域容灾

模型 GPT-4
├─ 接口平台 OpenAI 美国 → Round Robin 50%
├─ 接口平台 Azure 中国  → Round Robin 30%
└─ 自部署 OpenAI 兼容    → Failover 备份 20%

接下来

SaaS API 接入 → 接口平台
模型如何被业务用到 → 默认模型配置
多模型路由策略 → 接口平台

上一页

模型定义

下一页

接口平台

页面导航

适用范围核心动作新建部署修改部署删除负载均衡健康检查典型场景 1 · 私有化纯自部署 2 · 混合云 3 · 跨区域容灾接下来