Evose
治理模型平台

模型部署

自部署模型实例的全生命周期 · 负载均衡 · 健康检查

模型部署管理自部署模型实例的生命周期。SaaS API(OpenAI / Anthropic 等)直接走 接口平台,不在这里管。

适用范围

我有……
OpenAI / Claude API Key接口平台
自部署 Llama / Qwen / DeepSeek模型部署(此页)
公司内部 OpenAI 兼容服务也可在此页

核心动作

新建部署

  1. 选模型(从 模型定义 中选已注册的)
  2. 配置实例:
    • 地址 + 端口(http://10.0.0.5:8000/v1)
    • 资源(GPU 数 / 内存,仅显示用)
    • 副本数
  3. 创建后,连通性测试自动执行(发一个最小请求验证)

修改部署

  • 扩缩副本
  • 更换端点(滚动迁移)

删除

下线一个部署 = 立即从负载均衡池摘除。

负载均衡

多实例部署时:

策略行为
Round Robin轮询(默认)
加权轮询按权重分配(强机多权重)
Failover 优先级主备 — 仅主挂了用备

健康检查会自动剔除异常实例,自动恢复正常实例。

健康检查

实时监控:

  • 可达性(每 N 秒发心跳请求)
  • 响应时间(P95)
  • 错误率

出现连续 3 次失败 → 摘除 → 仍每 N 秒探测 → 恢复后重新挂上。

典型场景

1 · 私有化纯自部署

公司内部部署 Qwen / DeepSeek,Evose 上挂 4 个实例:

部署 1:qwen-max,4 实例,Round Robin
部署 2:qwen-embedding,2 实例,主备 Failover

2 · 混合云

部分 SaaS API + 部分自部署。SaaS 走 接口平台;自部署在此页。在 默认模型 选择哪个为组织默认。

3 · 跨区域容灾

模型 GPT-4
├─ 接口平台 OpenAI 美国 → Round Robin 50%
├─ 接口平台 Azure 中国  → Round Robin 30%
└─ 自部署 OpenAI 兼容    → Failover 备份 20%

接下来

页面导航