私有化
私有化 · 高可用
HA 拓扑 · 数据库主从 · LLM 多供应商容灾
把单点故障消除掉。从应用层、数据层、模型层三个层面同时考虑。
三层 HA 检查清单
应用层
K8s 推荐配置:
| 组件 | 副本 | PDB(PodDisruptionBudget) |
|---|---|---|
| evose-api | ≥ 3 | minAvailable: 2 |
| evose-worker | ≥ 2 | minAvailable: 1 |
| evose-web | ≥ 2 | minAvailable: 1 |
数据层
MySQL
| 方案 | 适合 |
|---|---|
| 主从复制 + 手动切换 | 中小规模 |
| MGR(Group Replication) | 推荐,生产 |
| MySQL InnoDB Cluster | 大规模,需运维成熟 |
| 阿里云 RDS / 云数据库 | 托管最省事 |
PostgreSQL + pgvector
| 方案 | 适合 |
|---|---|
| 主从流复制 + Patroni | 推荐 |
| Citus 分片 | 知识库大规模 |
| 阿里云 PolarDB / 云数据库 | 托管 |
Redis
| 方案 | 适合 |
|---|---|
| 主从 + 哨兵 | 默认 |
| Redis Cluster | 大规模 / 跨机房 |
模型层 HA
多供应商 Failover
接口平台 把同一模型注册到多个供应商:
自部署多实例
模型部署:
跨机房 / 多 Region
进阶场景。建议:
故障演练
| 演练 | 频率 | 目标 RTO |
|---|---|---|
| 单 API Pod 故障 | 月 | < 30s |
| 主 MySQL 故障 | 季 | < 5min |
| 单 LLM 供应商故障 | 月 | < 10s |
| 整机房故障 | 半年 | < 30min |