私有化 · 高可用

把单点故障消除掉。从应用层、数据层、模型层三个层面同时考虑。

三层 HA 检查清单

应用层
☑ Evose Web/API 多副本(≥ 3)
☑ Worker 多副本(≥ 2)
☑ Ingress / 负载均衡器双活

数据层
☑ MySQL 主从(同步复制)+ 自动故障切换
☑ PostgreSQL 主从 + pgvector 同步
☑ Redis 主备 / 哨兵 / 集群
☑ 对象存储跨区域复制

模型层
☑ 多 LLM 供应商接入(Failover)
☑ 自部署 LLM 多实例(Round Robin)
☑ Embedding / Reranking 多实例

应用层

K8s 推荐配置:

组件	副本	PDB(PodDisruptionBudget)
evose-api	≥ 3	minAvailable: 2
evose-worker	≥ 2	minAvailable: 1
evose-web	≥ 2	minAvailable: 1

数据层

MySQL

方案	适合
主从复制 + 手动切换	中小规模
MGR(Group Replication)	推荐，生产
MySQL InnoDB Cluster	大规模，需运维成熟
阿里云 RDS / 云数据库	托管最省事

PostgreSQL + pgvector

方案	适合
主从流复制 + Patroni	推荐
Citus 分片	知识库大规模
阿里云 PolarDB / 云数据库	托管

pgvector 主从复制

向量数据会通过流复制同步，但向量索引（HNSW）在从库需重建。建议从库专用于读，大规模场景考虑 Citus。

Redis

方案	适合
主从 + 哨兵	默认
Redis Cluster	大规模 / 跨机房

模型层 HA

多供应商 Failover

接口平台把同一模型注册到多个供应商:

gpt-4-turbo
├─ OpenAI 美西        → 优先级 1
├─ Azure 中国         → 优先级 2(主挂时上)
└─ 自部署 OpenAI 兼容 → 优先级 3(SaaS 全挂时上)

自部署多实例

模型部署:

qwen-max:
  ├─ 实例 1: 10.0.0.5:8000  (副本 2)
  ├─ 实例 2: 10.0.0.6:8000  (副本 2)
  └─ 实例 3: 10.0.0.7:8000  (副本 2)
策略: Round Robin + 健康检查

跨机房 / 多 Region

进阶场景。建议:

主机房                          灾备机房
─────                          ──────
Evose 全栈 + DB 主              Evose 全栈 + DB 从
        │                              ↑
        └─── 异地数据库异步复制 ───────┘

DNS 切换 / 全局负载均衡器在 RPO/RTO 内自动切换

异地容灾的 RPO

异步复制有数据丢失风险。严合规场景(金融 / 医疗）需评估同步复制方案与延迟代价。

故障演练

演练	频率	目标 RTO
单 API Pod 故障	月	< 30s
主 MySQL 故障	季	< 5min
单 LLM 供应商故障	月	< 10s
整机房故障	半年	< 30min

接下来

升级流程 → 升级
6 层防御 → 安全

私有化 · 高可用

页面导航