Evose
私有化

私有化 · 高可用

HA 拓扑 · 数据库主从 · LLM 多供应商容灾

把单点故障消除掉。从应用层、数据层、模型层三个层面同时考虑。

三层 HA 检查清单

应用层
☑ Evose Web/API 多副本(≥ 3)
☑ Worker 多副本(≥ 2)
☑ Ingress / 负载均衡器双活

数据层
☑ MySQL 主从(同步复制)+ 自动故障切换
☑ PostgreSQL 主从 + pgvector 同步
☑ Redis 主备 / 哨兵 / 集群
☑ 对象存储跨区域复制

模型层
☑ 多 LLM 供应商接入(Failover)
☑ 自部署 LLM 多实例(Round Robin)
☑ Embedding / Reranking 多实例

应用层

K8s 推荐配置:

组件副本PDB(PodDisruptionBudget)
evose-api≥ 3minAvailable: 2
evose-worker≥ 2minAvailable: 1
evose-web≥ 2minAvailable: 1

数据层

MySQL

方案适合
主从复制 + 手动切换中小规模
MGR(Group Replication)推荐,生产
MySQL InnoDB Cluster大规模,需运维成熟
阿里云 RDS / 云数据库托管最省事

PostgreSQL + pgvector

方案适合
主从流复制 + Patroni推荐
Citus 分片知识库大规模
阿里云 PolarDB / 云数据库托管

pgvector 主从复制

向量数据通过流复制同步,但向量索引(HNSW)在从库需重建。建议从库专用于读,大规模场景考虑 Citus。

Redis

方案适合
主从 + 哨兵默认
Redis Cluster大规模 / 跨机房

模型层 HA

多供应商 Failover

接口平台 把同一模型注册到多个供应商:

gpt-4-turbo
├─ OpenAI 美西        → 优先级 1
├─ Azure 中国         → 优先级 2(主挂时上)
└─ 自部署 OpenAI 兼容 → 优先级 3(SaaS 全挂时上)

自部署多实例

模型部署:

qwen-max:
  ├─ 实例 1: 10.0.0.5:8000  (副本 2)
  ├─ 实例 2: 10.0.0.6:8000  (副本 2)
  └─ 实例 3: 10.0.0.7:8000  (副本 2)
策略: Round Robin + 健康检查

跨机房 / 多 Region

进阶场景。建议:

主机房                          灾备机房
─────                          ──────
Evose 全栈 + DB 主              Evose 全栈 + DB 从
        │                              ↑
        └─── 异地数据库异步复制 ───────┘

DNS 切换 / 全局负载均衡器在 RPO/RTO 内自动切换

异地容灾的 RPO

异步复制有数据丢失风险。严合规场景(金融 / 医疗)需评估同步复制方案与延迟代价。

故障演练

演练频率目标 RTO
单 API Pod 故障< 30s
主 MySQL 故障< 5min
单 LLM 供应商故障< 10s
整机房故障半年< 30min

接下来

页面导航