如何基于服务网格构建高可用架构

简介: 分享如何利用服务网格构建更强更全面的高可用架构

【阅读原文】戳:如何基于服务网格构建高可用架构

 

引言

 

 

在业务迭代演进的过程中,伴随着业务承载的价值逐步增长,稳定性成为了企业建设数字化系统最重要的基石。在建设业务架构时,如何高可用成为了首当其冲的课题,或许没有之一。对于云产品来说,天生构建在多地域、多可用区的基础设施之上,因此利用云产品为客户搭建可靠的高可用架构,解决稳定性顾虑,是云产品的重要能力。

 

一个完整的高可用技术架构,应当考虑两个方面的问题。其一:从部署的基础设施上,为避免单点故障,应当以多地理位置隔离部署,这就要求在多个地理位置有可用资源,另一方面,要求资源调度系统能够在多个地理位置的资源上正确调度。其二:需要有完善地服务保护能力,在可能对服务造成关键影响的场景中(突发流量,恶意流量),保护关键服务不被击垮。在云原生的大背景下,使用K8s+服务网格是云原生社区给出的标准解决路径,Kubernetes解决资源调度和管理;服务网格则负责管理更进阶的安全、流量和可观测。本文则将展开探讨,如何利用服务网格构建高可用的业务系统。

 

 

 

 

构建可用区级高可用

 

 

- 使用多可用区部署 -

 

 

单一K8s集群的场景下,可以利用云上多可用区的特性进行高可用部署。阿里云ACK所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。同时,集群内的WorkerNode、弹性容器实例也同样被打散在不同可用区。在发生可用区级别故障时(例如因不可控因素导致的机房断电、断网),健康的可用区仍然能够正常提供服务。

 

 

 

 

- 使用ASM熔断与限流提升全局可用性 -

 

 

除了将应用和基础设施打散部署,以物理隔离提供高可用保障。软件层面的保护仍然必不可少。熔断限流是广受认可的应用保护手段,应用熔断限流可以使得应用的整体可用性显著提高,控制局部问题的爆炸半径,并有效防止出现级联故障。

 

限流是保护服务端应用的手段,启用限流可以避免服务端被过多的流量击垮,让系统在不堪重负时自动降级,ASM支持本地、全局限流,以及更高阶的自定义限流规则(例如单一用户QPS限流等)

 

 

熔断是一种应用在客户端的,用于在上游(服务端)出现故障或超负荷的情况下,尽快将异常端点暂时熔断,从而尽可能不影响系统的全局表现。在传统的微服务应用中,一些开发框架提供了熔断功能。然而,与传统方式相比,服务网格提供的熔断不需要在每个服务的应用程序代码中进行集成,无感地保护目标服务免受过量请求的影响。

 

 

ASM的熔断限流支持比社区版本Istio更强的能力,支持更丰富的熔断限流条件(详情参考ASM产品文档中熔断限流的相关内容),从而保证应用尽可能获得更好的全局表现。

 

 

 

 

- 可用区流量保持 -

 

 

在多可用区部署场景下,使用由于工作负载被打散至多个可用区,基于K8s Service的负载均衡将均匀地分配流量到不同可用区的Pod。

 

 

跨可用区调用无疑增加了业务延迟,因此,在未发生故障时,调用始终保持在同一可用区是较为理想的状态。使用服务网格的地理位置优先能力,可以使得单次调用尽可能维持在同一可用区内,除非链路上某个应用发生了故障,才会failover到其他可用区:

 

 

 

- ASM高可用 -

 

ASM托管的控制面默认以多可用区进行打散,确保在单可用区发生故障时,仍然能够正常为数据面提供服务。同时,ASM数据面具备缓存能力,即使段时间内全部可用区都发生故障,数据面仍然能以缓存的配置进行工作。

 

 

 

总结

 

 

以单集群多可用区的方式容灾的优势在于其架构简单,用户的运维管理成本相对较低。但是,单集群意味着无法容忍地域级故障(例如单一地域因不可控因素、自然灾害等失效)。因此,要达成更高的可用性要求,不可避免地需要进行地域隔离的部署,我们将在剩余的篇幅中展开讨论。

 

 

 

 

构建地域级高可用

 

 

 

- 多地域多集群容灾 -

 

 

多地域部署则必须多集群进行部署。在多集群部署场景下,入口被切分成为两个,在正常(无故障)状态下,可以通过DNS将流量根据地理位置等策略分配至两个集群的入口。在这种场景中,使用阿里云智能DNS或阿里云全局流量管理(GTM)实现从DNS切流的能力,使用GTM结合健康检查条件,可以自动摘除不健康的入口。与此同时,仍应当使用ASM网关使集群入口获得更高级的熔断、限流能力,以保护集群内的业务。

 

 

在当前方案中,主要通过入口切换来将流量分配至健康寄去。这样的方式虽然简明有效,但是仍然有一些场景较为棘手:

 

1、全局切换不止切换

 

全局切换意味着全部流量的转移,这意味着一个集群要瞬间开始承接远大于日常负载的流量,这对于扩容速度、缓存重建等都是极大的挑战,如果这些工作未能做好,可能将原本无故障的机房也打垮,以上因素使得机房切换往往是需要人工参与操作并决断的。

 

 

2、无法应对复杂故障场景

 

对于复杂故障场景无法解决,例如,在cn-hangzhou集群某应用A故障,B集群应用B故障时,切换到哪个集群都无法彻底避免故障。

 

 

那么,在多集群场景下,是否存在除了全局切流以外的其他手段?答案是,使用服务网格实现非全局故障转移。ASM提供了多种多集群方案,其中,多实例互相服务发现方案为对可用性有最高要求的客户量身定制,通过将多集群的服务发现信息共享,可以实现将多个集群完全打通,从而实现在小故障(服务级、节点级、可用区级)发生时秒级无感切换,更可以在双侧都存在故障时,只要单一应用在任意一侧集群是正常的,即可保证应用全局可用。

 

 

 

- 基于ASM构建更完善的多集群容灾 -

 

 

ASM提供了管理多个集群的能力,在该场景下,在每个集群所在的地域(对于非阿里云集群则尽可能选择更接近的地理位置)创建ASM实例,并将另外一个地域的集群以仅服务发现模式加入到ASM中,此时,两侧的ASM都可以发现另外一个地域的所有服务。因此,在多集群场景中也可以实现与单集群场景下一样的自动故障回退能力和复杂场景的容错能力。

 

要实现多多集群场景的互相调用,则需要依赖路由打通,即从A集群的Pod可以直接连通B集群Pod,对于阿里云多地域场景,用户可以选择使用阿里云云企业网CEN打通物理网络。而对于阿里云集群+非阿里云集,非阿里云集群+非阿里云集群,云上集群+云下集群等复杂网络场景,往往存在无法将物理网络打通的限制,在这种场景下,ASM提供了通过公网打通的方式,通过使用ASM跨集群网关,可以利用公网在集群间通过公网建立一条mTLS的安全信道,用于必要的跨集群通信。

 

 

 

总结

 

 

要实现能够容忍地域级故障的高可用,势必需要进行多集群部署,多集群引入了多入口,仅支持从入口进行切换在一些场景下是不够的,使用服务网格打通多集群可以显著地提升多地域多集群场景下的容灾能力。阿里云服务网格支持管理任意K8s集群,使得任何K8s集群都可以借助服务网格获得更强的容灾能力。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
3月前
|
SQL 监控 关系型数据库
MySQL主从复制:构建高可用架构
本文深入解析MySQL主从复制原理与实战配置,涵盖复制架构、监控管理、高可用设计及性能优化,助你构建企业级数据库高可用方案。
|
3月前
|
数据采集 运维 监控
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
|
4月前
|
监控 Java API
Spring Boot 3.2 结合 Spring Cloud 微服务架构实操指南 现代分布式应用系统构建实战教程
Spring Boot 3.2 + Spring Cloud 2023.0 微服务架构实践摘要 本文基于Spring Boot 3.2.5和Spring Cloud 2023.0.1最新稳定版本,演示现代微服务架构的构建过程。主要内容包括: 技术栈选择:采用Spring Cloud Netflix Eureka 4.1.0作为服务注册中心,Resilience4j 2.1.0替代Hystrix实现熔断机制,配合OpenFeign和Gateway等组件。 核心实操步骤: 搭建Eureka注册中心服务 构建商品
878 3
|
4月前
|
运维 监控 搜索推荐
MSE ZooKeeper:Flink 高可用架构的企业级选择
本文深入解析了 Apache Flink 架构中 ZooKeeper 的核心作用,包括 Leader 选举、Checkpoint 管理、作业协调及配置管理等关键功能,并结合金融风控与电商推荐等典型场景,分析了 ZooKeeper 在实际应用中的技术实现。
|
3月前
|
人工智能 监控 测试技术
告别只会写提示词:构建生产级LLM系统的完整架构图​
本文系统梳理了从提示词到生产级LLM产品的八大核心能力:提示词工程、上下文工程、微调、RAG、智能体开发、部署、优化与可观测性,助你构建可落地、可迭代的AI产品体系。
616 51
|
5月前
|
消息中间件 负载均衡 中间件
⚡ 构建真正的高性能即时通讯服务:基于 Netty 集群的架构设计与实现
本文介绍了如何基于 Netty 构建分布式即时通讯集群。随着用户量增长,单体架构面临性能瓶颈,文章对比了三种集群方案:Nginx 负载均衡、注册中心服务发现与基于 ZooKeeper 的消息路由架构。最终选择第三种方案,通过 ZooKeeper 实现服务注册发现与消息路由,并结合 RabbitMQ 支持跨服务器消息广播。文中还详细讲解了 ZooKeeper 搭建、Netty 集群改造、动态端口分配、服务注册、负载均衡及消息广播的实现,构建了一个高可用、可水平扩展的即时通讯系统。
641 0
|
2月前
|
运维 监控 安全
公链开发中的高可用架构设计要点
本指南提供公链高可用架构的可复用流程与模板,涵盖目标拆解、先决条件、分步执行、故障排查及验收标准,结合跨链DApp与量化机器人案例,提升落地效率与系统稳定性。
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
960 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
3月前
|
存储 监控 NoSQL
Redis高可用架构全解析:从主从复制到集群方案
Redis高可用确保服务持续稳定,避免单点故障导致数据丢失或业务中断。通过主从复制实现数据冗余,哨兵模式支持自动故障转移,Cluster集群则提供分布式数据分片与水平扩展,三者层层递进,保障读写分离、容灾切换与大规模数据存储,构建高性能、高可靠的Redis架构体系。
|
3月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,