阅读474 返回首页    go 技术社区[云栖]


甩掉运维黑锅,容灾部署如何破?





  • 引言

另外,中国网络由多家运营商组成,各运营商之间互联互通质量差已是不争的事实。因此大型互联网企业早已不满足于单一、或者双活数据中心提供网站服务,越来越多的互联网企业开始考虑在不同地区、不同运营商部署多个数据中心集群,以实现用户访问就近接入、负载均衡和故障容灾。

      l   多个数据中心流量如何分配?
l   监控怎样及时发现网络故障?
l   多个数据中心服务如何容灾?

令人欣喜的是,阿里云产品云解析DNS,现已助力中小企业解决多数据中心的流量负载均衡、实现用户就近接入、故障及时发现和实时容灾切换。

  • 破局

同时,针对相同位置不同服务能力的数据中心集群,可以通过WRRWeighted Resource Record)来设置整体流量分配方案。

58ac696c099c5d0a4e49791bd5c485925fcadf60

1.     华东联通两个数据中心的带宽比例是3 :7,通过云解析设置线路内负载均衡时,将两个数据中心服务IP地址的权重分别设置成3和7, 达到华东联通访问流量按照30%和70%分配的比例;

2.     华北电信两个数据中心的带宽比例是1 :1,通过云解析设置线路内负载均衡时,将两个数据中心服务IP地址的权重分别设置成1,达到各占华北电信访问流量50%的配置比例;

3.     阿里云BGP 两个Region的ECS数量比例是8 :2,那通过云解析设置线路内负载均衡时,将两个Region公网弹性IP地址的权重分别设置成8和2, 达到访问流量按照80%和20%分配的比例;

4.     网络监控对各个数据中心的服务IP进行实时监控;

5.     网络监控周期性将监控结果反馈给云解析DNS;

6.     用户向华北电信dns发起www.example.com DNS查询请求;

7.     华北电信dns收到用户的查询后如果没有缓存该域名,则向云解析DNS发起域名查询;

8.     云解析DNS收到华北电信的DNS查询时,轮询响应IP地址3.3.3.3和4.4.4.4。此时一半华北电信DNS得到的结果时3.3.3.3,另半华北电信DNS得到的结果时4.4.4.4。

9.     华北电信DNS收到云解析DNS的响应后会缓存域名解析结果,并返回给最终查询用户。

10.  最终实现50%的华北电信用户访问3.3.3.3上的网站服务,另外50%华北电信用户访问4.4.4.4上的网站服务。

    •    网络监控及时发现故障

1.        云解析DNS在通过智能解析和WRR帮助中小企业实现就近访问以及流量分配的同时,有效的结合阿里云分布式监控,利用全网拨测探针对网站的解析记录进行实时监控,如图二。

7b6af8f26aab13f6e1693b0a6f35bd189a4971b0


2.        云解析DNS的网络监控目前已支持HTTP/HTTPS自定义URL在提供5真实阿里巴巴拨测节点基础上,优选了15三大运营商优质拨测点。同时多达50监控任务数的配置全面领先竞争对手,确保能够及时发现宕机故障,增大监控覆盖面,如图三。

1315e4a0166868548152c07011559cb89169bb6e

3.        低至1分钟的监控频率,相当于您的网站3秒钟,就可以获得一次健康检测,最快可以宕机后3分钟内检测出故障,并通过全球负载均衡功能完成故障切换。

4.        为了防止误报警现象发生,我们将宕机判断阈值设置为50%,即50%的节点监控异常时判定为宕机故障。

5.        当然DNS生效还受到运营商缓存TTL的影响,建议设置主机记录TTL为60

6.        如果你是移动端开发者,推荐配合阿里云HTTPDNS服务同时使用,故障切换更加灵敏。

    •    
 Ø 故障隔离


01c8afdf7ae0ac5a32248f324f07657f2127c38b

                                                                                                 图四

1.     华北电信一个数据中心集群4.4.4.4因异常原因出现大面积故障,网站服务中断,用户访问失败;

2.     网站监控在2分钟内发现4.4.4.4集群故障,同时通知云解析DNS系统暂停华北电信:4.4.4.4的IP地址解析;

3.     云解析DNS暂停故障IP解析后,只向华北电信DNS查询返回IP地址:3.3.3.3,同时云解析DNS解析日志会记录下故障时间、IP地址、暂停操作信息,并通过短信和邮件通知您的运维工程师。

4.     最终实现将用户的访问流量全部转移至华北电信数据中心:3.3.3.3。

Ø   故障恢复

c606e0fd6acfae030bd0ab9ff46403913e94d021

1.     在华北电信用户的访问流量全部迁移至3.3.3.3后,4.4.4.4相当于离线状态,你可以组织相关技术同学对故障集群进行修复。

2.     修复完成、测试通过后,监控系统能自动检测到华北电信数据中心4.4.4.4的网站服务恢复正常,并通知云解析DNS恢复华北电信4.4.4.4 的IP地址解析,

3.     云解析DNS收到华北电信的DNS查询时,轮询响应IP地址3.3.3.3和4.4.4.4。经过一段时间后,一半华北电信DNS得到的结果是3.3.3.3,另一半华北电信DNS得到的结果是4.4.4.4。

4.     最终用户的访问流量会平滑的过度到原始配置各50%的比例,确保访问流量在恢复时平滑、用户无感知。

Ø   异地容灾

a24e450e7f8b88e191e4c26ea3436d5d29ad1f0b

1.     由于某些不可抗拒的原因,华北电信的数据中心两个接入IP地址:3.3.3.3、4.4.4.4全部出现故障,并无法及时恢复;

2.     网站监控及时发现故障,并通知云解析DNS暂停所有华北电信线路下IP解析;

3.     云解析DNS暂停解析后,会启用线路间负载均衡策略,向华北电信用户的DNS查询返回阿里云BGP Region地址:1.1.1.1、2.2.2.2;

4.     最终实现将整体华北电信用户的访问流量调度至默认线路阿里云BGP Region:1.1.1.1、2.2.2.2,保障在极端情况下,依然能够向华北电信用户提供正常的服务,如图四所示。




最后更新:2017-04-19 17:31:26

  上一篇:go 阿里云数据库,破解大型网站架构设计中的数据存储难题
  下一篇:go 阿里云天池医疗大赛:借助人工智能攻克全球智能诊断难题