閱讀474 返回首頁    go 阿裏雲 go 技術社區[雲棲]


甩掉運維黑鍋,容災部署如何破?





  • 引言

另外,中國網絡由多家運營商組成,各運營商之間互聯互通質量差已是不爭的事實。因此大型互聯網企業早已不滿足於單一、或者雙活數據中心提供網站服務,越來越多的互聯網企業開始考慮在不同地區、不同運營商部署多個數據中心集群,以實現用戶訪問就近接入、負載均衡和故障容災。

      l   多個數據中心流量如何分配?
l   監控怎樣及時發現網絡故障?
l   多個數據中心服務如何容災?

令人欣喜的是,阿裏雲產品雲解析DNS,現已助力中小企業解決多數據中心的流量負載均衡、實現用戶就近接入、故障及時發現和實時容災切換。

  • 破局

同時,針對相同位置不同服務能力的數據中心集群,可以通過WRRWeighted Resource Record)來設置整體流量分配方案。

58ac696c099c5d0a4e49791bd5c485925fcadf60

1.     華東聯通兩個數據中心的帶寬比例是3 :7,通過雲解析設置線路內負載均衡時,將兩個數據中心服務IP地址的權重分別設置成3和7, 達到華東聯通訪問流量按照30%和70%分配的比例;

2.     華北電信兩個數據中心的帶寬比例是1 :1,通過雲解析設置線路內負載均衡時,將兩個數據中心服務IP地址的權重分別設置成1,達到各占華北電信訪問流量50%的配置比例;

3.     阿裏雲BGP 兩個Region的ECS數量比例是8 :2,那通過雲解析設置線路內負載均衡時,將兩個Region公網彈性IP地址的權重分別設置成8和2, 達到訪問流量按照80%和20%分配的比例;

4.     網絡監控對各個數據中心的服務IP進行實時監控;

5.     網絡監控周期性將監控結果反饋給雲解析DNS;

6.     用戶向華北電信dns發起www.example.com DNS查詢請求;

7.     華北電信dns收到用戶的查詢後如果沒有緩存該域名,則向雲解析DNS發起域名查詢;

8.     雲解析DNS收到華北電信的DNS查詢時,輪詢響應IP地址3.3.3.3和4.4.4.4。此時一半華北電信DNS得到的結果時3.3.3.3,另半華北電信DNS得到的結果時4.4.4.4。

9.     華北電信DNS收到雲解析DNS的響應後會緩存域名解析結果,並返回給最終查詢用戶。

10.  最終實現50%的華北電信用戶訪問3.3.3.3上的網站服務,另外50%華北電信用戶訪問4.4.4.4上的網站服務。

    •    網絡監控及時發現故障

1.        雲解析DNS在通過智能解析和WRR幫助中小企業實現就近訪問以及流量分配的同時,有效的結合阿裏雲分布式監控,利用全網撥測探針對網站的解析記錄進行實時監控,如圖二。

7b6af8f26aab13f6e1693b0a6f35bd189a4971b0


2.        雲解析DNS的網絡監控目前已支持HTTP/HTTPS自定義URL在提供5真實阿裏巴巴撥測節點基礎上,優選了15三大運營商優質撥測點。同時多達50監控任務數的配置全麵領先競爭對手,確保能夠及時發現宕機故障,增大監控覆蓋麵,如圖三。

1315e4a0166868548152c07011559cb89169bb6e

3.        低至1分鍾的監控頻率,相當於您的網站3秒鍾,就可以獲得一次健康檢測,最快可以宕機後3分鍾內檢測出故障,並通過全球負載均衡功能完成故障切換。

4.        為了防止誤報警現象發生,我們將宕機判斷閾值設置為50%,即50%的節點監控異常時判定為宕機故障。

5.        當然DNS生效還受到運營商緩存TTL的影響,建議設置主機記錄TTL為60

6.        如果你是移動端開發者,推薦配合阿裏雲HTTPDNS服務同時使用,故障切換更加靈敏。

    •    
 Ø 故障隔離


01c8afdf7ae0ac5a32248f324f07657f2127c38b

                                                                                                 圖四

1.     華北電信一個數據中心集群4.4.4.4因異常原因出現大麵積故障,網站服務中斷,用戶訪問失敗;

2.     網站監控在2分鍾內發現4.4.4.4集群故障,同時通知雲解析DNS係統暫停華北電信:4.4.4.4的IP地址解析;

3.     雲解析DNS暫停故障IP解析後,隻向華北電信DNS查詢返回IP地址:3.3.3.3,同時雲解析DNS解析日誌會記錄下故障時間、IP地址、暫停操作信息,並通過短信和郵件通知您的運維工程師。

4.     最終實現將用戶的訪問流量全部轉移至華北電信數據中心:3.3.3.3。

Ø   故障恢複

c606e0fd6acfae030bd0ab9ff46403913e94d021

1.     在華北電信用戶的訪問流量全部遷移至3.3.3.3後,4.4.4.4相當於離線狀態,你可以組織相關技術同學對故障集群進行修複。

2.     修複完成、測試通過後,監控係統能自動檢測到華北電信數據中心4.4.4.4的網站服務恢複正常,並通知雲解析DNS恢複華北電信4.4.4.4 的IP地址解析,

3.     雲解析DNS收到華北電信的DNS查詢時,輪詢響應IP地址3.3.3.3和4.4.4.4。經過一段時間後,一半華北電信DNS得到的結果是3.3.3.3,另一半華北電信DNS得到的結果是4.4.4.4。

4.     最終用戶的訪問流量會平滑的過度到原始配置各50%的比例,確保訪問流量在恢複時平滑、用戶無感知。

Ø   異地容災

a24e450e7f8b88e191e4c26ea3436d5d29ad1f0b

1.     由於某些不可抗拒的原因,華北電信的數據中心兩個接入IP地址:3.3.3.3、4.4.4.4全部出現故障,並無法及時恢複;

2.     網站監控及時發現故障,並通知雲解析DNS暫停所有華北電信線路下IP解析;

3.     雲解析DNS暫停解析後,會啟用線路間負載均衡策略,向華北電信用戶的DNS查詢返回阿裏雲BGP Region地址:1.1.1.1、2.2.2.2;

4.     最終實現將整體華北電信用戶的訪問流量調度至默認線路阿裏雲BGP Region:1.1.1.1、2.2.2.2,保障在極端情況下,依然能夠向華北電信用戶提供正常的服務,如圖四所示。




最後更新:2017-04-19 17:31:26

  上一篇:go 阿裏雲數據庫,破解大型網站架構設計中的數據存儲難題
  下一篇:go 阿裏雲天池醫療大賽:借助人工智能攻克全球智能診斷難題