閱讀629 返回首頁    go 阿裏雲 go 技術社區[雲棲]


健康與風險:數據中心容量管理的新模式

有分析公司認為,當前對於任何大型IT企業都必不可少的流程:容量能力管理往往都非常的複雜。而且,在當今加速發展的商業世界中,這種管理往往無法有效實施。優先級的改變、日益增加的複雜性和可擴展的雲基礎架構使得傳統的容量管理模式已經不太奏效。在新技術的支持下,由創新的IT領導者推動,新的容量能力管理模式正在出現。這種新的模式將IT資源使用視為對業務有意義的,使用自動化和分析來管理複雜性,並減少人工操作。

在本文中,我們將與廣大讀者諸君共同討論如何將容量管理中所涉及到的複雜監控、分析和預測縮減為一項健康的服務(當前績效)指標,以及服務風險(未來績效)的一個指標,使所有利益相關方更易於管理和更具可視化。

容量管理的戰略優勢

  容量管理平衡成本和風險

在簡化的意義上,IT容量管理是平衡業務服務的成本和性能的基礎,其中基礎設施的分配和配置是支點。如果您企業的基礎設施配置不當或不足以支持業務需求,可能會發生長時間的響應時間問題和中斷,從而使業務損失高達上百萬。

避免這種情況的一種典型方法是過度配置基礎設施,即估計所需要的容量,並使之翻一番。據估計,多達50%的雲基礎設施是未使用的,這種現象在物理存儲中甚至更多。過度配置浪費了大量的硬件,軟件許可和管理成本。而訣竅就在於合理化您企業的基礎設施規模,以滿足當前的需求,並確切的知道何時何地需要增加多少額外的容量。

為了有效優化業務服務,容量管理過程由四個主要步驟組成:

1、數據收集和管理。收集您企業環境中每款應用程序、服務和係統的詳細信息和相關的性能數據。

2、數據分析。分析數據以確定服務的健康狀況,潛在的性能問題以及這些問題的根本原因,以便您可以解決這些問題。

3、預測。準確預測資源短缺何時何地會發生,這樣才能避免資源短缺。

4、提交可執行的信息。為各利益相關方:IT分析師、服務經理和業務領導提供他們可以據此做出決策所需的信息。

使IT變得如此具有挑戰性的是,鑒於動態發展的技術,不斷變化的業務需求和需求的增長都增加了複雜性,使得IT環境不斷變化。時間一直是性能問題的本質,但是IT人員分散在各種任務和項目中,減少了確保服務交付的時間。最後,容量管理專長越來越少。根據一家業界領先的分析公司Research In Action預測,到2020年,容量和性能管理的技能缺乏將成為75%的企業增長的主要製約因素或風險。

或許正是由於這些挑戰的存在,使得許多技術領導者認為,容量管理是一大競爭優勢,在未來幾年將會變得更加如此。據Research In Action預測,到2020年,35%的企業將使用容量管理工具來獲得競爭優勢(而今天的比例則為20%)。

有效的容量管理所帶來的競爭優勢:

1、減少了員工致力於提供高可用性和一致的服務所花費的時間

2、減少任務關鍵型應用程序的停機時間和瓶頸

3、優化硬件,軟件和雲存儲投資

4、更有效的業務規劃,使IT投資與業務目標保持一致

5、保護企業品牌聲譽

借助自動化管理複雜性

近年來,大部分已經成功的部署了容量管理的IT企業均使用了分析和自動化。這種方法的優點是速度和準確性,即使在非常複雜的環境中,但需要花費相當的時間,並采用恰當的工具和流程來有效實施。

要了解這種方法,如下,讓我們來探討前麵所述的每個核心流程:

1、數據收集和管理

2、數據分析

3、預測

4、提供可執行的信息

數據采集

性能數據必須以具備足夠的細粒度級別進行收集,以滿足業務交易的需求。例如,實時交易和在線購物需要比批量處理更多的細粒度。請記住,您企業所使用的收集工具必須以自動化和高度可擴展的方式提供詳細,及時的數據,以確保項目的成功。

數據分析

傳統上,這種分析是由容量管理專家通過簡單的工具(如電子表格)“手動”檢查數據;或通過構建和維護定製的工具和查詢來執行的。這種類型的手動分析需要花費大量的時間和專業知識,並用到在許多企業中已經薄弱的資源。自動化是一大解決對策,盡管在這方麵存在較少的可行解決方案。曆史上,許多這些“自動化”解決方案仍然需要大量的時間來設置,並在提供有用的信息方麵仍然受限。然而,技術現在可以用更實際和更有效的方式解決分析問題。

預測

為了準確預測性能,我們需要認識到,計算機係統的行為不是線性的。如果其是線性的,那麼預測就像線性趨勢一樣簡單。現實是排隊發生。排隊是指當一款CPU、控製器或其他設備有超出其所能夠執行處理的工作進入時的情況。然後,服務不得不等待排隊,就像排隊等待在商店款台結帳一樣。當隻有很短的隊伍或沒有排隊時,響應時間與所添加的工作成比例。您企業再添加一些工作,一些應用程序或基礎架構,就有了更多的工作亟待處理。排隊由此開始,突然間的延遲是巨大的。這就是所謂的曲線中可怕的拐點,之後的響應時間呈指數增長——等待時間比工作時間還要長,響應受到很大的影響。

  經常,IT假設延遲將始終是線性的,而他們也正在瘋狂地爭取解決這一問題。

為了避免拐點,許多IT機構遵循始終不讓係統所處理的任務太繁忙的策略,這意味著過度配置——保險但卻造成了浪費。他們為避免拐點付出了太多代價。

你企業必須清楚的知道拐點將在何處出現,以便在沒有過度配置的情況下避免它,這需要了解IT組件如何交互來執行工作。使用各種技術來預測性能的不同程度的精度,從Excel電子表格到線性趨勢,到模擬建模,再到分析建模。

然而,直到最近,這些解決方案都需要用到大量的專業知識,專長和時間。慶幸的是,現在可以非常及時地自動獲得預測。

提供可執行的信息

有效執行上述三個領域的結果應是生成可執行的信息和具備可視化的報告。由於IT決策通常對整個業務有影響,因此這些信息也必須以對非IT利益相關者有意義的方式呈現。例如,根據業務指標(如銷售,SLA或正常運行時間)而不是根據諸如內存或I /O等IT指標。IT部門花費數百或數千小時為各利益相關者創建報告並不常見。盡可能的情況下,報告任務也應自動化,使IT人員能夠專注於主動解決問題和創新。

案例:JN數據公司如何管理複雜性

實時識別和理解企業中值得關注的內容幫助JN數據公司的容量經理Henrik Tonnisen向主要客戶(其中包括丹麥第三大銀行Jyske Bank和丹麥最大的抵押貸款公司Nykredit)交付提供了市場領先的服務,資源效率和透明度。

為此,Tonnisen將來自數萬台服務器的技術數據融合到動態的自助服務報告中,以滿足每個業務利益相關者的需求,將討論從複雜的技術指標轉變為可操作的業務信息。

Tonnisen表示,他們的團隊在宣布推出新的自助報告儀表板後,獲得了利益相關者的一致好評。

一種新的模式

自動化和分析已被證明對現代容量管理所帶來的挑戰是有效的。然而,直到最近,這些解決方案也仍然需要大量的時間和專門知識來實現有效的實施。

當前,一種新的模式正席卷了整個行業。這種新的模式使用自動健康和風險評分來識別當前和未來的性能,以及未來的時間框架和嚴重程度問題。這是遊戲規則的一個改變:節省了時間,需要的專業知識更少,使所有IT10企業的容量管理更簡單,更易於訪問。

為了方便計算每項服務的簡單,易於理解的健康和風險分數,在幕後運行的是複雜的算法。監控列表可以被定義為將注意力集中在您所使用的服務上,負責並且容易地確定需要采取的行動,無論是解決當前問題還是擴展容量,以避免未來的問題。您企業不再需要花費數不清的時間在數據上了。自動算法將為您執行。

為什麼要實行健康和風險評分?

健康和風險分數涉及容量管理過程中的兩大主要功能領域:

1、性能管理——識別和解決導致應用程序響應緩慢和服務中斷的性能問題(健康狀況)

2、容量規劃——預測何時需要進行容量升級或額外的基礎架構,以避免服務性能不佳或中斷(風險)

健康和風險分數如何計算?健康分數

通過深入了解包含服務的每個係統來計算健康評分。分析排隊網絡模型用於計算實際的CPU和I / O性能,並與每個係統的理論最佳性能相比較。內存將根據當前的利用率進行評估,並通過查找與內存管理的正常活動級別的任何偏差來進行評估。通過檢查當前可用容量和曆史行為模式來評估磁盤空間使用情況。分析結果被整合並歸一化,以創建一個易於解釋的健康評分,範圍從0到100,0-44表示健康狀況不佳,45-54表示需要警告,55-100表示 健康狀況良好。

風險評分

風險評分是通過運行容量規劃算法來確定的,進而預測將來服務將如何運行。容量規劃算法預測服務增長率對構成服務的係統的影響。分析排隊網絡模型用於計算未來的CPU和磁盤I / O性能,並與係統的理論最優性能進行比較。這些模型產生了一係列預測,這些預測說明了我們之前討論的計算係統中固有的非線性行為。

通過評估活動模式並在預測期結束時預測磁盤空間的使用情況。基於這些計算,生成風險分數來表示預測風險的嚴重性。風險分數歸一化為0至100的範圍,以代表風險量,0-44表示低風險,45-54表示警告,55-100表示 高風險。除了風險評分,還將預計發生性能不佳或停電情況的日期。通過在預測結果中查找一次性事件和周期性行為來預測風險何時發生,並計算發生風險的天數。

簡單性是王道

鑒於所有的工作自動發生在幕後,容量管理要簡單得多,所有的IT企業都更容易訪問。企業不再需要雇傭大量數據科學家,工作人員的工作時間得以節省下來,預測不再需要內行專家。 IT人員和服務經理可以查看健康和風險的單一指標,其次知道應該在哪裏集中注意力。

準確性事項

算法和計算的準確性非常重要。那麼他們有多準確呢?

1、對於CPU和I / O活動而言,到目前為止,最準確的健康和風險測定使用分析排隊網絡模型。

2、對於磁盤空間和內存而言,智能算法評估利用率和子係統活動的模式,以準確地解釋當前,並預測未來的利用率。

所有這些方法都適應工作負載,配置和其他環境變化。使用這些方法與複雜的算法,最終的結果是行業中最準確的健康和風險計算,準確率通常為95%。

評估您企業的選項

目前市場上有各種容量管理解決方案,可滿足不同的企業環境和不同需求。而為了有效地評估它們,比較功能和方法是有幫助的,並且有助於理解它們將如何影響您企業的容量管理成果。

為了確定IT和業務服務的健康狀況,通常會執行以下方法,其中已加標的項目代表在新模式中采用的方法:

標準閾值比較

增強閾值比較

事件檢測

從正常運行到變化的比較

分配比較

排隊理論

為了確定IT和業務服務的風險,通常會執行以下方法,其中已加標的項目代表在新模式中采用的方法:

線性趨勢

增強趨勢

事件預測

分配預測

排隊理論

諸如標準閾值比較和事件檢測等選項更容易設置,但提供的精度要低得多。分配比較和預測適用於虛擬環境,但是缺乏驅動資源效率的能力,因為它們需要考慮分配的內容與使用的內容。排隊理論需要智能配置和細粒度數據,但在確定服務健康和風險方麵提供了更為準確的結果。

在選擇企業容量管理解決方案時,應考慮以下因素:

環境中的物理和虛擬服務器的數量

IT企業所管理的服務的數量

未來3年預計的基建投資情況

目前基礎設施過剩的程度

關鍵服務中斷的潛在成本

這些因素將支撐能力管理投資的潛在回報,並有助於確定您企業所應該追求的解決方案類型。

本文轉自d1net(轉載)

最後更新:2017-11-10 14:35:39

  上一篇:go  多能互補提速 加快我國能源轉型和現代能源體係建設
  下一篇:go  無服務器技術大神不得不說的五個技巧