160
技術社區[雲棲]
極端環境下的IT運維案例
去年秋天,隨著颶風桑迪的步步緊逼,整個美國東海岸都開始嚴陣以待;Robertory自然也不能例外,他正盤算著如何建立並運行一整套IT體係。但時間緊迫,從組織技術團隊到讓係統投付運行,他隻剩下幾個小時可以支配。
這時候,盡快選擇正確方向就成了他的第一要務。
Robertory是美國紅十字會災難服務技術組的負責人。他的工作是確保紅十字會的急救人員在現場工作中擁有必要的技術支持,即使是在颶風肆虐之時也不例外。
"大多數IT人士在談到自然災害時,第一反應都是趕緊卷服務器跑路。但我們的選擇正好相反。我們關注的是如何在基礎設施陷入一團糟時將設備帶入災難現場,"他解釋道。
作為一位在設施部署領域浸淫多年的老手,Robertory擁有一種異於常人的天賦:他能夠在很短的時間內建立並解散一整套IT部門。
"我們先假定現場已經不存在基礎設施,接下來要回答的問題是:我們怎樣才能讓一切恢複正常?"他表示。
Robertory與其他幾位同樣身處極端環境下的IT管理者都認為,由於自己的工作屬於臨時性質,因此必須將注意力集中在主幹身上--即隻為組織提供最需要的係統方案,以盡可能提高部署效率與效果。他們的經驗同樣能夠幫助處於其它特殊情況下的IT組織獲得成功,甚至在日常條件中也依然適用。
打包與準備
對Robertory來說,專注於主幹意味著快速為援助工作者提供工作所必需的設備及連接機製。有時候,例如颶風桑迪來襲的情況,他能在一周之前就得到消息並著手準備,雖然災難的具體發生地點尚不明確。但在其它一些情況下,災難則出現得更加突然。
無論哪種情況,他都能及時把需要交付的設備準備就緒,從Windows筆記本到網絡裝置一應俱全。"大家在普通辦公環境下能看到的一切設備都會被打包整理,牢固的保護措施使其能第一時間被送往條件惡劣的災害現場。"
Robertory還將多種技術整合起來以確保自己的團隊能立即投入工作並快速執行任務。舉例來說,如果地麵電話線路無法接通,他們就能采用蜂窩或者衛星線路。在這套模塊化方案當中,他不僅將各類新技術添加進來,同時也保留那些在過去一直表現良好的傳統機製。
這些包裝箱將被發往災區,並在那裏成為由誌願者組成的現場IT團隊手中的利器。在努力對抗颶風桑迪的過程中,誌願者們在紐約州的懷特普萊恩斯的集合地建立起IT基礎設施,並利用衛星通信成功實現數據接入。設置工作後來轉移到了曼哈頓的一棟空置大樓當中,在那裏紅十字會終於可以使用現有網絡基礎設施進行通信。
每台設備都附有詳細說明,幫助誌願者們快速了解其使用方法。Robertory表示應急工作的目標需要非常明確,這樣才能防止誌願者們陷入越忙越亂的窘境。"我們製定了一條十五分鍾原則--如果某項任務令執行者十五分鍾還搞不清狀況,要麼立刻需求幫助、要麼幹脆放棄。我們需要始終進行有意義的嚐試,而不能把時間浪費在結果未定的工作中,這是我們獲得成功的秘訣,"他解釋道。
最高訴求--速度
這並不奇怪,速度已經成為大多數臨時IT組織的共同優先目標。如果大家心中還有懷疑,那請聽聽Michael Slaby的故事。
Slaby曾擔任奧巴馬2008年總統競選團隊的CTO,並在2012年奧巴馬爭取連任的競選中擔任團隊CIO。在這場為連任而奮鬥的戰爭中,他負責整個團隊的IT運營,從分析到安全事務無所不包。早在2011年他就已經投入工作,且整個2012年幾乎都在為此努力。他建立起一個在兩年間為成千上萬工作者提供服務的IT部門--但他知道這一切都將最終散去。
"挑戰在於,我們需要優化的對象與永久化企業組織有著顯著區別,"他表示。"這類機構很難提前規劃,不知道什麼時候會突然需要擴展規模,但有一點是肯定的--機構會逐步龐大且所有目標需要快速實現,因此我們必須在速度提升方麵絞盡腦汁。"
雖然速度如此重要,但Slbay仍然需要嚴格控製開銷。他還需要保證機構中的每個環節都運轉良好,並為整體組織的任務提供支持。"這能幫助我們贏得選舉嗎?這是我們衡量一切的重要標準,"他告訴我們。
Slaby指出,深入理解這些指標能幫助他在製定決策時始終以組織需求為第一考量。他建立起自己的工程與基礎設施團隊,確保雙方順利協作並按照需求快速將係統加以整合。他將以雲應用為代表的各類應用推廣到幾乎全部Web基礎設施當中,因為它們能提供他所需要的速度與穩定性。
這些準則還能幫助他決定哪些步驟可以跳過,即使這與標準化IT最佳實踐有所衝突--畢竟對於臨時機構而言,具體執行標準應當有所變動。舉例來說,Slaby雖然關注安全事務,"但並沒有執著於拿出一套完美的工具。"他並沒有設置全麵的災難恢複計劃,隻是為某些關鍵性係統配備了冗餘機製。另外,他也沒有為工作人員或誌願者提供培訓及發展規劃。"我們沒有時間處理這些事務,"他表示。他同時指出,具備廣泛知識儲備的人才往往比隻精通某一方麵的專家更具潛力,這是因為後者無法根據需求隨時變換角色。
技術團隊需要具備精深的專業知識,Slaby與其他幾位領導者達成了共識,因為臨時性IT機構同樣需要像永久性機構一樣處理運營事務。盡管基礎設施在壽命周期上有所妥協,但在臨時情況下使其順暢運作同樣非常重要。
舉辦奧運會
在擔任倫敦2012年奧運會及殘奧會CIO的四年任期當中,Gerry Pennell手下匯聚了四百位全職員工、兩千五百位臨時員工以及三千位誌願者,如此龐大的團隊共同在他的負責下為這場體育盛事提供IT支持。
2008年11月,他所領導的團隊剛剛完成北京夏季奧運會的IT服務工作。當時他手下隻有十幾名成員以及一部分由國際奧委會提供的人力支持。2012年11月,他終於勝利完成這場緊張激烈的技術攻堅戰。卸任之後,他一手建立起來的團隊將繼續為2016年在裏約熱內盧舉辦的夏季奧運會服務。
與其他CIO一樣,Pennell需要建立一套典型的辦公基礎設施,其中包括會計、電子郵件以及知識管理係統等項目。他還負責在運動賽事中實際使用的係統,並為來自世界各地的運動員代表團、記者、參與者以及狂熱粉絲提供技術支持。
除此之外,Pennell也貫徹了CIO的通行思路,即根據豐富經驗決定何時將新技術與更加成熟的應用相結合、何時購置現成設備以及何時自主開發任務工具。
"我的出發點是盡個人所能將風險降到最低,因此隻要沒有特殊的理由,我們肯定會優先選擇成熟可靠的技術方案,"他表示。Pennell還補充道,他可不想在全世界的注視之下鬧出大規模故障。
然而Pennell也並非一味抗拒新技術。他的團隊在移動係統方麵就吸納了大量新生方案,借以在倫敦的奧林匹克公園內建立起全世界密度最高的Wi-Fi服務網絡。
Pennell還指出,鑒於臨時性IT基礎設施短暫的壽命周期,他們幾乎沒有考慮為其搭配安全係統。"如果一項技術能夠順利工作一天,也就證明它有能力繼續工作一年--反過來更是如此,"他解釋稱。
然而壽命周期的縮短也影響到了項目的實施進度。與Slaby與Robertory相同,他所能支配的時間也並不充裕。"大多數機構都能按部就班進行設施部署與調整,"他表示。"但奧運會卻要求我們在開幕式當天將所有係統都準備萬全,這樣的要求顯然更難實現。"
為此,他從終端開始逆向實施部署,並通過實時測試確保一切組件都能在2011年夏季的初步執行中順暢工作。這樣的時間壓力即使對於最有經驗的IT部門也堪稱巨大,Pennell坦言緊張的時間安排是他所麵臨的最大挑戰之一。
"大多數IT部門都擁有長期配合經驗,了解自己該如何完成任務並具備可資指導的書麵方案。我們則是一窮二白,團隊中的成員也擁有非常複雜的從業背景--包括零售、銀行以及公共事業部門--完全沒有真正分享過處理問題的方法。另外,我們也沒時間在實施辦法上慢慢斟酌,由於周期緊迫、我們隻能把時間用在管理與溝通等更重要的方麵。"
Pennell告訴我們,在奧運會項目的進展過程中,管理工作涵蓋了階段性進展控製、為相關工作製定嚴格時限並需要確保每位參與者都真正理解自己的任務目標與角色定位。
在他看來,為奧運會服務是一段無比光榮的重要經曆,因此他團隊中的全職員工、臨時員工以及誌願者都充滿幹勁。不過他仍然需要通過管理機製保證IT部門擁有明確的角色及職責劃分,並以崗位描述與年度審查作為輔助。他們忽略了遠期目標設定,這一點完全可以理解,但Pennell和他的團隊的努力昭示了宏大項目如何在四年的執行周期中由理論規劃逐步走向現實,並最終為全世界觀眾呈現出異彩紛呈的夢幻賽事。
即使是在團隊解散之後,當初的參與者們也得到了有力支持。租賃來的設備被送還給供應商,采購的物品也回到當初的賣家手中,以備日後轉售或捐贈之用。機構還專門雇用了人力資源專家,幫助團隊成員將奧運會服務經曆寫入簡曆以找到理想的工作。
對於習慣了緊張充實工作氛圍的團隊成員來說,突然回歸平靜可能有點難以接受;但Pennell表示在奧運會中的出色表現證明了他們的強大潛能。在經曆了這樣高強度的工作之後,標準IT部門的日常運維任務將變得不再艱巨。
領導者箴言
來自第一線的建議:
"奧運會最偉大的力量之一在於幫助參與者建立起統一的目標,並共同追尋最終結果。這是一種精神層麵的動力,而不像其它項目那樣僅僅是份工作。另外:由於必須簡明扼要處理問題,我們順利避開了很多糾纏IT部門多年的陷阱,不必再為花裏胡哨的無用事物浪費資金和精力。這是值得學習的重要方麵。"
-- Gerry Pennell, 倫敦2012年奧運會及殘奧會CIO
"我們必須為自己的機構找到平衡點,即在敏捷性與穩定性之間折衷考量。我們傾向於在穩定性方麵多做努力,並不得不在創新領域做出妥協。如何找到平衡點?這可沒有什麼神奇的指導公式,不同的機構與不同的企業文化將引出完全不同的結論,因此大家需要在實踐中找到自己的理想方案。"
-- Michael Slaby, 奧巴馬2008年競選團隊CTO、奧巴馬2012年競選團隊CIO
"找到一種能幫助技術人員理解並切實完成任務的途徑。在災難應對工作中,我讓企業中的技術團隊感受到了前所未有的使命感與工作熱情。日複一日,他們把精力傾注在計算機維修等平淡小事上;但一旦進入災難環境,他們將與自己的救助對象麵對麵、並直觀了解自己的工作為他人帶來何等重要的幫助。相信每個人都能從中找到自豪感,並迸發出對工作的強烈熱愛。"
-- Keith Robertory, 美國紅十字會災害應對緊急通信經理
最後更新:2017-04-03 18:52:00