閱讀565 返回首頁    go 中電雲集


IT基礎設施運維係列故事之監控與故障

個網絡社區的發展大致經曆這樣的階段:創立、推廣、成熟、衰落,這裏麵的涉及到三種經常在社區活動的人群:網友、斑竹、社區管理層,這些人群是社區的共生係統,而斑竹在這套體係中卻起著核心的作用。我們的主人公就是一位混了10年論壇的IT精英人士,雖然已經不再當擔任斑竹了,但通過他轉發過來的一些IT運維管理的論壇“精華貼”,從中我們不難發現,IT運維管理其實還真不是一件容易的事。
  IT運維管理論壇十大雷人回複
  1) 我這邊的綜合業務係統運行在Windows Server服務器上,每次重新啟動之後感覺運行速度還可以,但運行一段時間就感覺緩慢異常。一直找不到問題,雖然重新啟動能讓用戶繼續訪問,但這也不是辦法呀…(回帖:你可以設定一個腳本,每天重新啟動就行了)
  2) 外地辦事處的員工總反映到總部網絡訪問時斷時續,我讓他們停止了所有的下載操作,但網絡緩慢的問題從路由器、防火牆、核心交換上我都看不出問題所在…(回帖:你讓他們搬回來就行了)
  3) 公司的文檔控製服務器的公用磁盤總是時不時的“爆滿”,由於這台服務器還有郵件服務的角色,除了磁盤配額限製之外,我想在撐滿磁盤之前就刪掉臨時文件,不然郵件服務會停止…哪位高人有招?(回帖:本公司銷售各種服務器原裝硬盤,為您解憂是我們服務的宗旨。)
  4) 之前我發現運維的活計其實挺輕鬆的,看看日誌,如果沒問題就OK。現在的問題是,我們服務器已經到了100台了,我每天就是日誌,然後還是日誌…活不下去了…(回帖:不用看日誌,等著,哪台上不去了就修那個,我試過,這樣能加薪)
  5) 一套核心係統的Oracle數據庫,在業務高峰期常常出現數據庫響應非常緩慢的現象。發生故障的時間通常出現在上午11 點左右和下午16~17 點左右。在出現故障時,對數據庫的任何操作,包括連接數據庫都非常緩慢。故障通常持續幾分鍾至十幾分鍾,之後就自動恢複正常。求優化思路…(回帖:采用北京市機動車限號機製,完全可以解決你的問題。)
  6) 新來的頭兒,告訴我網絡中斷10分鍾就扣錢,扣XXX,我X。誰能說出網絡不斷的方法,雙鏈路除外…(跟帖超過100樓,不過都是罵街的多)
  7) 一朝天子一朝臣,集團CIO換了10多位了,來個新O就賣一堆設備,還什麼牌子都有,哥們看手冊看的頭大,還寫多P監控腳本,誰有招寫一個腳本都管起來,我看CPU、內存就行,跪求…(等你當O了,都給它們換成一個牌子的。)
  8) 我這10樓的主任反映上不去網,其他人有的行,有的不行,我一賭氣把樓層交換機上閃得利害的燈所對應的網線拔了,但別人還是上不去(跟帖多為“先都拔了,一個一個在插,就能找到了”)
  9) ERP一直穩定,後來上了一個新的LIMS質量控製係統,訪問就出現問題了,但也不是總有問題。網絡問題?ERP服務器問題?LIMS係統問題?(回帖:樓主是買藥的,黑心人的事。經過我們查證,LIMS係統確實醫療行業的應用軟件)
  10) 1樓:網慢?2樓:我比你慢…3樓:我比沙發慢…
  別總拿IT係統故障說事兒
  設備繁雜多變、網絡緩慢、核心業務服務器宕機、資源負載到達極限、子業務係統出現故障、網絡故障頻頻、海量的係統日誌……等等。從論壇帖子中的提問到一條條的回複,我們看到了很多無奈、無助,有笑談也有可悲,而這也恰恰說明了IT運維管理包含的內容有時候超出了技術人員的“一個人戰鬥”的範疇。從技術人員的角度上來說,故障管理才是他們最為關心的。但從企業管理者的角度上看,更多的則是管理觀念如何落實,既讓IT技術人員從疲憊的狀態下解脫出來,又能實現永不間斷的目標。
  你我都希望自己的 IT 係統能夠7×24小時不間斷運行,或者達到99999的可用性標準,但這種情況幾乎是不可能的。為何呢?IT係統故障是不可抗拒的因素。任何計算機係統都會有出現故障的時候,可能發生在測試階段,也可能發生在係統剛剛上線,還可能發生在已經穩定運行很多年的係統上,又可能發生在係統一個小小的升級之後。而這些係統出現故障所帶來的負麵影響則可大可小,小到一個終端的軟件無法使用,大到整個係統癱瘓,所有業務不能辦理。但如果一個IT部門別總拿IT係統故障說事兒,也顯得太敷衍了事,因為這是作為與不作為的問題。
  以論壇上的哪些事來說,上來就談一些先進的管理理念,如ITIL、ITSM、BSM,這就成了“灌水帖”了。我們知道,企業業務係統的穩定性提出了越來越高的要求,因此,對於承載這些業務係統的基礎架構,監控到不到位才是IT運維管裏的立足之本。從這些帖子中不難發現,現在的IT環境極難控製,桌麵、網絡設備和服務器管理的成本非常高,發帖者在故障麵前普遍顯得很被動。因此,要分析出網絡為何慢?數據庫為何慢?何時服務器達到了負載的極限,這些都需要一個長期監控的結果,沒有監控的數據,就談不上優化。當然,由於缺乏工具和資源,應用程序和服務的整體運行狀況是未知的,我們也就無法及時恢複故障。
  北塔軟件的孫永傑先生也是一位網絡社區的明星人物,他認為:“在IT部門還依然被動的情況下,麵對時而發生的IT故障和問題時會變得越來越沮喪,管理員不知道向誰尋求幫助,在四處發帖求救時,故障本身卻在那裏依然存在。此階段的用戶最希望的是把網絡、路由器、交換機、服務器等納入一個監控平台上進行管理,保證其運行不出問題。當然,實現IT基礎設施監控的目標不僅基於當下的情況,因為這將使得IT部門可以立足長遠。”
  故事的主人公沒有了當初的狂熱,浮躁,多了幾許成熟、從容與淡定。可真的要去重操舊業,當這個IT管理論壇的版主,心裏還真是發虛。他深信,也許有一些人已經籌措了整套的想法,但管理手段(一個電話或一封郵件)和工具落後,仍會導致很多故障反複出現。如果在上百台服務器和幾十個業務係統麵前,依然讓他用手工的方式去運維,必然導致自己砰然“發飆”。

最後更新:2017-01-04 22:34:39

  上一篇:go FreeBSD管理交換設備
  下一篇:go 菜鳥SEO:分析狼雨SEO傑作hz67.com