閱讀821 返回首頁    go 阿裏雲 go 技術社區[雲棲]


服務器內存錯誤導致係統藍屏死機

上周接浦東一客戶報服務器頻繁藍屏並死機,導致DHCP等該服務器承載的服務停止運行。客戶服務器型號為聯想萬全R510,操作係統使用正式版windows server 2003 SBS。
 
 
接客戶報告,赴客戶處現場勘察。得知服務器在未經非授權操作及誤操作的情況下自然死機,並藍屏。記錄藍屏錯誤代碼0x000000d1 (0xc5f32820, 0x00000002, 0x00000008, 0xc5f32820)。
首先懷疑軟件問題導致藍屏錯誤並死機。1.確保所有驅動程序可靠;2.刪除serv-u等服務器應用軟件,僅保留反病毒軟件Mcafee和數據庫SQL;3.保證服務器已更新並安裝windows2003更新文件。後運行觀察。(或運行於安全模式下)
 
第二次:次日接客戶報告,反映服務器發生同昨日故障。赴客戶現場勘察。確定錯誤狀況和昨天相同。記錄藍屏錯誤代碼0x00000050 (0xc1e1e2a0, 0x00000000, 0xbf899f25, 0x00000000)。
通過在查詢相關錯誤代碼信息,發現0x000000d1和0x00000050 錯誤大部分發生於服務器內存硬件問題,且由於昨天已基本排除服務器軟件因素。在致電聯想北京和微軟進行相關支持後,更加明確此服務器內存故障的可能性。故立即聯係聯想北京總部,確定次日上午10點安排聯想技術工程師協助進行硬件檢測。
 
按照約定於10點到達客戶處,與聯想技術工程師俞先生對服務器內存進行檢測,使用工具memtest。果然在檢測剛剛開始便不斷提示內存錯誤並報警。在與聯想總部說明情況並安排發送內存備件後,與俞先生約定次日上午更換內存。
 
按照約定時間到達客戶處,與聯想分銷商技術人員更換服務器內存。並進行測試,使用工具memtest,這次檢測過程順利結束。在重裝相應服務器應用軟件後運行觀察。
 
第五次:隔日沒有接到客戶報告,VPN連接到客戶網絡,遠程連接服務器,檢查事件日誌,服務器運行一切正常。
 
至此,本次服務器事故解決。
 
寫在最後:由於此次事故中服務器剛剛采購不足1個月,因此一開始對硬件問題並不重視,導致直到第三次現場服務才最終確定是內存問題,花費的診斷成本較高。藍屏錯誤代碼是估斷問題很重要的線索,由於整串代碼後4組在各個環境中都不相同,因此隻需查詢第1組的代碼翻譯。

最後更新:2017-04-02 00:06:30

  上一篇:go [備忘]windows 下 mailslot 接收不到的問題
  下一篇:go 據傳微軟麵試題(一)