閱讀890 返回首頁    go 阿裏雲 go 技術社區[雲棲]


千奇百怪的數據庫故障

昨天阿裏雲在運維上出現了嚴重的事故,引發文件刪除,讓我想起這篇文章,補充再發出來。總有很多情形,你無法想象,數據庫的故障遭遇也是如此。


如果沒有完善的流程、規範,並且進行規範化的審核,那麼什麼故障都可能發生,人、流程和工具,必須要互相匹配,完美結合才能發揮最佳效應,而運維就是要瘋狂躲避各種坑。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

分享幾則我們遇到過的客戶恢複故障,與大家共為警醒,注意這些都是真實的案例:

  1. 服務器找不到了

    某次客戶找我們恢複數據庫,說某個數據庫出現故障,原本以為不再需要了,現在還需要其中的數據,可能是時間太久遠了,工程師到現場後,客戶說服務器找不到了,就算了。

    三個月後,客戶來電說,服務器找到了,我們又去幫用戶恢複了數據。

  2. 服務器搬走了

    某次客戶數據庫故障,檢查發現,是RAC的某個節點服務器被搬走了,以為不用了,鬱悶的是,斷電還導致了ASM磁盤頭損壞,還好11g修複ASM磁盤頭很簡單,迅速幫助用戶恢複了數據庫運行,再搬回服務器,加入節點。

  3. 磁盤搬走了

    也是今年的某個客戶,新上線服務器,客戶找了一塊以為不用的磁盤,強製拉過來格式化,發現另外一個業務庫應聲倒下了。

  4. DBA走了

    最近提到過的一個客戶,因為把DBA解雇掉了,結果,DBA偷偷上來把整個庫給刪除掉了,業務掛了很久很久。

  5. 網線拔了

    這是2015的案例,在業務高峰,新上一個交換機,網絡運維把生產數據庫的網線拔了,影響業務10分鍾。這是金融業務,據說客戶的人都跑到機房,機房滿員。

  6. 磁盤故障

    這也是2015年的新案例,客戶的存儲工程師劃分給數據庫ASM的磁盤小於請求容量,數據庫文件擴展時越界產生了故障。這是隊友埋的坑。


同誌們,Oracle是堅強的,但是數據安全是脆弱的,警惕隨時可能發生的故障,不斷強化數據安全,加強運維規範化,如何都不為過。


本文出自數據和雲公眾號,原文鏈接


最後更新:2017-07-18 12:03:10

  上一篇:go  學習設問以提高
  下一篇:go  Oracle 12c ASM 防範異常的恢複增強