千奇百怪的數據庫故障
昨天阿裏雲在運維上出現了嚴重的事故,引發文件刪除,讓我想起這篇文章,補充再發出來。總有很多情形,你無法想象,數據庫的故障遭遇也是如此。
如果沒有完善的流程、規範,並且進行規範化的審核,那麼什麼故障都可能發生,人、流程和工具,必須要互相匹配,完美結合才能發揮最佳效應,而運維就是要瘋狂躲避各種坑。
分享幾則我們遇到過的客戶恢複故障,與大家共為警醒,注意這些都是真實的案例:
-
服務器找不到了
某次客戶找我們恢複數據庫,說某個數據庫出現故障,原本以為不再需要了,現在還需要其中的數據,可能是時間太久遠了,工程師到現場後,客戶說服務器找不到了,就算了。
三個月後,客戶來電說,服務器找到了,我們又去幫用戶恢複了數據。
-
服務器搬走了
某次客戶數據庫故障,檢查發現,是RAC的某個節點服務器被搬走了,以為不用了,鬱悶的是,斷電還導致了ASM磁盤頭損壞,還好11g修複ASM磁盤頭很簡單,迅速幫助用戶恢複了數據庫運行,再搬回服務器,加入節點。
-
磁盤搬走了
也是今年的某個客戶,新上線服務器,客戶找了一塊以為不用的磁盤,強製拉過來格式化,發現另外一個業務庫應聲倒下了。
-
DBA走了
最近提到過的一個客戶,因為把DBA解雇掉了,結果,DBA偷偷上來把整個庫給刪除掉了,業務掛了很久很久。
-
網線拔了
這是2015的案例,在業務高峰,新上一個交換機,網絡運維把生產數據庫的網線拔了,影響業務10分鍾。這是金融業務,據說客戶的人都跑到機房,機房滿員。
-
磁盤故障
這也是2015年的新案例,客戶的存儲工程師劃分給數據庫ASM的磁盤小於請求容量,數據庫文件擴展時越界產生了故障。這是隊友埋的坑。
同誌們,Oracle是堅強的,但是數據安全是脆弱的,警惕隨時可能發生的故障,不斷強化數據安全,加強運維規範化,如何都不為過。
本文出自數據和雲公眾號,原文鏈接
最後更新:2017-07-18 12:03:10