閱讀827 返回首頁    go 英雄聯盟


運維和運營__產品簡介_推薦引擎-阿裏雲

告警監控

作為生產係統,RecEng需要能夠及時發現係統中的異常並給出告警。RecEng目前主要支持三種異常的告警:

1.對計算過程中的異常給出告警。如運行出錯這樣的異常,這種告警由RecEng的任務調度係統發出

2.對數據中出現的問題進行告警。如空值比例太高,或存在不符合業務邏輯的數據等等,這種告警由RecEng的質檢算法發出

3.客戶自定義告警。客戶可以在自定義離線算法中自定義告警

RecEng的告警基於阿裏雲提供的雲監控服務,目前RecEng和雲監控服務兩個產品相對獨立,客戶需要自行開通並配置雲監控服務,獲得雲監控服務的代碼(code),並將其登記到RecEng即可。當異常發生時需要通知到的人員列表在雲監控服務中配置當係統檢測到異常發生時,RecEng支持以短信、郵件、電話等方式通知到相關人員,第一時間給出告警。關於在RecEng中如何配置雲監控,請參考【鏈接】,下圖給出了配置告警監控的過程示意。

alertpic

質檢算法

質檢算法依賴於推薦算法,不同的推薦算法對於數據的要求有所不同。質檢算法的輸入是一張或一組標準表,根據算法對數據的要求進行檢查。從實現的角度看,質檢算法是可以內置在推薦算法中的,在執行推薦邏輯之前對輸入數據進行檢查,這也是通常的做法。RecEng之所以把質檢算法獨立出來,主要出於以下兩個考慮:

1.許多算法對數據的要求是類似的,獨立出來能夠減少開發的工作量。

2.數據質檢在前期重要性比較高,因為流程可能磨合的不太順暢,加載更多的質檢算法有利於幫助發現問題;後期可以隻針對輸入數據進行質檢,中間數據質檢的重要性可能不是很高,可以省略掉,一方麵能夠加快速度,另一方麵也能降低計算成本。

最後更新:2016-11-23 17:22:09

  上一篇:go 測試__產品簡介_推薦引擎-阿裏雲
  下一篇:go 係統規格__產品簡介_推薦引擎-阿裏雲