閱讀438 返回首頁    go 阿裏雲 go 技術社區[雲棲]


大數據分析模型到底需要滿足哪些條件?

無論在報紙、雜誌、機場媒體,還是在酒吧的閑談中,大數據都成了一個熱門話題。每個人都在談論這個時尚的話題,但迄今為止隻有極少數企業真正成功的運用這一技術!導致這一情況的重要原因就是企業對建立可操作的大數據分析模型成功關鍵因素缺乏深刻的認識。結合多年來與多家全球性公司合作經驗,我們認為:為了取得成功,大數據分析模型需要滿足如下幾種要求:

(1)業務相關性。業務相關性是對分析模型的第一個關鍵要求。分析模型必須能夠解決特定的商業問題。那些性能優越,卻不能解決商業問題的模型是毫無意義的。顯然,在模型開發前,對商業背景和業務問題有全麵的理解必不可少。例如,在保險欺詐檢測問題中,必須在一開始對如何定義、衡量和管理欺詐有清晰的界定。

(2)統計性能。影響模型成功的另一個重要關鍵因素是模型性能表現。換句話說,從統計意義的角度,分析模型應該顯著提高預測或描述的性能。根據分析問題的類型不同,常常采用不同類型的性能評價指標。在客戶細分,統計評價指標主要評價對比簇內的相似性與簇間的差異性;在客戶流失預測中,主要評價模型是否賦予了潛在流失客戶的較高得分。

(3)解釋性和合理性。解釋性是指分析模型容易為決策者所理解,合理性是指模型與專家的預期和業務知識相一致。解釋能力和合理性都是主觀判斷,取決於決策者的知識和經驗。這兩個因素與統計性能分析之間常常是矛盾的,譬如:複雜神經網絡和隨機森林模型預測性能較好,但是解釋性較差。所以,決策者需要在兩者之間尋找平衡點。在信用風險分析等應用場景中,解釋性和合理性是非常重要的因素,而在欺詐檢測和營銷響應建模中,這一因素就不是那麼重要了。

(4)運行效率。運行效率涉及模型評估、監測、檢驗及重建過程中所需投入的時間。從這個因素來看,很明顯的神經網絡或隨機森林效率較低,而回歸模型和決策樹等更有效率。在信用卡欺詐檢測等業務場景中,運行效率是非常重要的,因為所有的決策必須在信用卡交易開始後幾秒鍾內完成。

(5)經濟成本。經濟成本是收集模型所需數據、運行模型以及分析模型結果的過程中所投入的成本,此外還包括引入外部數據和模型的成本。在分析模型的經濟回報時,所有的這些成本都必須考慮在內,通常不是能簡單直接計算出來的。

(6)合規性。在很多行業中,合規性變得越來越重要。合規性是指模型對現有製度和法律的遵從程度。在信用風險領域,分析模型符合巴塞爾協議II和III的規定尤其重要。而在保險行業中,模型則必須遵從歐盟償付能力協議(Solvency II) 。

總結以上,在本博客文章中,我們簡要論述了成功構建數據分析模型的關鍵因素。如我們所指出的那樣,每個因素的重要性取決於模型應用場景。

本文轉自d1net(轉載)

最後更新:2017-07-17 16:42:22

  上一篇:go  2017年智慧城市六大發展方向暢想
  下一篇:go  2016中國互聯網10大現象:大數據產業快速推進