閱讀413 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《大數據分析原理與實踐》——第3章 關聯分析模型

第3章

關聯分析模型

關聯分析用於描述多個變量之間的關聯。如果兩個或多個變量之間存在一定的關聯,那麼其中一個變量的狀態就能通過其他變量進行預測。關聯分析的輸入是數據集合,輸出是數據集合中全部或者某些元素之間的關聯關係。例如,房屋的位置和房價之間的關聯關係或者氣溫和空調銷量之間的關係。

關聯分析主要包括如下分析內容:

(1)回歸分析
回歸分析是最靈活最常用的統計分析方法之一,它用於分析變量之間的數量變化規律,即一個因變量與一個或多個自變量之間的關係。特別適用於定量地描述和解釋變量之間相互關係或者估測或預測因變量的值。例如,回歸分析可以用於發現個人收入和性別、年齡、受教育程度、工作年限的關係,基於數據庫中現有的個人收入、性別、年齡、受教育程度和工作年限構造回歸模型,基於該模型可以根據輸入的性別、年齡、受教育程度和工作年限預測個人收入。

(2)關聯規則分析
關聯規則分析用於發現存在於大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。關聯規則分析的一個典型例子是購物籃分析。該過程通過發現顧客放入其購物籃中的不同商品之間的聯係,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商製定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基於購買模式的顧客劃分。

(3)相關分析
相關分析是對總體中確實具有聯係的指標進行分析。它是描述客觀事物相互間關係的密切程度並用適當的統計指標表示出來的過程。例如,在經濟學中,如果一段時期內出生率隨經濟水平上升而上升,這說明兩指標間是正相關關係;而在另一時期,隨著經濟水平進一步發展,出現出生率下降的現象,兩指標間就是負相關關係。

相關分析與回歸分析在實際應用中有密切關係。然而在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關係的函數形式。而在相關分析中,所討論的變量的地位一樣,分析側重於變量之間的種種相關特征。例如,以X、Y分別記為高中學生的數學與物理成績,相關分析感興趣的是二者的關係如何,而不在於由X去預測Y。

最後更新:2017-09-19 14:32:38

  上一篇:go  阿裏雲MVP Meetup極客開跑,與MVP一起玩轉雲計算
  下一篇:go  機器學習中Bagging和Boosting的區別