閱讀780 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一2.1 基本概念和術語

本節書摘來異步社區《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一書中的第2章 ,第2.1節,紀賀元 著 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

2.1 基本概念和術語

2.1.1 基本概念

有關統計和數據挖掘的概念很多,以下揀選一些常用的基本概念進行說明。
1.統計與挖掘
“統計”,對於讀者來說可能並不陌生,在“統計”、“挖掘”這兩個概念中,可能大家往往會覺得“挖掘”更難理解。統計和挖掘最大的差別在於:統計是事先設想好的一個動作,然後去驗證它。例如先假設銷售收入和銷售投入之間有關係,公司多投錢給推銷人員去拜訪客戶,就能獲得更多的用戶和訂單,銷售收入就能上升,然後我們用統計的模型去驗證它。
另外的一個例子是:社會大眾都認為吸煙是導致肺癌的重要原因,然後大家找來了一些肺癌患者的相關數據,研究表明,同樣是吸煙者,有的人得了肺癌,但是很多人卻沒事,並且一些從來不吸煙的女性也有得肺癌的。這樣,大家慢慢開始懷疑肺癌和吸煙之間的正向關係。或者簡單地說,對於這個例子,統計分析的結論是固定的:隻有兩種可能,一是肺癌和吸煙有關係,二是無關!
那麼數據挖掘是怎麼樣的呢?
曾經有炒股票的大戶給了我們很多數據,包括股票是否漲停、是否放量、前幾天的各種指標,涉及KDJ、RSI、MACD等,客戶希望我們幫他確定:具有什麼樣特征的股票是比較容易漲停的?這個需求怎麼實現後麵再說,這裏想要說明的是,在分析這個數據之前,是沒有“假定”的,我們不知道最後做出來的結果是什麼樣的。這就是數據挖掘,從大量的數據中通過各種方法找出隱藏於其中的信息。
2.平均值
平均值似乎是一個無須講的東西,但是實際上在數據量大的情況下,平均值反映的是一個數據“應該”是什麼。記得之前曾看過一份報告,說上海成年男性的平均身高是170.5厘米,那份報告的樣本量是比較大的,實際上就是說上海男性的身高“應該”是170.5厘米。
3.標準差
如果說平均值反映了數據的“中軸線”,那麼標準差就反映了數據的波動情況,也就是說數據是波瀾不驚還是起伏不定。
“平均值+標準差”仿佛就是一對結義兄弟,焦不離孟、孟不離焦,我們經常用這個組合來衡量數據的變動範圍,如圖2-1(數據的平均值和標準差分布圖)所示。
4.正態分布
說起正態分布,我自己都有點犯難,因為正態分布是理論性比較強的,這本書的初衷是側重應用而不是理論。不過正態分布實在是重要,它貫穿了統計分析的全過程,幾乎無處不在,正態分布如同統計分析中繞不過去的一堵牆,因此還是需要解釋一下。

image


理解正態分布,就從這個例子開始:90年代末的時候,移民還比較容易,那時很多人都選擇了移民,那麼,我們現在來看看當時移民到美國、加拿大的人過得怎麼樣吧!大致梳理了一下,得到如下結論:
混得好的:很少,應該說是極少數。在當地大企業裏麵做得不錯,沒幾個;自主創業成功的,好像沒有。當然這裏說的自主創業是正兒八經的創業,開中國餐館個人認為不算創業。
混得一般的:大多數,就是在企業裏麵有一個普通的職位,算不上有錢,但是溫飽不愁。
混得差的:也是少數,有一些人回來了,或者在那邊就是幹司機、導遊或體力活,這裏絲毫沒有瞧不起這些職業的意思,但是對於在國內受過良好高等教育的人來說,算是專業不對口吧。
簡單地講,就是混得好的和混得很差的都很少,大多數都是普普通通。
其實這種規律在工作和生活中大量存在,如果跟蹤統計一下大學畢業生的發展情況,大致也是這樣;老百姓的體重、身高、血壓、血糖等的分布都是如此。這種規律就是我們經常提到的正態分布。
如果把這個規律稍微講得形象一點,就是“兩頭小,中間大”,請見圖2-2(數據的頻率和正態分布圖)。
讓我們簡單地看一下正態分布的規律:
1)兩邊基本是對稱的。


image


2)形狀像一個倒扣的“鍾”。
3)高峰在中間,越到中間,數據分布的概率越大,越到兩邊,概率就越小。
這個看上去很簡單的正態分布,其實就是統計分析的重要基礎,實際上很多統計規律都是建立在數據正態分布的基礎上的。或者說,如果數據不是正態分布的,那麼很多統計規律則是不成立的。
根據正態分布的規律可以得到,絕大部分(95%)的數據,是分布在居中的位置上的,隻有很小概率的事件分布在正態曲線兩側,這個就是假設檢驗中的單側和雙側,如圖2-3所示。

image


5.峰度和偏度
峰度和偏度算是數據分析中比較專業的概念了,峰度反映的是數據中極值的情況,請看圖2-4峰度的數據。

image

在圖2-4中,極值是-10的時候,KURT函數結果為21.86,下麵觀察一下當極值範圍在-10和10之間時,KURT函數的取值結果,如圖2-5所示。

image


從圖2-5可以看出,當極值與原值的取值範圍比較接近的時候,峰值會接近於0,而極值與原值的範圍差距比較大時,峰度值會變大,但是無論是正極值還是負極值,峰度的最大值都是23左右。
偏度是衡量數據對稱性的一個重要指標,EXCEL中對應的函數是SKEW,它用於比較對象正態分布曲線,如圖2-6所示,這是一個左偏的數據圖。


image


在圖2-6中,數據明顯左偏,其偏度值為0.346,再來看看圖2-7,這是一個右偏的數據圖。

image


在圖2-7中,數據的偏度為-0.098,此時數據明顯右偏。因此根據偏度值判斷數據對稱性的規則如下:
數據服從正態分布,偏度為0。
數據左偏,偏度>0。
數據右偏,偏度<0。
6.連續和離散
連續變量和離散變量是數據分析中經常碰到的概念,所謂連續變量就是一個區間裏可以任意變化的量,例如國民收入在0~100萬之間波動時,每一個值都是可以取到的;離散變量就是隻能取很少數的幾個值,例如性別,就是男和女;大氣霧霾的等級是優、良、中、輕度汙染、重度汙染、爆表。
離散變量內部也有區分,圖2-8所示為離散型變量的分類。


image


二元離散量的例子很多,例如醫生關心患者是否得病,“得病”和“不得病”就是二元離散的;企業關心客戶的購買行為,“買”和“不買”也是二元離散的。
隻要離散變量超過兩個,就是多元的,在“多元名義離散量”這個概念中,“名義”這兩個字其實挺難理解的,它的英文是nominal,意思是有多個變量,但是變量之間並沒有明確的排序關係,例如企業品牌之間的關係,寶潔有飄柔、伊卡璐、潘婷、海飛絲等品牌,我們很難說這些品牌之間有明確的排序關係。再例如,在研究城市的經濟發展時,北京、上海、南京、武漢、南寧這些城市之間,也很難說有明確的排序關係。
多元有序則不然,現在國內空氣質量不好,考慮PM2.5指數,有“嚴重汙染”、“中度汙染”、“輕度汙染”、“良”、“優”這五個檔次,見表2-1。

image


類似於表2-1這種有多個並且之間可以明確排序的變量就是多元有序。
7.因變量和自變量
因變量,一般指的是我們研究和關心的變量,自變量一般就是其發生變化後會引起其他變量變化的變量。
因變量和自變量說起來很容易,但是在實際的數據分析中,學員往往會容易混淆。
我在上課的時候,經常舉到一個“銷售收入和銷售費用”的例子,並且提出了一個判斷因變量和自變量比較簡單有效的原則,即:時間上靠前的就是自變量,時間上靠後的就是因變量。在實際銷售工作中,通常是先有銷售費用,然後去推銷,然後再有銷售收入,因此銷售費用是自變量,銷售收入是因變量。

最後更新:2017-06-22 16:01:53

  上一篇:go  《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一2.1.2 術語
  下一篇:go  《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一第2章