閱讀224 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一1.1 一眼就看到結論還需要數據分析嗎

本節書摘來異步社區《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一書中的第1章 ,第1.1節,紀賀元 著, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

1.1 一眼就看到結論還需要數據分析嗎

在我做數據分析培訓和谘詢的時候,時不時會有學員或者客戶流露出這樣的情緒:
我們的企業其實是不需要數據分析的。
我們公司的業務情況,我很清楚,分析不分析都那樣,反正我都知道了。
公司的數據好簡單啊,就那麼幾列,有啥好分析的。
公司裏麵的很多數據都是造假的,沒有分析的價值。
在以上問題中,除了數據質量,其他問題都與企業數據的可分析度有關。數據質量確實是數據分析很難解決的問題,如果企業員工出於種種原因總是在編造各種假數據,這應該屬於職業道德或者企業管理水平(企業應該通過嚴格嚴謹的管理流程使得員工無從造假)的範疇,這裏暫且不討論。那麼,什麼是數據的可分析度呢?
這個問題實際上包含如下兩層意思:
1)這個企業的數據是比較複雜的,一眼是看不到結論的,需要使用一些工具、模型、方法進行分析。
2)關於數據的分析是有價值的,也就是說分析的過程和結論對於企業是有價值的,能夠對企業的生產經營等帶來促進和提高。
因此,在數據的可分析度方麵,我們需要有一些判斷的維度,以幫助我們辨識數據是否值得分析,這裏所說的維度主要考慮企業數據量、數據複雜度、數據顆粒度這三個方麵(如圖1-1所示)。


image

1.1.1 企業數據量

企業數據量是企業可分析度的第一要素,企業數據量的大小往往取決於兩個因素:
一是企業的行業屬性,二是企業的信息化程度。眾所周知,互聯網行業往往也是產生大量數據的行業,“BAT”不僅僅引領了各自行業的發展,同時也是數據行業發展的標杆。
一般情況下,企業的數據量跟企業的規模呈正相關關係,中等以上規模的企業數據量均比較大。但是也有例外,我曾經接觸過一家從事智能手機操作係統推送業務的公司,該公司規模很小,隻有40多人,但是由於合作方是國內諸多智能手機的生產企業,因此該企業的手機用戶數量有3000多萬,每天產生的業務數量高達幾GB。

1.1.2 數據複雜度

如果說數據量相當於數據的行,那麼數據複雜度就相當於數據的列。某公司營銷部曾給我發來的數據樣例,總共的列數加在一起是12列。該公司要求分析客戶數據,但是涉及客戶資料的數據基本上就是客戶名稱、客戶行業(行業數據還是不全的)這兩列,客戶注冊資本、銷售收入、雇傭人數都沒有,怎麼分析?
做過數據分析的人肯定都知道“巧婦難為無米之炊”的苦楚!請想想,你提供的客戶數據就是寥寥數列,那要怎麼去分析?怎麼做文章?
到目前為止,並沒有什麼明確的指標來度量數據量與數據複雜度,我們很難說每天的數據超過3萬行就算數據量多,或者說數據超過30列就算數據複雜。特別是數據複雜度,這中間還有一個數據相關性的問題:以案例文件1.1為例,雖然其中的數據是3列,但是用EXCEL自帶的“數據分析”模塊中的“相關分析”進行分析(相關係數的函數,後麵會詳細講解),我們發現第二列“銷售數量”和第三列“銷售額”之間的相關係數是1(完全相關),如圖1-2所示。


image


從數據分析的角度看,這裏實際上是兩列數據而不是3列,換句話說,第3列的銷售額數據屬於“衍生指標”,因為單價30是固定的,我們隻需要用銷售量這個數據就可以反映銷售的狀況。
因此通過數據的列數來衡量數據複雜度其實也未必準確,而是應該看剔除相關性之後的列數。

1.1.3 數據顆粒度

數據顆粒度指的是從不同的層次來看待數據。很難用語言來形容數據顆粒度的重要性,還是通過一個例子來說明一下。炒過股票、用過股票軟件的人都知道各種周期的分析(如圖1-3所示)。


image


從圖1-3可以看出,股票有1分鍾、5分鍾、15分鍾、30分鍾等多個觀察周期,而各種周期之間存在著相互包含的關係,例如5分鍾的周期線實際上是由5個1分鍾的周期線組合而成的,而15分鍾的周期線是由3個5分鍾周期線組合而成,以此類推。因此,我們說股票數據的顆粒度是:1分鍾、5分鍾……
其他顆粒度的例子還有很多,例如在分析各地GDP的數據時,涉及全國、省、市、區(縣)等顆粒度;考慮家電產品的維度時,也有家電、白色家電、冰箱、型號等顆粒度。
理解了顆粒度之後,就很容易理解如下道理:數據的顆粒度越細越好,因為有了細顆粒度的數據,就可以自行組合成顆粒度比較“粗”的數據。例如我們知道了全國各個區(縣)的GDP數據,就可以推算出市、省、全國的數據,但是反向的操作無法實現,即知道了市的GDP數據,未必能夠知道下轄區(縣)的GDP數據。
綜上所述,可以得到如下結論:企業數據量比較大的、複雜度比較高的、顆粒度比較細的數據,就有比較高的分析和利用價值。

最後更新:2017-06-22 15:31:59

  上一篇:go  《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一1.2 數據分析能給我們帶來什麼
  下一篇:go  【DevOps&SRE活動實錄】經驗+案例,教你如何打造易用DevOps工具鏈!