《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一3.1 數據采集的幾條重要原則
本節書摘來異步社區《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一書中的第3章 ,第3.1節,紀賀元 著 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。
3.1 數據采集的幾條重要原則
3.1.1 要足夠“複雜”
先說一個跟客戶接觸的例子。一個國企學員課間休息時來問我:“老師,我們領導經常批評我,說我們寫的工作報告(數據報告)太簡單了,你能看看我們寫的報告嗎?”我到他電腦前麵看了一下,報告確實挺簡單的,感覺就是幾百個字吧,再看看數據,大概隻有6列的樣子,難怪領導不滿意。
可見,在采集數據的時候,必須要注意數據的複雜性,如同1.1節所說,要綜合考慮數據量、複雜度、顆粒度等因素。
都說通過實例說明體會更深,下麵再來看另一個例子。數年前,我參與了一家建築塗料公司發展規劃的製作,該公司希望通過對各種信息數據進行分析,從而對未來5年中國的產品發展市場份額有一個整體規劃和了解。
讓我們看看他們收集了哪些數據,如圖3-1所示。
可以看到,要收集的數據不少,但事實上,想要搞清楚企業在未來數年中可能出現的市場態勢,即使這些數據都能夠順利找到,可能仍然是不夠的。
3.1.2 要足夠“細”
“細”實際上就是顆粒度的意思,稍微有點數據收集經驗的人大概都知道,要收集年度的數據其實相對比較容易,如果粒度為季度,可能就會有點問題了,到月則很難了,至於每周的數據,那就更不要想了。
不過,也不是每個公司都如此,曾有證券公司做定量分析的人說過,證券數據分析雖然不好做,但是有一點好,起碼不用為數據發愁,因為證券係統可以提供最細到1分鍾的數據,自然,任何周期的數據和指標都可以自己計算得出。
3.1.3 要有“跨度”
這裏講的“跨度”涉及兩個方麵,一是數據的時間跨度;二是數據的屬性跨度。
中國有句老話就是“路遙知馬力,日久見人心”,在數據方麵也是如此。數據的時間跨度有時候也稱為“數據年齡”,對於同樣的數據指標而言,若“數據年齡”分別為5年和1年,差距其實是挺大的。數據年齡越長,往往越能說明問題。
屬性跨度稍微難理解一點,實際上就是盡量要找不同的數據,如圖3-1,我們找了宏觀經濟的數據,例如GDP、經濟發展增速;也找了全國人口變遷、流動的數據,還找了競爭對手市場占有率的數據等。總之,所找的數據越“雜”,數據跨度就越大,往往也就越能說明問題。
3.1.4 要有可行性
數據收集的一個重要思考維度就是可行性,做過數據采集的人都知道,有時候數據采集的難度之大,會讓你覺得這個事情都做不下去了。
我供職過的企業曾經給中國移動的幾個省分公司做過供應商,有一次A省分公司讓我們了解移動客戶的情況,並且給出了一個“客戶畫像”(這在當時是一個流行的術語,直到現在還有客戶提及),那個時候不像現在,手機號碼是實名製的,當時中國移動的各個省分公司的全球通手機號比例一般都在20%以下,大部分的手機用戶都是神州行和動感地帶的,我們根本不知道用戶特征,甚至不知道客戶的性別。這種情況下,要進行數據收集是很困難的。
還有一個是營銷活動數據的收集案例,我們曾經為中國移動的某省分公司收集過營銷活動的數據,目的是想知道移動做了營銷活動之後,客戶的反應情況。當時移動做業務營銷的主要方式是短信群發,判斷客戶對營銷活動有反應的終極標準是客戶訂製了該業務,當然也有一些客戶是到移動營業廳或撥打移動客服號1860(當初的客服號,現在改成10086)谘詢了該業務。可以想象,在當時的條件下收集這樣的數據是何其困難。
最後更新:2017-06-22 16:02:04