《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一2.1.2 術語
本節書摘來異步社區《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一書中的第2章 ,第2.1.2節,紀賀元 著 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。
2.1.2 術語
如同數據分析的概念一樣,數據分析的術語也非常多,以下我們挑選一些常用的術語給大家做一些介紹。
1.穩定性和波動性
穩定性和波動性是一對反義詞,在數據分析的很多領域,我們都更關注數據的穩定性,比如,在工業生產領域,我們關心產品質量的穩定程度,都不希望產品質量一會兒好一會兒壞。同樣,在教育領域,我們在評估教學質量時,不僅僅是關注相關指標的高低狀況,也關注數據的穩定程度,例如學生對教學的評分忽高忽低,這裏麵一般是有問題的。關於數據的穩定性和波動性,在本書的第6章“數據掃描”中,有詳細的敘述。
2.數據變形
在我們的工作中,經常會碰到數據中存在極值的情況,情況如圖2-9所示。
在圖2-9中,6月份的數據屬於極大值,這個極大值的出現導致了其他月份的數據被大大壓縮(壓縮在0~10000的狹小區域中了),這使得這些數據之間的相互比較變得比較困難,例如9月份和11月份的數據誰大誰小,單憑肉眼比較難以判斷。
在這種情況下,我們就在想,是否可以把上述的數據進行一個變形,既保留原來數據的基本特征,然後也讓數據之間的對比變得比較容易?這個技術就是數據變形技術。
關於數據變形技術,會在第14章“高級繪圖技巧”中詳細闡述。
3.分類匯總
要講清楚分類匯總,首先要理解什麼是明細數據和概要數據,請看圖2-10。
可以看到,圖2-10是業務的明細數據,明細數據就是細節數據的體現,也就是說,產生了一條細節的統計數據,就記錄下一條。不過在實際工作中,我們也經常關心匯總數據,例如我們往往關心:每周的銷售數據是多少?每種銷售渠道的銷售數據是多少?這就是分類匯總數據。
4.數據透視
數據分析人員經常會說“這個數據要透視一下”,實際上就是用數據透視表的方式來看數據,雖然數據分析屬於統計的範疇,但是EXCEL數據透視表在數據分析中使用的頻率非常高。
5.相關分析
相關分析和關聯分析是兩個比較容易混淆的概念,不過都非常重要。相關分析反映的是在發生變動時,變量相互之間的“互動”關係,例如在增加銷售投入時,我們會關心銷售收入是否增長;或者在產品的成本上升時,我們關心產品的價格是否變動。
再強調一下,相關分析反映的是數據變動量之間的關係,而不是數據本身。
6.關聯分析
關聯分析在數據分析領域是一個特定的術語,這裏先簡單地介紹一下購物籃。大家都習慣了去超市時要拿一個購物籃或者推一個購物車,然後將要買的東西放在購物籃或者購物車裏,那麼超市的經營者往往會關心一個問題:顧客同時會購買什麼東西?例如一個顧客購買了豬肉之後會不會買芹菜?買了牛奶之後會不會買雞蛋?在知道了這些信息之後,超市的經營者能用來幹什麼呢?答案:他們可以做關聯銷售啊。如果知道顧客經常同時購買豬肉和芹菜,就可以做捆綁銷售。
7.數據擬合
在解釋這個概念之前,先看看案例文件2.6的數據,並且看看圖2-11所示的銷售收入和消費費用的散點圖。
如果希望知道銷售收入和銷售費用之間的關係,怎麼辦呢?我們的統計學家很聰明,他們就會想辦法找到一條曲線,這條曲線能夠把上麵的散點基本上都“串”起來,見圖2-12數據擬合中的趨勢線。
當然,這條曲線也有一個方程,找到這樣的曲線及其方程的過程,就是曲線擬合。
8.假設檢驗
有人說,假設檢驗是統計學中的最基本的概念,個人基本表示認同,不過講清楚假設檢驗,並不那麼容易。
首先看一個生活中的例子,我們中的大部分人都是“外貌協會”的,看到相貌英俊的男人或者清秀美麗的女人,都會產生好感。不過帥哥美女一定是好人嗎?未必!可能打過交道之後,你的印象會大大改觀。
圖2-13所示為人和人打交道的過程圖,看到帥哥美女從而心生好感,就是“假設”,後麵繼續打交道,就是“檢驗”,合起來就是“假設檢驗”。
那麼如何檢驗呢?
先做假設,如果檢驗的結果跟其假設一致或者相差不多,那麼就肯定之前的假設;如果相差太大,例如,假設A是個好人,結果我們發現他表麵上看起來不錯(是個影帝),但是實際上品質很惡劣,那麼就推翻假設,請見圖2-14假設檢驗。
最後更新:2017-06-22 16:01:57