《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一3.3 耗時耗力的數據整理過程
本節書摘來異步社區《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一書中的第3章 ,第3.3節,紀賀元 著 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。
3.3 耗時耗力的數據整理過程
數據的整理往往是一個痛苦的耗時耗力的過程,有人曾經以做飯菜來打比方:做過飯菜的人都知道,下油鍋炒菜的時間其實並不長,幾分鍾就夠了,而做菜之前的買菜、泡菜(用水浸泡菜去除農藥)、洗菜、切菜、配菜等會消耗2~3小時。這和做數據分析很類似,做一個聚類分析,如果選擇的模型得當並且電腦運行很快的話,幾分鍾甚至幾秒鍾就做完了,但是要把聚類的數據全部收集完畢,很可能要花幾天甚至幾個月的時間。
數據分析之前的數據整理工作要做哪些事情呢?我們看看以下邏輯。
(1)盡可能保證數據是對的
在錯誤的數據上分析得出的結論往往是錯誤的,因此要盡量保證數據的準確性,重複數據以及空行、空列、異常值、不符合邏輯關係的數據都會造成數據質量的降低,要想辦法剔除這些數據。至少也要對這些數據有所警醒!
(2)盡可能保證數據能用得上
通常情況下,數據中都會有很多缺失值,麵對這種情況,刪除肯定是個簡單的處理方法,但問題是,這樣操作會丟失很多數據和信息。我曾經對某個項目進行測算,如果用“簡單粗暴”的方法去刪除包含缺失值的數據,那麼大概要損失70%左右的數據,這樣一來,根據30%左右的數據分析得出來的結論肯定是不準確的。
(3)要保證數據的格式能夠直接用於分析
數據有多種組織方式,統計和挖掘中的很多算法模型都需要針對固定格式來做,比如對應分析、關聯分析等,因此免不了要做格式轉換,有時,為了實現對大數據量的分析,還需要進行編程。
最後更新:2017-06-22 16:31:41