《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3　耗时耗力的数据整理过程

本节书摘来异步社区《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章，第3.3节，纪贺元　着更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.3　耗时耗力的数据整理过程

数据的整理往往是一个痛苦的耗时耗力的过程，有人曾经以做饭菜来打比方：做过饭菜的人都知道，下油锅炒菜的时间其实并不长，几分钟就够了，而做菜之前的买菜、泡菜（用水浸泡菜去除农药）、洗菜、切菜、配菜等会消耗2～3小时。这和做数据分析很类似，做一个聚类分析，如果选择的模型得当并且电脑运行很快的话，几分钟甚至几秒钟就做完了，但是要把聚类的数据全部收集完毕，很可能要花几天甚至几个月的时间。
数据分析之前的数据整理工作要做哪些事情呢？我们看看以下逻辑。
（1）尽可能保证数据是对的
在错误的数据上分析得出的结论往往是错误的，因此要尽量保证数据的准确性，重复数据以及空行、空列、异常值、不符合逻辑关系的数据都会造成数据质量的降低，要想办法剔除这些数据。至少也要对这些数据有所警醒！
（2）尽可能保证数据能用得上
通常情况下，数据中都会有很多缺失值，面对这种情况，删除肯定是个简单的处理方法，但问题是，这样操作会丢失很多数据和信息。我曾经对某个项目进行测算，如果用“简单粗暴”的方法去删除包含缺失值的数据，那么大概要损失70%左右的数据，这样一来，根据30%左右的数据分析得出来的结论肯定是不准确的。
（3）要保证数据的格式能够直接用于分析
数据有多种组织方式，统计和挖掘中的很多算法模型都需要针对固定格式来做，比如对应分析、关联分析等，因此免不了要做格式转换，有时，为了实现对大数据量的分析，还需要进行编程。

最后更新：2017-06-22 16:31:41

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3　耗时耗力的数据整理过程

3.3　耗时耗力的数据整理过程

上一篇： HTML5响应式模板建站，建站更简单

下一篇： GDS全球域名峰会将于2017年7月7日厦门开启

相关内容

热门内容

最新内容

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程

3.3 耗时耗力的数据整理过程

上一篇： HTML5响应式模板建站，建站更简单

下一篇： GDS全球域名峰会将于2017年7月7日厦门开启

相关内容

热门内容

最新内容

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3　耗时耗力的数据整理过程

3.3　耗时耗力的数据整理过程