閱讀1006 返回首頁    go 阿裏雲 go 技術社區[雲棲]


《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一2.2 選擇稱手的軟件工具

本節書摘來異步社區《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一書中的第2章 ,第2.2節,紀賀元 著 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。

2.2 選擇稱手的軟件工具

數據分析的工具有很多種(大約有十多種),每種都有其優勢和長處,也有它的缺陷。根據作者的經驗,還真沒有一種工具軟件能夠包打天下。當然從邏輯上講也應該是這樣的,如果存在一個“萬能”的軟件,那麼其他的軟件肯定就要消亡了。
筆者基於自己的經驗列出了常用統計分析軟件的利弊對比,見表2-2。

image
image

2.2.1 EXCEL

無論如何,EXCEL都是最基礎的數據分析工具,絕大多數人都在使用EXCEL,起碼在使用EXCEL來收集錄入數據。
從專業分析的角度來看,EXCEL的分析功能太弱了:數據透視表的功能還不錯,但幾乎沒有像樣的“統計”功能,圖形的功能也很弱。此外,雖然配備了數組等比較高級的功能,能夠勉強地實現編程中“循環”的功能,但是數據量比較大的時候,EXCEL會變得很慢甚至不能忍受。
事實上,EXCEL是否夠用,完全取決你手裏的數據、你的需求。如果你手裏的數據一般、需求也不複雜,EXCEL差不多能滿足你的需求;如果你的需求很大並且需求複雜,那麼EXCEL可能會讓你失望。

2.2.2 VBA

個人認為微軟Office成功的一大原因,就是將高級語言VB整合到了Office中,形成了VBA。VBA幾乎可以做所有數據分析類的事情,有人將聚類、關聯分析、主成分分析這些統計分析算法都用VBA實現了,因此VBA幾乎無所不能。
VBA還有一個很大的優點是:EXCEL中運用VBA控製Powerpoint和Word,這又可以大大地提高工作效率,在EXCEL中運用VBA處理完數據後,可以直接生成相應的PPT和Word文件。

2.2.3 Access

Access是微軟提供的一個“半專業”的數據庫,之所以稱其為“半專業”數據庫,是因為相對於MySQL、Oracle這些專業數據庫而言,它的專業性確實還不夠。
Access在操作靈活性等方麵遠不如EXCEL,按照筆者個人的理解,ACCESS優勢主要體現在以下三個方麵:
1)相對於EXCEL,它的數據存儲量提高了,準確地講,ACCESS數據庫最大可以存儲2GB左右的數據,至於具體能放多少條,那就要看數據的複雜度了。
2)數據一致性檢查方麵,效率特別高,例如A表中有BOM料號“ABC123”,我們要檢查關聯的B表中是否有該料號,在數據量比較大的情況下,使用ACCESS非常高效。
3)多條件查詢的效率很高,EXCEL幾乎不支持多條件查詢,而ACCESS幾乎是為圖2-15所示的多條件查詢而生的。


image

2.2.4 SPSS

SPSS是知名度最高的專業統計軟件,據我所知,雖然現在做數據分析的人可使用多種分析工具,但SPSS通常是他們使用的第一款統計軟件。
SPSS的優點和缺點都很明顯,優點是界麵美觀、功能強大,缺點是界麵做得很複雜,是一款比較複雜的軟件,以至於一些使用SPSS多年的人都說“我就是在煳裏煳塗地用”。
值得一提的是,IBM在收購SPSS之後,認為SPSS過於學術化,IBM想對SPSS進行改造以增加其“商業氣息”,因此就搞出來一個“直銷”模塊(見圖2-16),裏麵整合了幾個比較有用的小工具,後麵會有詳細介紹。


image

2.2.5 XLSTAT

XLSTAT是一個小軟件,或者說是一個小插件,它是在EXCEL環境中運行的,請見圖2-17。


image


XLSTAT插件的好處不言而喻,由於跟EXCEL環境無縫整合,使用起來比較方便,能夠實現大多數統計分析的功能,但是缺點也很明顯,數據量一旦比較大,插件運行的效果就比較差。
因此,XLSTAT就是個小工具,不大能作為一個正規的統計分析軟件來使用。

2.2.6 Modeler

Modeler的前身是美國著名的CLEMENTINE軟件,現在也被IBM收購了,成為IBM軟件的一員。Modeler是專業數據挖掘軟件,它包含了關聯分析等著名的數據挖掘算法,而這些算法是SPSS所不包含的。
Modeler的一個顯著的優點是完全圖示化,如圖2-18所示Modeler的分析界麵。


image


個人認為,專業統計挖掘軟件能夠做到幾乎完全圖示化的操作,確實相當不容易,Modeler也受到了廣大非統計挖掘專業客戶的歡迎。

2.2.7 R語言

R是近年來快速發展的一個統計語言,個人認為其最大的好處之一就是開源,在商務上它是基本免費的,這對於廣大用戶尤其是中小用戶來說是一個福音。
對於R的學習需要有一定的統計基礎,R有很多開發好的統計包,如果對這些統計包很熟悉的話,你會發現R實際上有一個共享的機製,就是別人可能老早就把你要做的統計分析功能做好了,你隻要直接調用就可以了,這就是一個很大的福音。
另外,R的繪圖功能非常強,絕對是專業級的繪圖功能。

最後更新:2017-06-22 16:02:01

  上一篇:go  《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一2.3 在分析需求和模型之間搭起橋梁
  下一篇:go  《數據分析實戰:基於EXCEL和SPSS係列工具的實踐》一2.1.2 術語