閱讀321 返回首頁    go 阿裏雲 go 技術社區[雲棲]


小白學數據 | 28張小抄表大放送:Python,R,大數據,機器學習


0?wx_fmt=jpeg


1. Python的數據科學快速入門指南


0?wx_fmt=png

如果你剛入門Python,那麼這張小抄表非常適合你。查看這份小抄表,你將獲得循序漸進學習Python的指導。它提供了Python學習的必備包和一些有用的學習技巧等資源。


2. Python基礎小抄表


 這張由Datacamp製作的小抄表覆蓋了所有Python數據科學需要的基礎知識。如果你剛開始用Python,可以留著這張做快速參考。背下這些小抄的代碼變量、數據類型函數、字符串操作、類型轉換、列表和常用操作。尤其是它列出了重要的Python包,給出了用於選擇並導入包的小抄代碼。

0?wx_fmt=png


小白:是的,就是上麵這張表讓我很快掌握了基本的Python語句!我記得還有幾張關於Python常用庫NumPy和Panda的小抄也特別實用?


答:是的。這些常用庫可以使你輕鬆進行探索性數據分析和各種數據整理。以下3張小抄表幾乎涵蓋了所有常用的語句啦!


3. Python用於NumPy的數據科學小抄表


NumPy是Python用於科學計算的核心包。這又是一個由DataCamp製作的小抄表,你會找到用於創建NumPy數組的小抄代碼,用於執行數學運算,構造子集、分層、索引和數組操作。這份小抄最特別的是它給每個函數做了分類,並用簡單的英語做了解釋說明。

0?wx_fmt=png


4. 在Python中做探索性數據分析


在Python中進行探索性數據分析的最佳包是NumPy, Pandas和Matplotlib。通過它們,你將學會如何在python中加載文件,轉換變量,分類數據,繪圖,創建樣本數據集,處理缺損數據等等。這張表總結了三個庫中常用的語句,這是用於探索性數據分析的最簡單的小抄本之一。

0?wx_fmt=png


5. Panda庫小抄表


0?wx_fmt=png


Pandas是非常重要的Python包之一。這張表專門介紹Pandas。如果你想要了解在Python中使用Pandas進行探索性數據分析時所涉及到的每一步操作,那麼這份小抄將是你的首選。表裏的代碼能夠用於讀寫數據,預覽數據框,重命名數據框列,匯總數據等。


小白:我在研究用Python實現可視化,有什麼小抄可以幫忙麼?


答:這裏有兩份小抄是專為你準備的。


6. Python的數據可視化


無論是數據科學家還是非專業人士,可視化對他們來說都是最容易理解的。通過可視化圖表,數據能夠栩栩如生地得以展示。這份小抄就讓你學會用各種姿勢在Python中進行數據可視化。一步步地找到方法繪製直方圖、柱狀圖、線圖、散點圖等。

0?wx_fmt=png


7. Bokeh小抄表



 Bokeh是Python的交互式可視化包,尤其是對於大型數據集極為有用。通過這個由DataCamp製作的小抄,你將學會繪圖,呈現程序和可視化定製,保存並創建統計圖表的基本操作。


小白:不夠啊~還有別的麼?


答:Scikit-Learn專用小抄和文本清洗教程喜歡麼?


8. Scikit-Learn小抄表


 這是為使用Python中scikit-learn模塊的每種方法準備的小抄表。它給出了不同的函數,用於數據的預處理、回歸、分類、聚類、降維、模型選擇和指標以及它們對應的說明。這份小抄最特別的是它涵蓋了機器學習的完整階段。

0?wx_fmt=png


9. Python文本數據清洗步驟


文本清洗是一個繁瑣的過程,理解正確的步驟是取得成功的關鍵。參考這個小抄本在Python中逐步執行文本數據清洗。這樣你就知道什麼時候該刪除停止符、標點、表達式等。這份小抄的特別之處在於每個步驟都給出了代碼和案例。


第二部分

數據科學專場:R的小抄表


0?wx_fmt=png


小白:好多同學都在問,有全套的R小抄麼?


答:有哦,入門請看10-13號小抄,從功能說明到詳細操作應有盡有,還不熟練的話照著做就對了。


10. R最全的引用卡


這份小抄代碼整理了用於R的所有功能和操作。理解在R中的不同術語,它對於數據創建、數據處理、數據操作、函數建模、篩選等各方麵功能都做了說明。


11. 小抄表—11步完成R的數據探索(附代碼)


這份小抄表將手把手地教你學會用R進行探索性數據分析。從學習如何加載文件,到將變量轉換為不同的數據類型,轉置數據集,分類數據框,創建圖表等。

0?wx_fmt=png


12. R的數據導入


0?wx_fmt=png

 這份小抄將教會你學習如何通過readr, tibble和tidyr包導入數據。你可以通過tibble包使用函數對數據進行讀寫,還可以通過tidyr包重構數據,合並或者分離列。


13. 通過dplyr包進行數據轉化


0?wx_fmt=png

 這份由RStudio提供的小抄是用dplyr包做數據轉換的參考材料。裏麵有所有需要進行數據轉換操作的短代碼和運算符,以及匯總操作,分組操作,運算操作,矢量化和組合變量的函數案例。


小白:R的可視化方麵的小抄表有麼?

答:當然。R的數據可視化功能非常強大。14~15號小抄就是專門為可視化定製的哦。


14. R的數據可視化


之前我們看了Python的數據可視化小抄。這個是用於R的圖表繪製小抄,你可以用它畫出數據。通過幾行代碼,就可以創建漂亮的圖表和數據故事。R有很棒的庫,用來繪製可視化圖表的基本款和升級版,比如條形圖、直方圖、散點圖、可視化地圖、組合圖等。


15. 用ggplot2創建數據可視化圖表


0?wx_fmt=png

這是使用ggplot2 創建可視化圖表的小抄表。ggplot2用於圖形語法,它建立在一組表示數據點的視覺標誌上。用小抄代碼和不同技術在R中創建圖形組件和各種圖表。


小白:還有別的麼?比如關於常用包或者數據挖掘的?

答:16號就是關於Caret 包的小抄~數據挖掘的請看17號;另外我們還有一個雲計算的小抄哦。是不是賺到啦!


16. Caret 包小抄表


0?wx_fmt=png

Caret包提供了一組函數用於簡化預測模型的建立過程。裏麵包括了進行數據分割、預處理、特征選擇、模型調優和可視化的函數。


17. R的數據挖掘引用卡片


0?wx_fmt=png

這個小抄表提供了使用R進行文本挖掘、異常值檢測、集群、分類、社交網絡分析、大數據、並行計算的功能。它給了你所有需要用R進行數據挖掘的函數和運算符。


18. 快速學習R的雲計算指導手冊


雲計算使我們能夠容易的從任何地方訪問我們的文件和數據。通過這份小抄表,你將了解如何使用R進行雲計算。遵循這個指導你就可以在AWS上使用R進行編程了!

0?wx_fmt=png


第三部分

機器學習小抄表


問:話說我剛開始學習機器學習算法。有哪些小抄可以用?


答:Python和R算法入門請看19號,如果已經進階到scikit-learn的話那就一定要看看20號小抄啦。有使用微軟Azure的繼續下拉,21號很適合你。


19.用於機器學習算法的Python和R的小抄表


0?wx_fmt=png

 這本小抄表裏有Python和R常用的機器學習算法。包括線性回歸、邏輯回歸、決策樹、支持向量機(SVM)、樸素貝葉斯、KNN分類算法、聚類算法、隨機森林算法等。


20. Scikit學習算法小抄


0?wx_fmt=png

 這份算法圖是scikit-learn官方提供的。很多人都不知道如何選擇特定的機器學習算法應對不同的數據類型和問題。有了這份圖,你就清楚地了解完整的機器學習問題不同算法的區別。


21. 微軟Azure機器學習算法小抄


0?wx_fmt=png

這份微軟官方出品的小抄表提供了一個清晰的數據路徑,能夠幫助你找到所需的Azure Machine Learning Studio預測算法。


第四部分

概率小抄表


小白:想不到數據科學需要那麼多關於概率的知識,有什麼參考可以看麼?


答:碰巧我們也有關於概率的小抄哦。22號是基礎版,23號是針對概率分布的進階版。請好好享用。


22. 概率基礎小抄


這份賓夕法尼亞大學總結i的小抄是針對概率與統計的全麵參考。每個概念都有對應的完備圖解,用精準的方式對基礎概率規則到高級統計概念進行說明。建議你把它放在手邊做備忘參考。


23. 概率分布的小抄表


0?wx_fmt=png

這份小抄對於各種常用數據概率分布做了概覽。每一個分布都有對應的符號、公式和簡短說明。


第五部分SQL和MySQL小抄


小白:我剛開始用SQL,連怎麼導入信息都不知道,有什麼可以幫我的麼?


答:24號小抄就是關於SQL基礎操作的啦,你想了解的都在這,請拿好。


小白:我們公司用的是MySQL, 有關於它的小抄麼?

答:25號小抄是就是為你準備的,常用的指令都可以在那找到哦。


24. SQL 小抄表


0?wx_fmt=png

這份小抄表是關於SQL基礎操作的教程,包括如何導入、更新、刪除、歸類、排序等。如果你剛開始用SQL,這份小抄務很實用。


25. MySQL和SQL小抄表


0?wx_fmt=png

在這份小抄裏,你會找到MySQL和SQL的常用指令,比如MySQL需要的計算函數,字符串函數;SQL需要的數據修改和查詢指令等。


第六部分

大數據小抄表


問:既然說了這麼多語言了,我也想知道關於使用大數據數據處理語言Hadoop的一切,包括Apache Spark或者Hive這種擴展資訊,有沒有辦法幫我?


答:必須有!26號小抄就是Hadoop的全麵介紹,另外關於如何使用Apache Spark和Hive指令的,詳見27號和28號小抄哦。


26. Hadoop小抄表


0?wx_fmt=png

Hadoop是一個巨型生態係統,裏麵包含了大量的操作內容。為了了解各種操作用途以及工作方式,小抄內容按照功能進行了分類,比如分散式係統、數據處理、數據的導入導出以及管理等。


27. Apache Spark 的小抄表


0?wx_fmt=png


28. Hive的功能小抄


0?wx_fmt=png

原文發布時間為:2017-03-21

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-22 15:03:49

  上一篇:go  Linux 命令行工具使用小貼士及技巧(四)
  下一篇:go  穀歌街景照片的另一種用途:預測總統大選結果