書單推薦 | 數據挖掘和統計科學自學十大必備讀物
還有什麼比免費的機器學習和數據科學讀物更適合用來享受秋天的呢?
下麵的免費書單中從統計學基礎知識,到機器學習的基本概念,再到更重點的大框架內容,對於高深的話題也有所涉獵,最後以一本總結性的書結尾。既有經典名著,也有當代的作品,希望你能在其中找到一些有趣的新內容。
1.用統計學的方式思考
Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey
《用統計學的方式思考》是為python的程序員設計的一本概率論和數理統計知識的入門書籍。
本書主要介紹了剖析真實數據集和解決有趣問題的簡單方法。這本書的案例使用的是美國國家衛生研究院的數據,並鼓勵讀者使用真實的數據集做項目。
地址:
https://www.greenteapress.com/thinkstats/
2.概率編程與貝葉斯方法
Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon
一本介紹貝葉斯方法和概率編程的入門教程,主要是從對編程的理解出發,數學知識其次。
貝葉斯方法是概率推理中一種很實用的方法,在這本書當中,貝葉斯方法一直隱藏在一章章慢慢的數學分析的背後。貝葉斯推理的典型內容包含兩到三章概率論知識,然後再介紹貝葉斯推理。可惜的是,由於大多數貝葉斯模型的數學難度太高,這本書中隻為讀者介紹了簡單和虛構的例子。這會讓讀者小看貝葉斯推理。而事實上,這是因為作者自己的偏好導致的。
來源:
https://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/
3.理解機器學習
Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz and Shai Ben-David
機器學習是計算機科學中發展最快的領域之一,有著深遠的實際應用。這本書有條理的介紹了機器學習,以及相關的典型算法。這本書既介紹了機器學習的一些基本概念,也介紹了將這些概念轉化為實際算法的數學推導。在介紹了基本概念之後,這本書也覆蓋了一些之前的教科書中所沒有涉及過的重要主題,包括模型算法的複雜度和凸性,穩定性的概念;重要的算法範例包括隨機梯度下降法,神經網絡模型,和機構化預測法;還有新興的理論概念比如PAC-貝葉斯法和compression-based bounds(壓縮界限法)。
來源:
https://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/
4.統計學習精要
The Elements of Statistical Learning
作者:Trevor Hastie,Robert Tibshirani,etc
這本書用常用的概念框架解釋了統計領域中的重要概念。雖然是用的統計學方法,但是重點在概念的解讀而不是數學運算。書中給出了很多例子,也用了很多彩圖。對數據挖掘感興趣的人和統計學家來說都會是很有價值的資源。這本書涵蓋的知識很廣,從監督學習到非監督學習都有涉獵。眾多的話題中包括神經網絡模型,支持向量機,以及最全麵關於分類樹及推算話題的介紹。
來源:
https://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf
5.統計學習及其在R中的應用
An Introduction to Statistical Learning with Applications in R
作者:GarethJames,DanielaWitten,etc
這本書介紹了一些統計學習的方法,是為非數學專業高水平的本科生,研究生和博士生設計的。這本書也包含了一些R語言的練習題和如何在現實中應用統計模型的詳細說明,對於新入行的數學科學家來說是非常有價值的資源。
來源:
https://www-bcf.usc.edu/~gareth/ISL/
6.數據科學基礎
Foundations of Data Science
作者:Avrim Blum, John Hopcroft,etc
雖然計算機科學的傳統領域依然很重要,未來,更多的研究者會集中於用電腦從應用的大量數據中提取有用信息,而不是隻是解決一些確定的問題。考慮到這一點,我們在這本書中涵蓋了未來40年可能會有用的理論,就像自動控製原理,算法和相關主題在過去的40年給予學生的巨大幫助一樣。
來源:
https://www.cs.cornell.edu/jeh/book.pdf
7.給程序員的數據挖掘指南:
數字迷宮的藝術
A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski
這本書奉行的是邊幹邊學的方法論。我希望你能用我提供過的Python代碼實踐書中的練習和實驗,而不僅僅是被動的閱讀。我希望你會積極主動的嚐試不同的數據挖掘方法。這本書由一係列互相貫通的小分支組成,當你讀完這本書的時候,你就為理解數據挖掘技術奠定了夯實的基礎。
來源:
https://guidetodatamining.com
8.大數據·互聯網大規模
數據完覺與分布式處理
Mining of Massive Datasets
作者:Jure Leskovec, etc
這本書是基於斯坦福大學的計算機科學課程 cs246(海量數據挖掘)和 CS345A (數據挖掘)而撰寫的。
這本書,正如這門課程一樣,是為計算機科學的本科生設計的,並沒有任何先修課程的要求。為了鼓勵讀者進行更深的探索,絕大部分的章節後麵都補充了參考文獻以供深層次的閱讀。
9.深度學習
Deep Learning
作者:Ian Goodfellow, Yoshua Bengio and Aaron Courville
《深度學習》這本書是為了幫助學生和相關從業人員進入一般而言的機器學習領域,尤其是深度學習而設計的。這本書的在線版本現已完結,並會長期免費開發。
來源:
https://www.deeplearningbook.org
10.對機器學習的渴望
Machine Learning Yearning
作者:Andrew Ng
人工智能,機器學習和深度學習正在改變著數不勝數的行業。但是建立一個機器學習係統需要你在實際中做出下麵的決定:
應該要收集更多的訓練數據嗎?
應該使用端對端的深度學習嗎?
如何處理與測試集不對應的訓練集?
……
在以前,做出上述戰略性決定的唯一方法是花幾年時間去讀研究生或者去公司裏學習。我寫這本書的目的是幫助你快速掌握做上述決定的能力,使你可以在人工智能係統方麵做得更好。
原文發布時間為:2017-09-25
作者:Matthew Mayo
編譯:keiko,萬如苑,鬆清波
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號
最後更新:2017-09-25 15:03:54