118
汽車大全
適合入門的8個趣味機器學習項目
更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud
談到機器學習,相信很多學者都是通過斯坦福大學吳恩達老師的公開課《Machine Learning》開始具體的接觸機器學習這個領域,但是學完之後又不知道自己的掌握情況,缺少一些實際的項目操作。對於機器學習的相關競賽挑戰,有些項目的門檻有些高,參加後難以具體的實現,因此造成自己對機器學習的熱情逐漸衰減。大部分都經曆過這個過程,一直想找一些練手的項目,最典型的練手項目比如手寫體識別等,但這類的項目成熟得不能再成熟了,參考別人的網絡模型跑一下實驗,結果的準確率都快達到100%,學習調參的機會比較少,因此都想找一些適合初學者的項目練手。那麼在本指南中,將給大家帶來8個適合初學者學習的有趣的機器學習項目。
項目是自己的時間最好的一種投資方式,在項目中你會享受學習、保持積極性並取得更快的進展。沒有任何理論可以代替實踐,雖然教材和課程能讓你掌握一些基本原理,但在嚐試應用時,你會發現具體操作起來比較困難。因此項目有助於提高應用機器學習的技巧,此外在找工作中也會給自己增添一些籌碼。
以下將具體介紹這8個項目,其中的任何一個項目都能在一個周末完成,如果你喜歡的話,可以對其進行相關的擴展。
本文目錄
- 1. 機器學習的角鬥士
- 2. 扮演“點球成金”
- 3. 預測股票價格
- 4. 教會神經網絡閱讀的筆跡
- 5. 調查安然事件
- 6. 從Scrath開始寫機器學習算法
- 7. 挖掘社交情緒
- 8. 改善衛生保健
1.機器學習的角鬥士
這個項目被稱為“機器學習的角鬥士”,但它不是新的。這是圍繞機器學習建立實際直覺最快的一種方式。目標是將現成模型應用到不同的數據集。本項目主要有3個原因令人感歎:
首先,你會根據直覺為問題找到對應的模型。該模型是否對數據丟失具有魯棒性、該模型適合處理種類別特征?這都可以通過挖掘教材找到答案,但如果通過實踐的話能學習得更好。
其次,本項目將教會你快速設計初始模型的技能。在實際應用中,如果不簡單嚐試的話難以知道哪些模型表現最好。
最後,這個練習可以幫助你掌握建模的流程。例如:
- 導入數據
- 數據清洗
- 將數據集拆成訓練/測試或交叉驗證集
- 預處理
- 變換
- 特征工程
因為使用現成的模型,這導致你有更多的機會專注於學習上述的這些關鍵步驟。
通過以下教程可以練習回歸、分類和聚類算法。
教程
- Python:sklearn——sklearn數據包官方教程
- Scikit Learn預測葡萄酒質量——用於訓練機器學習模型的分步教程
- R:插入符號——在線研討會
數據源
2.扮演“點球成金”
在點球成金這本書中,奧克蘭通過善於分析球員的球探,建立了一個有競爭力的陣容,但隻需要支付隻有1 / 3的紐約洋基隊支付的工資。
幸運的是,體育界有很多的數據可以玩,這些數據(球隊、比賽、成績和球員信息)都是可以免費獲取。
有很多有趣的機器學習項目適合初學者。例如:
- 體育博彩——在每場球賽之前根據給出的數據預測得分;
- 人才搜索——利用高校統計數據預測哪些球員會擁有最好的職業生涯;
- 一般管理——基於球員各自的優勢創建集群,建立一個全麵的團隊。
體育也是一個很好的實踐數據可視化和探索性分析的領域,你可以使用這些技巧來幫助你決定在你的分析中應包含哪些類型的數據。
數據源
- 體育統計數據——體育運動和曆史數據包含許多專業的體育比賽等,從網絡上非常容易抓取這些信息。
- 體育參考——另一種體育統計數據庫。更雜亂的界麵,但個別表可以導出為CSV文件。
- cricsheet.org——國際棒球和IPL板球比賽的數據,IPL和T20國際比賽的CSV文件可以被獲取。
3.預測股票價格
股票市場對於任何數據科學家們都很感興趣。
首先,你有很多類型的數據,比如價格、全球宏觀經濟指標、波動率指數等。
其次,數據是非常精細的。你可以很容易地花費很少時間就能得到每一個公司的數據,這允許你可以創造性地思考交易策略。
最後,金融市場普遍存在反饋周期短的特點。因此,可以快速驗證新的數據。
一些對於初學者友好的機器學習項目如下所示:
- 定量的價值投資——根據公司的季度報告預測6個月的價格走勢。
- 預言——對三角洲之間的隱含和實際波動率建立時間序列模型,甚至遞歸神經網絡。
- 統計套利——基於價格變動及其它因素尋找相似的股票,並尋找價格分歧的時機。
免責聲明:構建交易模型在實踐中的機器學習是簡單的,但使他們的盈利是非常困難的。入市需謹慎,投資有風險。
教程
- Python:sklearn投資——將機器學習應用於投資的係列視頻。
- R:R量化交易——對於R定量金融學詳細的課堂筆記。
數據源
- Quandl——數據市場,提供免費的金融和經濟數據。
- Quantopian——定量金融社區,開發交易算法提供了一個免費的平台。
- 美國基礎檔案文件——5000多家美國公司5年的基本數據。
4.教會神經網絡閱讀筆跡
神經網絡和深度學習是現代人工智能的成功故事。他們導致了圖像識別的重大進展,文本自動生成甚至自動駕駛汽車等。
MNIST手寫體數字分類的挑戰是經典的切入點,該數據集對於初學者是友好的,並且足夠小以至於適合在大多數的計算機完成這個挑戰。
首先,建議閱讀下麵的教程第一章。它會教你如何建立一個神經網絡,並以高精度的結果完成MNIST挑戰。
教程
- 神經網絡和深度學習(在線書籍)——第1章如何從零開始使用Python編寫神經網絡完成MNIST數字分類。
數據源
- MNIST——包含70000個標記的手寫體數字圖像。
5.調查安然事件
安然事件造成有史以來最大的公司破產。在2000年度,安然是美國最大的能源公司,然而被揭露舞弊後,它在一年內就破產了。
幸運的是,我們已經有安然的電子郵件數據庫,它包含150名前安然員工之間的50萬封電子郵件,主要是高級管理人員。這也是唯一的大型公共的真實郵件數據庫,這使得它更有價值。
事實上,數據科學家已經使用這個數據集進行多年的教育和研究。
初學者可以嚐試的機器學習項目例子包括:
- 異常檢測——按照小時發送和接收的電子郵件分布嚐試檢測異常行為導致公眾醜聞的異常行為。
- 社交網絡分析——建立員工之間的網絡圖模型來尋找關鍵人物。
- 自然語言處理——結合電子郵件元數據分析正文消息,並根據其目的對電子郵件進行分類。
數據源
- 安然郵件數據集——這是由CMU歸檔的安然的電子郵件。
- 安然數據描述(PDF)——安然電子郵件數據的探索性分析可以幫助你打好基礎。
6.從Scratch開始寫機器學習算法
從Scratch開始寫機器學習算法的原因主要有兩個:
首先,沒有更好的辦法來建立對其機製的真正理解。你將不得不考慮每一步,從而真正掌握這些機製。
其次,你將會學到如何數學指令工作翻譯成公眾代碼。
開始時,建議你選擇一種不太複雜的算法;在適應構建簡單的算法後,盡量擴展他們以獲得更多的功能;最後,如果你的算法不比那些現有的數據包快,不要氣餒,因為這些數據包是多年的發展成果!
教程
7.挖掘社交情緒
由於大量用戶生成的內容,社交化媒體已經幾乎成為“大數據”的代名詞。挖掘這些豐富的數據可以發現輿論、前沿和公眾情緒的趨勢。
臉譜網、推特、微信等一係列社交平台讓人應接不暇。此外,每一代都比他們的前輩在社交媒體上花費更多的時間,這意味著社交媒體數據和市場營銷、品牌及商業更相關。
雖然有許多流行的社交媒體平台,但推特是練習機器學習經典的切入點。
使用推特數據,你會得到一個有趣的混合數據(推特內容)和元數據(位置、標簽、用戶、轉發等),因此有很多方式對其進行分析。
教程
- Python:挖掘Twitter數據——如何在推特數據進行情感分析
- R:機器學習的情感分析——短而甜蜜的情感分析教程
數據源
- 推特API——推特API是流媒體數據的經典來源。
- Stock Twits API——Stock Twits是一個社交投資平台,類似於一個交易者和投資者之間的推特,可以通過將時間戳和股票代碼符號加入到時間序列數據集中擴展此數據集。
8.改善衛生保健
由於機器學習而經曆快速變化的另一個行業是全球健康與保健。
在大多數國家,成為一個醫生需要多年的教育,這是一個要求很高的領域,長時間、高風險以及一個很高的門檻。
因此近年來,在機器學習的幫助下減輕了醫生的工作量,提高了醫療係統的整體效率。
- 預防保健——預測對個人和社區層麵的疾病爆發。
- 診斷服務——圖像數據的自動分類,如掃描、X射線等。
- 保險——根據公開的風險因素調整保險費。
教程
- R:為疾病預測建立有意義的機器學習模型
- 衛生保健中的機器學習——微軟研究院的優秀演講
數據源
- 大型健康數據集——大型健康數據集的收集
- data.gov/health——由美國政府提供的醫療保健相關的數據集。
- 健康營養和人口統計——由世界銀行提供的全球健康、營養和人口統計數據。
EliteDataScience,一個關於數據科學和機器學習的博客網站。
本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。
文章原標題《8 Fun Machine Learning Projects for Beginners》,作者: EliteDataScience,譯者:海棠,審閱:
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-10-08 23:03:01