閱讀118 返回首頁    go 汽車大全


適合入門的8個趣味機器學習項目

更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud

談到機器學習,相信很多學者都是通過斯坦福大學吳恩達老師的公開課《Machine Learning》開始具體的接觸機器學習這個領域,但是學完之後又不知道自己的掌握情況,缺少一些實際的項目操作。對於機器學習的相關競賽挑戰,有些項目的門檻有些高,參加後難以具體的實現,因此造成自己對機器學習的熱情逐漸衰減。大部分都經曆過這個過程,一直想找一些練手的項目,最典型的練手項目比如手寫體識別等,但這類的項目成熟得不能再成熟了,參考別人的網絡模型跑一下實驗,結果的準確率都快達到100%,學習調參的機會比較少,因此都想找一些適合初學者的項目練手。那麼在本指南中,將給大家帶來8個適合初學者學習的有趣的機器學習項目。

項目自己的時間最好的一種投資方式,在項目中你會享受學習保持積極性並取得更快的進展。沒有任何理論可以代替實踐,雖然教材和課程能讓你掌握一些基本原理,在嚐試應用,你會發現具體操作起來比較困難因此項目有助於提高應用機器學習的技巧,此外在找工作中也會給自己增添一些籌碼。

以下將具體介紹這8個項目,其中的任何一個項目都能在一個周末完成,如果你喜歡的話,可以對其進行相關的擴展

94c131505105717eccee7513eb9032c092bc0862

本文目錄

  • 1. 機器學習的角鬥士
  • 2. 扮演“點球成金”
  • 3. 預測股票價格
  • 4. 教會神經網絡閱讀的筆跡
  • 5. 調查安然事件
  • 6. 從Scrath開始寫機器學習算法
  • 7. 挖掘社交情緒
  • 8. 改善衛生保健

1.機器學習的角鬥士

這個項目被稱為機器學習的角鬥士,但它不是新的。這是圍繞機器學習建立實際直覺最快的一種方式。目標是將現成模型應用到不同的數據集。本項目主要有3個原因令人感歎

首先,你會根據直覺為問題找到對應的模型。該模型是否對數據丟失具有魯棒性該模型適合處理類別特征?這都可以通過挖掘教材找到答案,但如果通過實踐的話能學習更好。

其次,本項目將教會你快速設計初始模型的技能。在實際應用中,如果不簡單嚐試的話難以知道哪些模型表現最好

最後,這個練習可以幫助你掌握建模的流程。例如:

  • 導入數據
  • 數據清洗
  • 將數據集拆成訓練/測試或交叉驗證集
  • 預處理
  • 變換
  • 特征工程

因為使用現成的模型這導致你有更多的機會專注於學習上述的這些關鍵步驟。

通過以下教程可以練習回歸分類和聚類算法

教程

數據源

2.扮演“點球成金”

點球這本書中,奧克蘭通過善於分析球員的球探建立了一個有競爭力的陣容,但隻需要支付隻有1 / 3的紐約洋基隊支付工資。

幸運的是,體育界有很多的數據可以,這些數據(球隊比賽成績和球員信息)都是可以免費獲取

有很多有趣的機器學習項目適合初學者。例如

  • 體育博彩——在每場球賽之前根據給出的數據預測得分
  • 人才搜索——利用高校統計數據預測哪些球員會擁有最好的職業生涯
  • 一般管理——基於球員各自的優勢創建集群,建立一個全麵的團隊。

體育也是一個很好的實踐數據可視化探索性分析的領域,你可以使用這些技巧來幫助你決定在你的分析中應包含哪些類型的數據。

數據源

  • 體育統計數據——體育運動和曆史數據包含許多專業的體育比賽等,從網絡上非常容易抓取這些信息
  • 體育參考——另一體育統計數據庫。更雜亂的界麵,但個別表可以導出為CSV文件。
  • cricsheet.org——國際棒球和IPL板球比賽的數據IPL和T20國際比賽CSV文件可以被獲取

3.預測股票價格

股票市場對於任何數據科學家們都很感興趣

首先,你有很多類型的數據,比如價格全球宏觀經濟指標波動率指數等

其次,數據非常精細的。你可以很容易地花費很少時間就能得到每一個公司的數據這允許你可以創造性地思考交易策略。

最後,金融市場普遍存在反饋周期短的特點。因此,可以快速驗證新的數據。

一些對於初學者友好的機器學習項目如下所示:

  • 定量的價值投資——根據公司的季度報告預測6個月價格走勢。
  • ——對三角洲之間的隱含和實際波動率建立時間序列模型,甚至遞歸神經網絡。
  • 統計套利——基於價格變動及其它因素尋找相似的股票,尋找價格分歧的時機

免責聲明:構建交易模型在實踐中的機器學習是簡單的,但使他們的盈利是非常困難的。入市需謹慎,投資有風險

教程

數據源

  • Quandl——數據市場,提供免費的金融和經濟數據。
  • Quantopian——定量金融社區,開發交易算法提供了一個免費的平台。
  • 美國基礎檔案文件——5000多家美國公司5年的基本數據

4.教會神經網絡閱讀筆跡

神經網絡和深度學習是現代人工智能的成功故事。他們導致了圖像識別的重大進展,文本自動生成甚至自動駕駛汽車

MNIST手寫數字分類的挑戰是經典的切入點,該數據集對於初學者友好並且足夠小以至於適合在大多數的計算機完成這個挑戰

首先,建議閱讀下麵的教程第一章。它會教你如何建立一個神經網絡,並以高精度的結果完成MNIST挑戰。

教程

數據源

  • MNIST——包含70000個標記的手寫體數字圖像

5.調查安然事件

安然事件造成有史以來最大的公司破產在2000年度,安然是美國最大的能源公司被揭露舞弊後,它一年內破產

幸運的是,我們已經安然的電子郵件數據庫它包含150前安然員工之間50萬電子郵件,主要是高級管理人員。這也是唯一的大型公共的真實郵件數據庫,這使得它更有價值。

事實上,數據科學家已經使用這個數據集進行多年的教育和研究。

初學者可以嚐試的機器學習項目例子包括

  • 異常檢測——按照小時發送和接收的電子郵件分布嚐試檢測異常行為導致公眾醜聞的異常行為
  • 網絡分析——建立員工之間的網絡圖模型來尋找關鍵人物。
  • 自然語言處理——結合電子郵件元數據分析正文消息,並根據其目的電子郵件進行分類。

數據源

6.Scratch開始寫機器學習算法

Scratch開始機器學習算法的原因主要有兩個

首先,沒有更好的辦法來建立對其機製的真正理解。你將不得不考慮每一步,從而真正掌握這些機製

其次,你會學到如何數學指令工作翻譯成公眾代碼。

開始時,建議你選擇一種不太複雜的算法;在適應構建簡單算法,盡量擴展他們以獲得更多功能最後,如果你的算法不比那些現有的數據快,不要氣餒,因為這些數據包是多年的發展成果!

教程

7.挖掘社交情緒

由於大量用戶生成的內容,社交化媒體已經幾乎成為大數據的代名詞。挖掘這些豐富的數據可以發現輿論、前沿和公眾情緒的趨勢。

臉譜推特、微信等一係列社交平台讓人應接不暇。此外,每一代比他們的前輩在社交媒體上花費更多的時間,這意味著社交媒體數據市場營銷品牌及商業更相關

雖然有許多流行的社交媒體平台,推特是練習機器學習經典的切入點

使用推特數據,你會得到一個有趣的混合數據(推特內容)和元數據(位置、標簽、用戶、轉發等),因此有很多方式對其進行分析

教程

數據源

  • 推特API——推特API是流媒體數據的經典來源
  • Stock Twits API——Stock Twits是一個社交投資平台,類似於一個交易者和投資者之間的推特,可以通過時間戳和股票代碼符號加入到時間序列數據集中擴展此數據集。

8.改善衛生保健

由於機器學習經曆快速變化的另一個行業全球健康與保健。

在大多數國家,成為一個醫生需要多年的教育這是一個要求很高的領域長時間、高風險以及一個很高的門檻

因此近年來,在機器學習的幫助下減輕醫生的工作量,提高醫療係統的整體效率

  • 預防保健——預測對個人和社區層麵的疾病爆發。
  • 診斷服務——圖像數據的自動分類,如掃描、X射線等。
  • 保險——根據公開的風險因素調整保險費。

教程

數據源

6931a45df1f80594db741a6c415915799c11a458

EliteDataScience,一個關於數據科學和機器學習的博客網站。

本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。

文章原標題《8 Fun Machine Learning Projects for Beginners》,作者: EliteDataScience,譯者:海棠,審閱:

文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-10-08 23:03:01

  上一篇:go  java中線程池的使用(ThreadPoolExecutor)
  下一篇:go 圖說一周財經大事:雲棲大會召開 上市公司三季報啟幕