閱讀281 返回首頁    go 技術社區[雲棲]


5個步驟 & 7個提示 | 一份開啟Kaggle競賽征途的初學者指南

https://yq.aliyun.com/cloud

對於機器學習入門而言,我們一般都是從手寫體MNIST、CIFAR-10等一些公開的數據集快速上手,複現別人的模型並得到一些好的結果。由於別人給出了相關的模型及步驟,做完這些複現總覺得太簡單而沒有收獲,這是因為這些數據集及給出的模型都非常的完美。針對自己特定任務和數據集而言,數據集處理起來相當困難或者搭建的模型效果不好,讓初學者不禁陷入沉思,是我們太菜了嗎?

18796a24d786bede9affe72d45f1d1c9760d7c91

答案是肯定而又殘酷的,但不要灰心,人生如棧,學習也一樣。在懵懂中入棧,接觸這個機器學習行業;每天忙於製作數據集與搭建模型,做著似乎總是重複的事情,出棧而又入棧,為的隻是能搭建一個合適的模型,完成特定的任務;我們總說在哪裏跌倒就在哪裏爬起來,但是當一次次數據集製作與模型的仿真實驗結果不好時,我們就像彈棧找不到返回地址,對自己感到迷茫,對機器學習這份行業感到猶豫。很幸運,你看到這篇文章,將告訴你在一個個棧的外邊,隱藏著一個小平台,隻要我們在製作數據集中多思考,在搭建模型中多嚐試,不斷進取,就能取得成功。這個平台對於機器學習行業者而言,並不陌生,那就是數據科學競賽的熱門平台——Kaggle。

Kaggle創辦於2010年,目前已經被Google收購,是全球頂尖的數據科學競賽平台,最近關於NIPS的生成對抗比賽可以見博主這篇文章《Kaggle首席技術官發布——(Kaggle)NIPS 2017對抗學習挑戰賽起步指南》,感興趣的同學可以立刻著手準備參加吧。Kaggle提供了一個介於“完美”與真實之間的過渡,問題的定義基本良好,卻夾著或多或少的難點,一般沒有完全成熟的解決方案。但我們也不要將kaggle上的比賽想得那麼簡單,畢竟,一些比賽有超過100萬美元的獎池和數百個競爭對手另外有些頂尖的團隊擁有數十年的綜合經驗,處理棘手的問題,如改善機場安全或分析衛星數據。

f97a0718abd7e37f9868c8eb0fd491a890a7b7fb

Kaggle

  • 如何開始
  • 會跟經驗豐富的博士研究生隊伍對抗嗎?
  • 如果沒有真正的獲勝機會,那麼值得競爭嗎?

  • 如何提高排名?

5a8a83a6d219dbc0284b455056be6df62a893864

Kaggle VS. “

KaggleK

Kaggle

  •  
  •  


  • 問題可以很容易。事實上,數據科學家們應該嚐試一些可以快速解決的有影響力的項目。
  • 解決方案可以是非常成熟的。 最常見的任務(例如探索性分析、數據清洗、A / B測試及經典算法)已經有成熟的框架,隻需要應用就好。
  • 表現可以是絕對的。 即使隻擊敗以前的基準,這個解決方案也可以是有價值的。Kaggle比賽鼓勵參賽者展現出最好的一麵,而典型的數據科學則會鼓勵效率最大化商業影響。

Kaggle

盡管Kaggle和典型的數據科學存在差異,但不妨礙其


  •  

207268d6e50a864441635ca1be09c7163d34f16f

Kaggle

Kaggle

1

PythonKagglePython

2

Python

3

KagglePython  Scikit­Learn

4

Kaggle

  •  ­-
  •  -
  •  ­-
  •  ­-

e417b2334ce8d95a29d5db55527b7798fc7f4e53

5

Kaggle

7Kaggle

1

96d0252b2e06291f2fb9cab50d4acdf9a4856de2

Kaggle第一個裏程碑,你可能會感到灰心喪氣,經過幾次嚐試後就失去了動力。增量目標使得征途更加愉快。例如:

  • 提交一個超越基準的解決方案
  • 50
  • 25
  • 25
  • 10
  • 贏得一次比賽!

2

Kaggle

31c10cc814b9d040d04c31953017209da17291bf

3

4

5

6

Kaggler

7

3fceac56f420d516b16a37551c1c0f6c7437efe2

Kaggle起步

  • 1. 
  • 2. 
  • 3. 
  • 4. 
  • 5. 

7

  • 設置增量目標
  • 回顧大多數投票的核心程序
  • 在論壇上提問問題
  • 獨立開發核心技能
  • 組對打破自身界限
  • Kaggle
  • 不要擔心低

,如果你對這個教程感興趣,可以在社區注冊,你會收到更多的教程及一個免費的7天速成班課程。

EliteDataScience著名機器學習網站,分享數據科學及機器學習相關

網址https://elitedatascience.com/

Facebook: https://www.facebook.com/elitedatascience/

本文由阿裏雲雲棲社區組織翻譯

文章原標題《The Beginner’s Guide to Kaggle》,來源EliteDataScience

 

最後更新:2017-07-17 21:02:42

  上一篇:go  長周期指標的計算優化方案
  下一篇:go  我從可用性測試中學到的五件事