閱讀789 返回首頁    go 阿裏雲 go 技術社區[雲棲]


5個步驟 & 7個提示 | 一份開啟Kaggle競賽征途的初學者指南

首發地址:https://yq.aliyun.com/articles/129749


https://yq.aliyun.com/cloud

對於機器學習入門而言,我們一般都是從手寫體MNIST、CIFAR-10等一些公開的數據集快速上手,複現別人的模型並得到一些好的結果。由於別人給出了相關的模型及步驟,做完這些複現總覺得太簡單而沒有收獲,這是因為這些數據集及給出的模型都非常的完美。針對自己特定任務和數據集而言,數據集處理起來相當困難或者搭建的模型效果不好,讓初學者不禁陷入沉思,是我們太菜了嗎?

18796a24d786bede9affe72d45f1d1c9760d7c91

答案是肯定而又殘酷的,但不要灰心,人生如棧,學習也一樣。在懵懂中入棧,接觸這個機器學習行業;每天忙於製作數據集與搭建模型,做著似乎總是重複的事情,出棧而又入棧,為的隻是能搭建一個合適的模型,完成特定的任務;我們總說在哪裏跌倒就在哪裏爬起來,但是當一次次數據集製作與模型的仿真實驗結果不好時,我們就像彈棧找不到返回地址,對自己感到迷茫,對機器學習這份行業感到猶豫。很幸運,你看到這篇文章,將告訴你在一個個棧的外邊,隱藏著一個小平台,隻要我們在製作數據集中多思考,在搭建模型中多嚐試,不斷進取,就能取得成功。這個平台對於機器學習行業者而言,並不陌生,那就是數據科學競賽的熱門平台——Kaggle。

Kaggle創辦於2010年,目前已經被Google收購,是全球頂尖的數據科學競賽平台,最近關於NIPS的生成對抗比賽可以見博主這篇文章《Kaggle首席技術官發布——(Kaggle)NIPS 2017對抗學習挑戰賽起步指南》,感興趣的同學可以立刻著手準備參加吧。Kaggle提供了一個介於“完美”與真實之間的過渡,問題的定義基本良好,卻夾著或多或少的難點,一般沒有完全成熟的解決方案。但我們也不要將kaggle上的比賽想得那麼簡單,畢竟,一些比賽有超過100萬美元的獎池和數百個競爭對手另外有些頂尖的團隊擁有數十年的綜合經驗,處理棘手的問題,如改善機場安全或分析衛星數據。

f97a0718abd7e37f9868c8eb0fd491a890a7b7fb

Kaggle

  • 如何開始
  • 會跟經驗豐富的博士研究生隊伍對抗嗎?
  • 如果沒有真正的獲勝機會,那麼值得競爭嗎?
  • Kaggle
  • 如何提高排名?

在本指南中,我們將分解一些需要了解的入門知識的建議

5a8a83a6d219dbc0284b455056be6df62a893864

Kaggle VS. “

首先,我們需要弄清楚:

KaggleK仍然會提供寶貴的經驗。

Kaggle

本質上,比賽必須符合以下幾個標準:

  • 問題一定很難 一般會提交它們遇到的最大的問題。
  • 解決方案必須是新的 
  • 表現是相對的。比賽隻產生一個冠軍,所以你的解決方案必須打敗對方。

相比之下,典型數據科學不需要符合上述標準。

  • 問題可以很容易。事實上,數據科學家們應該嚐試一些可以快速解決的有影響力的項目。
  • 解決方案可以是非常成熟的。 最常見的任務(例如探索性分析、數據清洗、A / B測試及經典算法)已經有成熟的框架,隻需要應用就好。
  • 表現可以是絕對的。 即使隻擊敗以前的基準,這個解決方案也可以是有價值的。Kaggle比賽鼓勵參賽者展現出最好的一麵,而典型的數據科學則會鼓勵效率最大化商業影響。

Kaggle

盡管Kaggle和典型的數據科學存在差異,但不妨礙其

  • 每場比賽都是獨立的。你不需要創建自己的項目和收集數據,這可以讓你專注於其他技能。
  • 實踐就是練習 學習數據科學的最好方法是通過實踐來學習。隻要不太看重每次比賽的輸贏,你仍然可以練習有趣的問題。
  • 討論和獲獎者采訪是有啟發性的。每個比賽都有自己的討論版塊和。從中可以學習有經驗的數據科學家的思想過程。

207268d6e50a864441635ca1be09c7163d34f16f

Kaggle

Kaggle慢慢提升自己。

1

Python語言Kaggle推薦Python

2

加載、操縱和繪製數據的能力是數據科學的第一步,因為它會通過模型訓練得到各種決策。

如果選擇Python

3

參加Kaggle比賽之前,建議你在一個更容易、更易於管理的數據集上訓練一個模型。關鍵是要養成良好的習慣,例如將數據集分成單獨的訓練集和測試集,交叉驗證以避免過擬合,並使用適當的性能指標Python而言  Scikit­Learn

4

Kaggle

  • 特色 ­-
  • 研究 -
  •  ­-
  • 入門 ­-教程和滾動提交窗口,因此可以隨時參加這類比賽

的支持

e417b2334ce8d95a29d5db55527b7798fc7f4e53

5

這類比賽將花費更多的時間和精力。因此,建議合理地選擇相應的比賽,不要太在意獎金,而是著重發展自己的職業技能。

Kaggle

7Kaggle的時間。

1

如果你曾經玩過一個令人上癮的遊戲,你就會知道增量目標的力量。設置每個目標都足夠大,完成後獲得成就感。

96d0252b2e06291f2fb9cab50d4acdf9a4856de2

Kaggle永遠不會贏得一場比賽,這完全是正常的。如果你將這個設定為你的第一個裏程碑,你可能會感到灰心喪氣,經過幾次嚐試後就失去了動力。增量目標使得征途更加愉快。例如:

  • 提交一個超越基準的解決方案
  • 50
  • 25
  • 25
  • 10
  • 贏得一次比賽!

這個策略將讓你衡量自己的進步

2

Kaggle是展示技術或共享解決方案的簡短腳本,當你開始一場比賽或者遇到瓶頸時,回顧這些核心程序可以激發更多的想法。

31c10cc814b9d040d04c31953017209da17291bf

3

4

一開始建議單獨工作。這將迫使你在應用機器學習過程中親自處理每一個步驟,包括探索性分析、數據清洗及模型訓練等。

5打破你的界限。

在之後的比賽中組隊可以打破你的界限並向他人學習。許多過去的獲獎者都是團結一致的團隊。另外,掌握機器學習的技能後,你可以與擁有更多領域知識的其他人進行合作,進一步擴大自己的機遇。

6

記住,你不一定要成為一個長期的Kaggler

7

一些初學者不願意開始是因為擔心自己的個人資料中出現低排名記錄。然而,低排名實際上對自己沒有很大影響,因為其他人不會評判你,大家都是初學者。如果仍然擔心個人資料中出現低排名,可以創建練習帳戶來學習。(聲明,這是完全必要的!)

3fceac56f420d516b16a37551c1c0f6c7437efe2

Kaggle起步

  • 1. 
  • 2. 
  • 3. 
  • 4. 處理
  • 5. 

7

  • 設置增量目標
  • 回顧大多數投票的核心程序
  • 在論壇上提問問題
  • 獨立開發核心技能
  • 組對打破自身界限
  • Kaggle
  • 不要擔心低

社區注冊,你會收到更多的教程及一個免費的7天速成班課程。

EliteDataScience著名機器學習網站,分享數據科學及機器學習相關

網址https://elitedatascience.com/

Facebook: https://www.facebook.com/elitedatascience/

本文由阿裏雲雲棲社區組織翻譯

文章原標題《The Beginner’s Guide to Kaggle》,來源EliteDataScience

文章為簡譯,更為詳細的內容,請查看

最後更新:2017-07-27 09:03:27

  上一篇:go  Kaggle首席技術官發布——(Kaggle)NIPS 2017對抗學習挑戰賽起步指南
  下一篇:go  機器學習中的技術債務