閱讀724 返回首頁    go 阿裏雲 go 技術社區[雲棲]


教你如何在機器學習競賽中更勝一籌(上)

更多深度文章,請關注:https://yq.aliyun.com/cloud


Team Machine Learning


Marios Michailidis

1.需翻牆觀看

2.——視頻中使用的幻燈片由

3.——本博客列出所有參與者在研討會所問的問題。

1.ML問題的步驟是什麼?請從頭描述。

ML問題時我所采取的步驟:

1.——下載數據後,開始探索功能。 查看數據類型。 檢查變量類。 創建一些單變量-雙變量圖來了解變量的性質。

2.——每個問題都有獨特的評估指標。你必須理解它,特別是它如何隨著目標變量的變化而變化。

3.——為避免過擬合,確定你在初期階段已經設置了交叉驗證策略。一個很好的CV策略將幫助你在排行榜上獲得可靠的得分。

4.——一旦CV在位,嚐試使用超參數調整來提高模型的精度。 它還包括以下步驟:

  • 數據轉換:包括縮放、移除異常值、處理空值、變換分類變量、做特征選擇、創建交互等步驟。
  • 選擇算法並調整其超參數:嚐試多種算法來了解模型性能的變化。


2.

  • GARCH
  • Python
  • 聲音分類:普通神經網絡
  • FTRL

XGBoost

  • cv
  • cv
  • ——使用以上混合技術。
  • 排列
  • ——使用隨機森林,
  • 應用一些統計學的邏輯,如卡方檢驗,方差分析。

每個問題的數據操作可能不同:


  • tfidf
  • 圖像分類:你可以進行縮放,調整大小,去除噪點(平滑),注釋等
  • Furrier
  • +1

3.

2

  • 10
  • 50%
  • 10%
  • 然後在訓練集上擬合算法
  • 評分驗證集。
  • 保存與所選指標相關的得分結果。
  • 10
  • SEED

KFold分層。 在這裏閱讀

4.你能解釋一些用於交叉驗證的技術嗎?

  • Kfold
  • Kfold
  • X
  • 時間分割
  • 20

5.

2

6.

  • 數據操作
    • Numpy
    • Scipy
    • Pandas
  • 數據可視化
    • Matplotlib
  • /
    • Xgboost
    • Keras
    • Nolearn
    • Gensim
    • Scikit image
  • 自然語言處理
    • NLTK

7.

  • 使用均值、模式、中位數進行插補
  • - 1
  • ——例如與目標變量有關的事物。
  • 用有意義的東西代替。例如:有時空可能意味著零
    • 嚐試基於已知值子集來預測缺失值
    • 可以考慮刪除具有許多空值的行

8.

Java

linux

9.

GPU

10.

11.

  • R
  • 繼續學習的工具(如下所列)
  • 讀一些書
  • “知識”比賽
  • “獲勝解決方案”
  • 與更多的有經驗的人合作,但你需要在此之前稍微提高排名
  • 創建一個代碼庫
  • 多多參與!

12.

13.

幻燈片中了解到有關機器學習的一些基本算法和概念。這本書scikit Learn

kaggle

Andrew Ng

14.

vowpal wabbit

15.

  • 商業問題:如何在線推薦產品以增加購買。
  • ml
  • /
  • 找到最佳的解決方案來預測客戶最佳選擇。
  • /
  • /
  • 將這些應用到聯機環境中。暴露一些客戶,但不是所有。保持測試組和對照組
  • 評估算法的運行情況以及隨著時間的推移進行調整。

16.

17.

Python

18.

19.


在下一節中繼續回答有關機器學習競賽的另19個問題。


本文由北郵@愛可可-愛生活 老師推薦,阿裏雲雲棲社區組織翻譯。

文章原標題《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》,作者:Team Machine Learning譯者:tiamo_zn,審校:。

文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-04-16 22:02:11

  上一篇:go 開源維護者Lawso:最讓人火大的是哪類人?
  下一篇:go 搭建有出入網能力的VPC網絡方案及模板實現