724 阿裏雲技術社區[雲棲]

教你如何在機器學習競賽中更勝一籌（上）

更多深度文章，請關注：https://yq.aliyun.com/cloud

Team Machine Learning。

Marios Michailidis

1.需翻牆觀看）

2.——視頻中使用的幻燈片由

3.——本博客列出所有參與者在研討會所問的問題。

1.ML問題的步驟是什麼？請從頭描述。

ML問題時我所采取的步驟：

1.——下載數據後，開始探索功能。查看數據類型。檢查變量類。創建一些單變量-雙變量圖來了解變量的性質。

2.——每個問題都有獨特的評估指標。你必須理解它，特別是它如何隨著目標變量的變化而變化。

3.——為避免過擬合，確定你在初期階段已經設置了交叉驗證策略。一個很好的CV策略將幫助你在排行榜上獲得可靠的得分。

4.——一旦CV在位，嚐試使用超參數調整來提高模型的精度。它還包括以下步驟：

數據轉換：包括縮放、移除異常值、處理空值、變換分類變量、做特征選擇、創建交互等步驟。
選擇算法並調整其超參數：嚐試多種算法來了解模型性能的變化。

GARCH
Python
聲音分類：普通神經網絡
FTRL

XGBoost

cv
cv
——使用以上混合技術。
排列
——使用隨機森林，
應用一些統計學的邏輯，如卡方檢驗，方差分析。

每個問題的數據操作可能不同：

tfidf
圖像分類：你可以進行縮放，調整大小，去除噪點（平滑），注釋等
Furrier
+1

10
50%
10%
然後在訓練集上擬合算法
評分驗證集。
保存與所選指標相關的得分結果。
10
SEED

KFold分層。在這裏閱讀

4.你能解釋一些用於交叉驗證的技術嗎？

Kfold
Kfold
X
時間分割
20

數據操作
- Numpy
- Scipy
- Pandas
數據可視化
- Matplotlib
/
- Xgboost
- Keras
- Nolearn
- Gensim
- Scikit image
自然語言處理
- NLTK

使用均值、模式、中位數進行插補
- 1
——例如與目標變量有關的事物。
用有意義的東西代替。例如：有時空可能意味著零
- 嚐試基於已知值子集來預測缺失值
- 可以考慮刪除具有許多空值的行

Java

linux

GPU

10.

11.

R
繼續學習的工具（如下所列）
讀一些書
“知識”比賽
“獲勝解決方案”
與更多的有經驗的人合作，但你需要在此之前稍微提高排名
創建一個代碼庫
多多參與！

12.

13.

幻燈片中了解到有關機器學習的一些基本算法和概念。這本書scikit Learn

kaggle

Andrew Ng

14.

vowpal wabbit

15.

商業問題：如何在線推薦產品以增加購買。
ml
/
找到最佳的解決方案來預測客戶最佳選擇。
/
/
將這些應用到聯機環境中。暴露一些客戶，但不是所有。保持測試組和對照組
評估算法的運行情況以及隨著時間的推移進行調整。

16.

17.

Python

18.

19.

在下一節中繼續回答有關機器學習競賽的另19個問題。

本文由北郵@愛可可-愛生活老師推薦，阿裏雲雲棲社區組織翻譯。

文章原標題《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》，作者：Team Machine Learning，譯者：tiamo_zn，審校：。

文章為簡譯，更為詳細的內容，請查看原文

最後更新：2017-04-16 22:02:11

教你如何在機器學習競賽中更勝一籌（上）

上一篇：開源維護者Lawso：最讓人火大的是哪類人？

下一篇：搭建有出入網能力的VPC網絡方案及模板實現

相關內容

熱門內容

最新內容

教你如何在機器學習競賽中更勝一籌（上）

上一篇： 開源維護者Lawso：最讓人火大的是哪類人？

下一篇： 搭建有出入網能力的VPC網絡方案及模板實現

相關內容

熱門內容

最新內容

上一篇：開源維護者Lawso：最讓人火大的是哪類人？

下一篇：搭建有出入網能力的VPC網絡方案及模板實現