教你如何在機器學習競賽中更勝一籌(上)
更多深度文章,請關注:https://yq.aliyun.com/cloud
Team Machine Learning。
Marios Michailidis
1.需翻牆觀看)
2.——視頻中使用的幻燈片由
3.——本博客列出所有參與者在研討會所問的問題。
1.ML問題的步驟是什麼?請從頭描述。
ML問題時我所采取的步驟:
1.——下載數據後,開始探索功能。 查看數據類型。 檢查變量類。 創建一些單變量-雙變量圖來了解變量的性質。
2.——每個問題都有獨特的評估指標。你必須理解它,特別是它如何隨著目標變量的變化而變化。
3.——為避免過擬合,確定你在初期階段已經設置了交叉驗證策略。一個很好的CV策略將幫助你在排行榜上獲得可靠的得分。
4.——一旦CV在位,嚐試使用超參數調整來提高模型的精度。 它還包括以下步驟:
-
數據轉換:包括縮放、移除異常值、處理空值、變換分類變量、做特征選擇、創建交互等步驟。
-
選擇算法並調整其超參數:嚐試多種算法來了解模型性能的變化。
-
-
2.
- GARCH
- Python
- 聲音分類:普通神經網絡
- FTRL
XGBoost
- cv
- cv
- ——使用以上混合技術。
- 排列
- ——使用隨機森林,
- 應用一些統計學的邏輯,如卡方檢驗,方差分析。
每個問題的數據操作可能不同:
-
-
tfidf
-
圖像分類:你可以進行縮放,調整大小,去除噪點(平滑),注釋等
-
Furrier
-
+1
3.
2
- 10
- 50%
- 10%
- 然後在訓練集上擬合算法
- 評分驗證集。
- 保存與所選指標相關的得分結果。
- 10
- SEED
KFold分層。 在這裏閱讀
4.你能解釋一些用於交叉驗證的技術嗎?
- Kfold
- Kfold
- X
- 時間分割
- 20
5.
2
6.
-
數據操作
- Numpy
- Scipy
- Pandas
-
數據可視化
- Matplotlib
-
/
- Xgboost
- Keras
- Nolearn
- Gensim
- Scikit image
-
自然語言處理
- NLTK
7.
- 使用均值、模式、中位數進行插補
- - 1
- ——例如與目標變量有關的事物。
-
用有意義的東西代替。例如:有時空可能意味著零
- 嚐試基於已知值子集來預測缺失值
- 可以考慮刪除具有許多空值的行
8.
Java
linux
9.
GPU
10.
11.
- R
- 繼續學習的工具(如下所列)
- 讀一些書
- “知識”比賽
- “獲勝解決方案”
- 與更多的有經驗的人合作,但你需要在此之前稍微提高排名
- 創建一個代碼庫
- 多多參與!
12.
- Liblinear
- LibSvm
- Scikit Learn
- Xgboost
- LightGBM
- Vowpal Wabbit
- encog
- H2O
- LibFm
- LibFFM
- JavaWeka
- Graphchi
-
GraphLab
-
Cxxnet
-
RankLib
-
KerasLasagne
13.
幻燈片中了解到有關機器學習的一些基本算法和概念。這本書scikit Learn
Andrew Ng
14.
vowpal wabbit
15.
- 商業問題:如何在線推薦產品以增加購買。
- ml
- /
- 找到最佳的解決方案來預測客戶最佳選擇。
- /
- /
- 將這些應用到聯機環境中。暴露一些客戶,但不是所有。保持測試組和對照組
- 評估算法的運行情況以及隨著時間的推移進行調整。
16.
17.
Python
18.
19.
在下一節中繼續回答有關機器學習競賽的另19個問題。
本文由北郵@愛可可-愛生活 老師推薦,阿裏雲雲棲社區組織翻譯。
文章原標題《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》,作者:Team Machine Learning,譯者:tiamo_zn,審校:。
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-04-16 22:02:11