教你如何在机器学习竞赛中更胜一筹(上)
更多深度文章,请关注:https://yq.aliyun.com/cloud
Team Machine Learning。
Marios Michailidis
1.需翻墙观看)
2.——视频中使用的幻灯片由
3.——本博客列出所有参与者在研讨会所问的问题。
1.ML问题的步骤是什么?请从头描述。
ML问题时我所采取的步骤:
1.——下载数据后,开始探索功能。 查看数据类型。 检查变量类。 创建一些单变量-双变量图来了解变量的性质。
2.——每个问题都有独特的评估指标。你必须理解它,特别是它如何随着目标变量的变化而变化。
3.——为避免过拟合,确定你在初期阶段已经设置了交叉验证策略。一个很好的CV策略将帮助你在排行榜上获得可靠的得分。
4.——一旦CV在位,尝试使用超参数调整来提高模型的精度。 它还包括以下步骤:
-
数据转换:包括缩放、移除异常值、处理空值、变换分类变量、做特征选择、创建交互等步骤。
-
选择算法并调整其超参数:尝试多种算法来了解模型性能的变化。
-
-
2.
- GARCH
- Python
- 声音分类:普通神经网络
- FTRL
XGBoost
- cv
- cv
- ——使用以上混合技术。
- 排列
- ——使用随机森林,
- 应用一些统计学的逻辑,如卡方检验,方差分析。
每个问题的数据操作可能不同:
-
-
tfidf
-
图像分类:你可以进行缩放,调整大小,去除噪点(平滑),注释等
-
Furrier
-
+1
3.
2
- 10
- 50%
- 10%
- 然后在训练集上拟合算法
- 评分验证集。
- 保存与所选指标相关的得分结果。
- 10
- SEED
KFold分层。 在这里阅读
4.你能解释一些用于交叉验证的技术吗?
- Kfold
- Kfold
- X
- 时间分割
- 20
5.
2
6.
-
数据操作
- Numpy
- Scipy
- Pandas
-
数据可视化
- Matplotlib
-
/
- Xgboost
- Keras
- Nolearn
- Gensim
- Scikit image
-
自然语言处理
- NLTK
7.
- 使用均值、模式、中位数进行插补
- - 1
- ——例如与目标变量有关的事物。
-
用有意义的东西代替。例如:有时空可能意味着零
- 尝试基于已知值子集来预测缺失值
- 可以考虑删除具有许多空值的行
8.
Java
linux
9.
GPU
10.
11.
- R
- 继续学习的工具(如下所列)
- 读一些书
- “知识”比赛
- “获胜解决方案”
- 与更多的有经验的人合作,但你需要在此之前稍微提高排名
- 创建一个代码库
- 多多参与!
12.
- Liblinear
- LibSvm
- Scikit Learn
- Xgboost
- LightGBM
- Vowpal Wabbit
- encog
- H2O
- LibFm
- LibFFM
- JavaWeka
- Graphchi
-
GraphLab
-
Cxxnet
-
RankLib
-
KerasLasagne
13.
幻灯片中了解到有关机器学习的一些基本算法和概念。这本书scikit Learn
Andrew Ng
14.
vowpal wabbit
15.
- 商业问题:如何在线推荐产品以增加购买。
- ml
- /
- 找到最佳的解决方案来预测客户最佳选择。
- /
- /
- 将这些应用到联机环境中。暴露一些客户,但不是所有。保持测试组和对照组
- 评估算法的运行情况以及随着时间的推移进行调整。
16.
17.
Python
18.
19.
在下一节中继续回答有关机器学习竞赛的另19个问题。
本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。
文章原标题《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》,作者:Team Machine Learning,译者:tiamo_zn,审校:。
文章为简译,更为详细的内容,请查看原文
最后更新:2017-04-16 22:02:11