724 阿里云技术社区[云栖]

教你如何在机器学习竞赛中更胜一筹（上）

更多深度文章，请关注：https://yq.aliyun.com/cloud

Team Machine Learning。

Marios Michailidis

1.需翻墙观看）

2.——视频中使用的幻灯片由

3.——本博客列出所有参与者在研讨会所问的问题。

1.ML问题的步骤是什么？请从头描述。

ML问题时我所采取的步骤：

1.——下载数据后，开始探索功能。查看数据类型。检查变量类。创建一些单变量-双变量图来了解变量的性质。

2.——每个问题都有独特的评估指标。你必须理解它，特别是它如何随着目标变量的变化而变化。

3.——为避免过拟合，确定你在初期阶段已经设置了交叉验证策略。一个很好的CV策略将帮助你在排行榜上获得可靠的得分。

4.——一旦CV在位，尝试使用超参数调整来提高模型的精度。它还包括以下步骤：

数据转换：包括缩放、移除异常值、处理空值、变换分类变量、做特征选择、创建交互等步骤。
选择算法并调整其超参数：尝试多种算法来了解模型性能的变化。

GARCH
Python
声音分类：普通神经网络
FTRL

XGBoost

cv
cv
——使用以上混合技术。
排列
——使用随机森林，
应用一些统计学的逻辑，如卡方检验，方差分析。

每个问题的数据操作可能不同：

tfidf
图像分类：你可以进行缩放，调整大小，去除噪点（平滑），注释等
Furrier
+1

10
50%
10%
然后在训练集上拟合算法
评分验证集。
保存与所选指标相关的得分结果。
10
SEED

KFold分层。在这里阅读

4.你能解释一些用于交叉验证的技术吗？

Kfold
Kfold
X
时间分割
20

数据操作
- Numpy
- Scipy
- Pandas
数据可视化
- Matplotlib
/
- Xgboost
- Keras
- Nolearn
- Gensim
- Scikit image
自然语言处理
- NLTK

使用均值、模式、中位数进行插补
- 1
——例如与目标变量有关的事物。
用有意义的东西代替。例如：有时空可能意味着零
- 尝试基于已知值子集来预测缺失值
- 可以考虑删除具有许多空值的行

Java

linux

GPU

10.

11.

R
继续学习的工具（如下所列）
读一些书
“知识”比赛
“获胜解决方案”
与更多的有经验的人合作，但你需要在此之前稍微提高排名
创建一个代码库
多多参与！

12.

13.

幻灯片中了解到有关机器学习的一些基本算法和概念。这本书scikit Learn

kaggle

Andrew Ng

14.

vowpal wabbit

15.

商业问题：如何在线推荐产品以增加购买。
ml
/
找到最佳的解决方案来预测客户最佳选择。
/
/
将这些应用到联机环境中。暴露一些客户，但不是所有。保持测试组和对照组
评估算法的运行情况以及随着时间的推移进行调整。

16.

17.

Python

18.

19.

在下一节中继续回答有关机器学习竞赛的另19个问题。

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》，作者：Team Machine Learning，译者：tiamo_zn，审校：。

文章为简译，更为详细的内容，请查看原文

最后更新：2017-04-16 22:02:11

教你如何在机器学习竞赛中更胜一筹（上）

上一篇：开源维护者Lawso：最让人火大的是哪类人？

下一篇：搭建有出入网能力的VPC网络方案及模板实现

相关内容

热门内容

最新内容

教你如何在机器学习竞赛中更胜一筹（上）

上一篇： 开源维护者Lawso：最让人火大的是哪类人？

下一篇： 搭建有出入网能力的VPC网络方案及模板实现

相关内容

热门内容

最新内容

上一篇：开源维护者Lawso：最让人火大的是哪类人？

下一篇：搭建有出入网能力的VPC网络方案及模板实现