阅读724 返回首页    go 阿里云 go 技术社区[云栖]


教你如何在机器学习竞赛中更胜一筹(上)

更多深度文章,请关注:https://yq.aliyun.com/cloud


Team Machine Learning


Marios Michailidis

1.需翻墙观看

2.——视频中使用的幻灯片由

3.——本博客列出所有参与者在研讨会所问的问题。

1.ML问题的步骤是什么?请从头描述。

ML问题时我所采取的步骤:

1.——下载数据后,开始探索功能。 查看数据类型。 检查变量类。 创建一些单变量-双变量图来了解变量的性质。

2.——每个问题都有独特的评估指标。你必须理解它,特别是它如何随着目标变量的变化而变化。

3.——为避免过拟合,确定你在初期阶段已经设置了交叉验证策略。一个很好的CV策略将帮助你在排行榜上获得可靠的得分。

4.——一旦CV在位,尝试使用超参数调整来提高模型的精度。 它还包括以下步骤:

  • 数据转换:包括缩放、移除异常值、处理空值、变换分类变量、做特征选择、创建交互等步骤。
  • 选择算法并调整其超参数:尝试多种算法来了解模型性能的变化。


2.

  • GARCH
  • Python
  • 声音分类:普通神经网络
  • FTRL

XGBoost

  • cv
  • cv
  • ——使用以上混合技术。
  • 排列
  • ——使用随机森林,
  • 应用一些统计学的逻辑,如卡方检验,方差分析。

每个问题的数据操作可能不同:


  • tfidf
  • 图像分类:你可以进行缩放,调整大小,去除噪点(平滑),注释等
  • Furrier
  • +1

3.

2

  • 10
  • 50%
  • 10%
  • 然后在训练集上拟合算法
  • 评分验证集。
  • 保存与所选指标相关的得分结果。
  • 10
  • SEED

KFold分层。 在这里阅读

4.你能解释一些用于交叉验证的技术吗?

  • Kfold
  • Kfold
  • X
  • 时间分割
  • 20

5.

2

6.

  • 数据操作
    • Numpy
    • Scipy
    • Pandas
  • 数据可视化
    • Matplotlib
  • /
    • Xgboost
    • Keras
    • Nolearn
    • Gensim
    • Scikit image
  • 自然语言处理
    • NLTK

7.

  • 使用均值、模式、中位数进行插补
  • - 1
  • ——例如与目标变量有关的事物。
  • 用有意义的东西代替。例如:有时空可能意味着零
    • 尝试基于已知值子集来预测缺失值
    • 可以考虑删除具有许多空值的行

8.

Java

linux

9.

GPU

10.

11.

  • R
  • 继续学习的工具(如下所列)
  • 读一些书
  • “知识”比赛
  • “获胜解决方案”
  • 与更多的有经验的人合作,但你需要在此之前稍微提高排名
  • 创建一个代码库
  • 多多参与!

12.

13.

幻灯片中了解到有关机器学习的一些基本算法和概念。这本书scikit Learn

kaggle

Andrew Ng

14.

vowpal wabbit

15.

  • 商业问题:如何在线推荐产品以增加购买。
  • ml
  • /
  • 找到最佳的解决方案来预测客户最佳选择。
  • /
  • /
  • 将这些应用到联机环境中。暴露一些客户,但不是所有。保持测试组和对照组
  • 评估算法的运行情况以及随着时间的推移进行调整。

16.

17.

Python

18.

19.


在下一节中继续回答有关机器学习竞赛的另19个问题。


本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Winning Tips on Machine Learning Competitions by Kazanova, Current Kaggle #3》,作者:Team Machine Learning译者:tiamo_zn,审校:。

文章为简译,更为详细的内容,请查看原文

最后更新:2017-04-16 22:02:11

  上一篇:go 开源维护者Lawso:最让人火大的是哪类人?
  下一篇:go 搭建有出入网能力的VPC网络方案及模板实现