阅读789 返回首页    go 技术社区[云栖]


5个步骤 & 7个提示 | 一份开启Kaggle竞赛征途的初学者指南

首发地址:https://yq.aliyun.com/articles/129749


https://yq.aliyun.com/cloud

对于机器学习入门而言,我们一般都是从手写体MNIST、CIFAR-10等一些公开的数据集快速上手,复现别人的模型并得到一些好的结果。由于别人给出了相关的模型及步骤,做完这些复现总觉得太简单而没有收获,这是因为这些数据集及给出的模型都非常的完美。针对自己特定任务和数据集而言,数据集处理起来相当困难或者搭建的模型效果不好,让初学者不禁陷入沉思,是我们太菜了吗?

18796a24d786bede9affe72d45f1d1c9760d7c91

答案是肯定而又残酷的,但不要灰心,人生如栈,学习也一样。在懵懂中入栈,接触这个机器学习行业;每天忙于制作数据集与搭建模型,做着似乎总是重复的事情,出栈而又入栈,为的只是能搭建一个合适的模型,完成特定的任务;我们总说在哪里跌倒就在哪里爬起来,但是当一次次数据集制作与模型的仿真实验结果不好时,我们就像弹栈找不到返回地址,对自己感到迷茫,对机器学习这份行业感到犹豫。很幸运,你看到这篇文章,将告诉你在一个个栈的外边,隐藏着一个小平台,只要我们在制作数据集中多思考,在搭建模型中多尝试,不断进取,就能取得成功。这个平台对于机器学习行业者而言,并不陌生,那就是数据科学竞赛的热门平台——Kaggle。

Kaggle创办于2010年,目前已经被Google收购,是全球顶尖的数据科学竞赛平台,最近关于NIPS的生成对抗比赛可以见博主这篇文章《Kaggle首席技术官发布——(Kaggle)NIPS 2017对抗学习挑战赛起步指南》,感兴趣的同学可以立刻着手准备参加吧。Kaggle提供了一个介于“完美”与真实之间的过渡,问题的定义基本良好,却夹着或多或少的难点,一般没有完全成熟的解决方案。但我们也不要将kaggle上的比赛想得那么简单,毕竟,一些比赛有超过100万美元的奖池和数百个竞争对手另外有些顶尖的团队拥有数十年的综合经验,处理棘手的问题,如改善机场安全或分析卫星数据。

f97a0718abd7e37f9868c8eb0fd491a890a7b7fb

Kaggle

  • 如何开始
  • 会跟经验丰富的博士研究生队伍对抗吗?
  • 如果没有真正的获胜机会,那么值得竞争吗?
  • Kaggle
  • 如何提高排名?

在本指南中,我们将分解一些需要了解的入门知识的建议

5a8a83a6d219dbc0284b455056be6df62a893864

Kaggle VS. “

首先,我们需要弄清楚:

KaggleK仍然会提供宝贵的经验。

Kaggle

本质上,比赛必须符合以下几个标准:

  • 问题一定很难 一般会提交它们遇到的最大的问题。
  • 解决方案必须是新的 
  • 表现是相对的。比赛只产生一个冠军,所以你的解决方案必须打败对方。

相比之下,典型数据科学不需要符合上述标准。

  • 问题可以很容易。事实上,数据科学家们应该尝试一些可以快速解决的有影响力的项目。
  • 解决方案可以是非常成熟的。 最常见的任务(例如探索性分析、数据清洗、A / B测试及经典算法)已经有成熟的框架,只需要应用就好。
  • 表现可以是绝对的。 即使只击败以前的基准,这个解决方案也可以是有价值的。Kaggle比赛鼓励参赛者展现出最好的一面,而典型的数据科学则会鼓励效率最大化商业影响。

Kaggle

尽管Kaggle和典型的数据科学存在差异,但不妨碍其

  • 每场比赛都是独立的。你不需要创建自己的项目和收集数据,这可以让你专注于其他技能。
  • 实践就是练习 学习数据科学的最好方法是通过实践来学习。只要不太看重每次比赛的输赢,你仍然可以练习有趣的问题。
  • 讨论和获奖者采访是有启发性的。每个比赛都有自己的讨论版块和。从中可以学习有经验的数据科学家的思想过程。

207268d6e50a864441635ca1be09c7163d34f16f

Kaggle

Kaggle慢慢提升自己。

1

Python语言Kaggle推荐Python

2

加载、操纵和绘制数据的能力是数据科学的第一步,因为它会通过模型训练得到各种决策。

如果选择Python

3

参加Kaggle比赛之前,建议你在一个更容易、更易于管理的数据集上训练一个模型。关键是要养成良好的习惯,例如将数据集分成单独的训练集和测试集,交叉验证以避免过拟合,并使用适当的性能指标Python而言  Scikit­Learn

4

Kaggle

  • 特色 ­-
  • 研究 -
  •  ­-
  • 入门 ­-教程和滚动提交窗口,因此可以随时参加这类比赛

的支持

e417b2334ce8d95a29d5db55527b7798fc7f4e53

5

这类比赛将花费更多的时间和精力。因此,建议合理地选择相应的比赛,不要太在意奖金,而是着重发展自己的职业技能。

Kaggle

7Kaggle的时间。

1

如果你曾经玩过一个令人上瘾的游戏,你就会知道增量目标的力量。设置每个目标都足够大,完成后获得成就感。

96d0252b2e06291f2fb9cab50d4acdf9a4856de2

Kaggle永远不会赢得一场比赛,这完全是正常的。如果你将这个设定为你的第一个里程碑,你可能会感到灰心丧气,经过几次尝试后就失去了动力。增量目标使得征途更加愉快。例如:

  • 提交一个超越基准的解决方案
  • 50
  • 25
  • 25
  • 10
  • 赢得一次比赛!

这个策略将让你衡量自己的进步

2

Kaggle是展示技术或共享解决方案的简短脚本,当你开始一场比赛或者遇到瓶颈时,回顾这些核心程序可以激发更多的想法。

31c10cc814b9d040d04c31953017209da17291bf

3

4

一开始建议单独工作。这将迫使你在应用机器学习过程中亲自处理每一个步骤,包括探索性分析、数据清洗及模型训练等。

5打破你的界限。

在之后的比赛中组队可以打破你的界限并向他人学习。许多过去的获奖者都是团结一致的团队。另外,掌握机器学习的技能后,你可以与拥有更多领域知识的其他人进行合作,进一步扩大自己的机遇。

6

记住,你不一定要成为一个长期的Kaggler

7

一些初学者不愿意开始是因为担心自己的个人资料中出现低排名记录。然而,低排名实际上对自己没有很大影响,因为其他人不会评判你,大家都是初学者。如果仍然担心个人资料中出现低排名,可以创建练习帐户来学习。(声明,这是完全必要的!)

3fceac56f420d516b16a37551c1c0f6c7437efe2

Kaggle起步

  • 1. 
  • 2. 
  • 3. 
  • 4. 处理
  • 5. 

7

  • 设置增量目标
  • 回顾大多数投票的核心程序
  • 在论坛上提问问题
  • 独立开发核心技能
  • 组对打破自身界限
  • Kaggle
  • 不要担心低

社区注册,你会收到更多的教程及一个免费的7天速成班课程。

EliteDataScience着名机器学习网站,分享数据科学及机器学习相关

网址https://elitedatascience.com/

Facebook: https://www.facebook.com/elitedatascience/

本文由阿里云云栖社区组织翻译

文章原标题《The Beginner’s Guide to Kaggle》,来源EliteDataScience

文章为简译,更为详细的内容,请查看

最后更新:2017-07-27 09:03:27

  上一篇:go  Kaggle首席技术官发布——(Kaggle)NIPS 2017对抗学习挑战赛起步指南
  下一篇:go  机器学习中的技术债务