281
技术社区[云栖]
5个步骤 & 7个提示 | 一份开启Kaggle竞赛征途的初学者指南
对于机器学习入门而言,我们一般都是从手写体MNIST、CIFAR-10等一些公开的数据集快速上手,复现别人的模型并得到一些好的结果。由于别人给出了相关的模型及步骤,做完这些复现总觉得太简单而没有收获,这是因为这些数据集及给出的模型都非常的完美。针对自己特定任务和数据集而言,数据集处理起来相当困难或者搭建的模型效果不好,让初学者不禁陷入沉思,是我们太菜了吗?
答案是肯定而又残酷的,但不要灰心,人生如栈,学习也一样。在懵懂中入栈,接触这个机器学习行业;每天忙于制作数据集与搭建模型,做着似乎总是重复的事情,出栈而又入栈,为的只是能搭建一个合适的模型,完成特定的任务;我们总说在哪里跌倒就在哪里爬起来,但是当一次次数据集制作与模型的仿真实验结果不好时,我们就像弹栈找不到返回地址,对自己感到迷茫,对机器学习这份行业感到犹豫。很幸运,你看到这篇文章,将告诉你在一个个栈的外边,隐藏着一个小平台,只要我们在制作数据集中多思考,在搭建模型中多尝试,不断进取,就能取得成功。这个平台对于机器学习行业者而言,并不陌生,那就是数据科学竞赛的热门平台——Kaggle。
Kaggle创办于2010年,目前已经被Google收购,是全球顶尖的数据科学竞赛平台,最近关于NIPS的生成对抗比赛可以见博主这篇文章《Kaggle首席技术官发布——(Kaggle)NIPS 2017对抗学习挑战赛起步指南》,感兴趣的同学可以立刻着手准备参加吧。Kaggle提供了一个介于“完美”与真实之间的过渡,问题的定义基本良好,却夹着或多或少的难点,一般没有完全成熟的解决方案。但我们也不要将kaggle上的比赛想得那么简单,毕竟,一些比赛有超过100万美元的奖池和数百个竞争对手;另外有些顶尖的团队拥有数十年的综合经验,处理棘手的问题,如改善机场安全或分析卫星数据。
Kaggle
- 如何开始
- 会跟经验丰富的博士研究生队伍对抗吗?
- 如果没有真正的获胜机会,那么值得竞争吗?
-
- 如何提高排名?
Kaggle VS. “
KaggleK
Kaggle
-
问题可以很容易。事实上,数据科学家们应该尝试一些可以快速解决的有影响力的项目。
-
解决方案可以是非常成熟的。 最常见的任务(例如探索性分析、数据清洗、A / B测试及经典算法)已经有成熟的框架,只需要应用就好。
-
表现可以是绝对的。 即使只击败以前的基准,这个解决方案也可以是有价值的。Kaggle比赛鼓励参赛者展现出最好的一面,而典型的数据科学则会鼓励效率并最大化商业影响。
Kaggle
尽管Kaggle和典型的数据科学存在差异,但不妨碍其
Kaggle
Kaggle
1
PythonKagglePython
2
Python
3
KagglePython ScikitLearn
4
Kaggle
-
-
-
-
-
-
-
-
5
“
Kaggle
7Kaggle
1
Kaggle第一个里程碑,你可能会感到灰心丧气,经过几次尝试后就失去了动力。增量目标使得征途更加愉快。例如:
- 提交一个超越基准的解决方案
-
50
-
25
-
25
-
10
- 赢得一次比赛!
2
Kaggle

3
“
4
5
6
Kaggler
7
“”“
Kaggle起步
- 1.
- 2.
- 3.
- 4. “
- 5.
7
- 设置增量目标
- 回顾大多数投票的核心程序
- 在论坛上提问问题
- 独立开发核心技能
- 组对打破自身界限
- Kaggle
-
不要担心低
,如果你对这个教程感兴趣,可以在社区注册,你会收到更多的教程及一个免费的7天速成班课程。
EliteDataScience:着名机器学习网站,分享数据科学及机器学习相关。
网址:https://elitedatascience.com/
Facebook: https://www.facebook.com/elitedatascience/
本文由阿里云云栖社区组织翻译
文章原标题《The Beginner’s Guide to Kaggle》,来源:EliteDataScience,
最后更新:2017-07-17 21:02:42