阅读281 返回首页    go 技术社区[云栖]


5个步骤 & 7个提示 | 一份开启Kaggle竞赛征途的初学者指南

https://yq.aliyun.com/cloud

对于机器学习入门而言,我们一般都是从手写体MNIST、CIFAR-10等一些公开的数据集快速上手,复现别人的模型并得到一些好的结果。由于别人给出了相关的模型及步骤,做完这些复现总觉得太简单而没有收获,这是因为这些数据集及给出的模型都非常的完美。针对自己特定任务和数据集而言,数据集处理起来相当困难或者搭建的模型效果不好,让初学者不禁陷入沉思,是我们太菜了吗?

18796a24d786bede9affe72d45f1d1c9760d7c91

答案是肯定而又残酷的,但不要灰心,人生如栈,学习也一样。在懵懂中入栈,接触这个机器学习行业;每天忙于制作数据集与搭建模型,做着似乎总是重复的事情,出栈而又入栈,为的只是能搭建一个合适的模型,完成特定的任务;我们总说在哪里跌倒就在哪里爬起来,但是当一次次数据集制作与模型的仿真实验结果不好时,我们就像弹栈找不到返回地址,对自己感到迷茫,对机器学习这份行业感到犹豫。很幸运,你看到这篇文章,将告诉你在一个个栈的外边,隐藏着一个小平台,只要我们在制作数据集中多思考,在搭建模型中多尝试,不断进取,就能取得成功。这个平台对于机器学习行业者而言,并不陌生,那就是数据科学竞赛的热门平台——Kaggle。

Kaggle创办于2010年,目前已经被Google收购,是全球顶尖的数据科学竞赛平台,最近关于NIPS的生成对抗比赛可以见博主这篇文章《Kaggle首席技术官发布——(Kaggle)NIPS 2017对抗学习挑战赛起步指南》,感兴趣的同学可以立刻着手准备参加吧。Kaggle提供了一个介于“完美”与真实之间的过渡,问题的定义基本良好,却夹着或多或少的难点,一般没有完全成熟的解决方案。但我们也不要将kaggle上的比赛想得那么简单,毕竟,一些比赛有超过100万美元的奖池和数百个竞争对手另外有些顶尖的团队拥有数十年的综合经验,处理棘手的问题,如改善机场安全或分析卫星数据。

f97a0718abd7e37f9868c8eb0fd491a890a7b7fb

Kaggle

  • 如何开始
  • 会跟经验丰富的博士研究生队伍对抗吗?
  • 如果没有真正的获胜机会,那么值得竞争吗?

  • 如何提高排名?

5a8a83a6d219dbc0284b455056be6df62a893864

Kaggle VS. “

KaggleK

Kaggle

  •  
  •  


  • 问题可以很容易。事实上,数据科学家们应该尝试一些可以快速解决的有影响力的项目。
  • 解决方案可以是非常成熟的。 最常见的任务(例如探索性分析、数据清洗、A / B测试及经典算法)已经有成熟的框架,只需要应用就好。
  • 表现可以是绝对的。 即使只击败以前的基准,这个解决方案也可以是有价值的。Kaggle比赛鼓励参赛者展现出最好的一面,而典型的数据科学则会鼓励效率最大化商业影响。

Kaggle

尽管Kaggle和典型的数据科学存在差异,但不妨碍其


  •  

207268d6e50a864441635ca1be09c7163d34f16f

Kaggle

Kaggle

1

PythonKagglePython

2

Python

3

KagglePython  Scikit­Learn

4

Kaggle

  •  ­-
  •  -
  •  ­-
  •  ­-

e417b2334ce8d95a29d5db55527b7798fc7f4e53

5

Kaggle

7Kaggle

1

96d0252b2e06291f2fb9cab50d4acdf9a4856de2

Kaggle第一个里程碑,你可能会感到灰心丧气,经过几次尝试后就失去了动力。增量目标使得征途更加愉快。例如:

  • 提交一个超越基准的解决方案
  • 50
  • 25
  • 25
  • 10
  • 赢得一次比赛!

2

Kaggle

31c10cc814b9d040d04c31953017209da17291bf

3

4

5

6

Kaggler

7

3fceac56f420d516b16a37551c1c0f6c7437efe2

Kaggle起步

  • 1. 
  • 2. 
  • 3. 
  • 4. 
  • 5. 

7

  • 设置增量目标
  • 回顾大多数投票的核心程序
  • 在论坛上提问问题
  • 独立开发核心技能
  • 组对打破自身界限
  • Kaggle
  • 不要担心低

,如果你对这个教程感兴趣,可以在社区注册,你会收到更多的教程及一个免费的7天速成班课程。

EliteDataScience着名机器学习网站,分享数据科学及机器学习相关

网址https://elitedatascience.com/

Facebook: https://www.facebook.com/elitedatascience/

本文由阿里云云栖社区组织翻译

文章原标题《The Beginner’s Guide to Kaggle》,来源EliteDataScience

 

最后更新:2017-07-17 21:02:42

  上一篇:go  长周期指标的计算优化方案
  下一篇:go  我从可用性测试中学到的五件事