閱讀456 返回首頁    go 阿裏雲 go 技術社區[雲棲]


創始人Anthony解答30個關於Kaggle的問題

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


Kaggle是全球機器學習競賽、開放數據集和數據科學合作的發源地。在被穀歌收購之際,Kaggle已經舉辦了許多備受矚目的比賽,最近跨過了百萬用戶的大關,進一步在數據科學界鞏固了它家喻戶曉的地位。

近日,Kaggle創始人兼CEO Anthony Goldbloom參加了一個Ask Me Anything的活動,回答了與會者30餘個關於Kaggle的問題,分享了他創立Kaggle七年來的心得和對未來的展望。


主持人:首先,請允許我代表大家感謝你創立了Kaggle。你可以和大家分享一些你的個人情況嗎?比如你來自哪裏,你在學校學過什麼,為什麼你認為Kaggle對數據科學的未來很重要?


Anthony:我來自澳大利亞的墨爾本。我在墨爾本大學學習計量經濟學(主要是經濟數據)。我大學畢業後的第一份工作是在澳大利亞財政部工作,預測GDP、通貨膨脹和失業。我喜歡玩轉數據,但傳統的經濟數據規模很小而且噪聲很大,所以很難得出有趣的發現,這是最令我感到受挫的。

 

創建Kaggle的想法實際上源於我想獲得更有趣的數據集和問題。當然,這有點諷刺,因為我沒有機會參與其中。但塞翁失馬呀,後來我意識到在Kaggle上有太多大神,我就算做了可能也不會那麼好…


我們的目標是讓Kaggle成為一個充滿活力的代碼、數據和討論的生態係統。如果你在其他地方做數據科學/機器學習,你的起步時從一個閃爍的光標和一個空白的區域。而在Kaggle,我們是希望你能夠可以獲得可以複製的好代碼,可以直接分析的數據以及可以直接參與討論共同學習進步。我們從比賽開始,到現在有了Kaggle Kernels和公共數據平台。我們近期的重點是讓Kaggle Kernels更加靈活和強大,您可以使用它來進行更重的計算、選擇硬件、安裝軟件包等;還要大量增加公共數據平台上的數據集規模。隨著時間的推移,我們希望你能夠使用Kaggle在工作的同時,來學習、獲得資格認證,也能從中獲得樂趣。

 

Q:從你創建Kaggle已經7年過去了。與你最初的願景相比,什麼已經實現了?什麼還沒?什麼讓你最滿意,收獲的最大驚喜是?最大的遺憾有是什麼呢?

 

Anthony:坦白說,7年前我們做這件事的時候其實沒有什麼宏達的願景。更多的是我覺得我們的世界上需要有Kaggle的存在。可以說,我們的目標是隨著Kaggle的不斷發展壯大在增長的。每當我們取得新的成功,我們就會為下一件事而努力。最大的滿足感在於當聽到我們的用戶說Kaggle給他們提供了之前不可能擁有的可能。當然,我也是很開心Kaggle已經成為了一個家喻戶曉的數據科學/機器學習品牌。

 

最大的遺憾應該就是是我們沒有盡早推出Kaggle Kernels和公共數據平台——我對Kaggle的這些領域感到非常興奮。我們還有更多的事情可以做,如果我們早點開始的話,這就會是比現在更先進的產品。

 

Q:在2015年,受Kaggle啟發,我辭去了工作,開始專注做自己的數據科學谘詢業務。我麵臨的最大挑戰之一是找到預測建模項目的高質量大客戶。請問有什麼建議嗎?

 

Anthony:這很難。我認為現階段的公司主要還都在研究如何更全麵地使用數據科學/機器學習/預測建模的探索階段,因此他們的很多用例相對來說都沒有很複雜。為了找到更高級的客戶,你可以看看在Kaggle的社區上發布的公司屬性(如果他們了解Kaggle,說明他們還是比較超前的;如果他們在招聘,說明他們還有未滿足的需求,而谘詢可能會是另一個滿足需求的方法)。也就是說,如果你想做更高級的工作,谘詢可能並不合適。建議是在一個已經意識到數據科學/機器學習/預測建模的優勢的前沿公司找到一份工作可能會更好。

 

Q:穀歌為什麼要收購Kaggle?怎麼樣讓二者相得益彰?

 

Anthony:目前三大雲服務商玩家——AWS、Azure和穀歌雲正在進行激烈的較量。穀歌雲的優勢之一是最好的機器學習雲:通過Google CloudML Engine等提供TPU、Tensorflow服務。Kaggle是世界上最大的機器學習和數據科學社區,所以收購Kaggle可以讓Google Cloud將這些工具提供給我們的社區,用戶在使用時可以獲取反饋和更多的推廣。從Kaggle的角度來看,也是一件好事。它使得我們可以為社區提供更強大的計算機/服務(可能出現在Kaggle Kernels),比我們作為一個小型獨立公司要好很多。

 

Q:在Kaggle的“成長”過程中,你是否經曆過明顯的願景和商業模式上的轉型?在這個過程中,什麼類型的支持讓你記憶深刻?可以分享一下嘛?

 

Anthony:早些時候,Kaggle談不上是什麼遠大理想,更多的是一個有趣的項目。隨著我們的不斷成功才有了更遠大的理想。早期,我們從機器學習競賽中獲得了所有收入,但那並不是很賺錢。因為當時機器學習還非常不成熟,所以機器學習競賽沒有多少市場。2013年,我們研究了其他可盈利的業務:比如在特定行業形成專業知識,並為該行業構建機器學習的解決方案。我們選擇石油和天然氣作為我們的第一產業,並把殼牌選作想要和我們做更多的客戶,我們認為市場機會是好的。當油價在2014年末暴跌時,該行業變得非常有挑戰性。但這時機器學習市場已經開始成熟,所以我們可以回到機器學習比賽上來建立強大的業務。我們還推出了一個工作板塊,這對我們來說也是一個很好的收入來源。展望未來,我們願意提供其他服務,包括允許公司在其數據科學團隊中使用Kaggle Kernels。

 

我們也有著一路支持的投資者,他們看過許多企業的迂回曲折,為我們發展業務決策提供了很多有用的視角。

 

Q:如果想在Kaggle取得成功,需要具備的技能有哪些呢?比如模型融合(stacking、blending)等。同時,作為一名學生,我一般不參加那些有大量數據集的難題,主要是硬件的瓶頸。你願意在穀歌雲上提供免費的時間嗎?

 

Anthony:我建議你在博客上閱讀獲勝者的采訪。你會從比我更聰明的人那裏學習到更多!我們希望在成為Google的一員後,能夠為我們的社區提供更多的計算力,特別是在大型的比賽中。目前這一部分還在進行中。

 

Q:關於怎樣開始學習深度學習技能,你有什麼建議?


Anthony:我覺得fast.ai(https://course.fast.ai/)課程就很好。

 

Q:我注意到圖像分類比賽數量有所增加,這是Kaggle的一個新趨勢嗎?以前的“Private Masters”的風格是否會卷土重來?

 

Anthony:我們不決定我們要組織什麼比賽——這取決於我們的客戶給我們帶來什麼。我們最近一直在增加競爭團隊(你們很多人都知道連Walter Reade都加入了!)所以我們希望能舉行更多的比賽。我們負責比賽的團隊也為第三季度設定了一個更好的目標,所以我們正在嚐試。

 

Q:對於你的客戶(讚助比賽的公司)來說,幾乎所有的解決方案都涉及模型的組合定義,你是如何看待這個問題?你是否有計劃會發布一個全新的比賽,要求最後的提交都是基於一個不需要整合的簡單模型?

 

Anthony:在給獲勝者的介紹方案中,我們要求他們分享一個性能在90%-95%的簡單模型細節。在實際操作中,這些簡單的模型通常表現得更接近集成模型的99%,對客戶來說更有用。未來的一種可能是,在之後的比賽中,我們來限製計算約束,來有效限製瘋狂創建集合的能力。

 

Q:作為創始人你最喜歡的是什麼?


Anthony:8年前,最初的Kaggle隻是一個閃爍的光標和Vim文本編輯器。我真的為我們所建立的事業感到驕傲:有那麼多聰明的人選擇把一天的時間花全心投入,這是非常有益的。

 

Q:如果你把自己列為Kaggle的排行榜,那麼你認為你會排在哪裏?


Anthony:我想我可以到Expert,但到Master還是有點困難,除非我抱到了一個大腿,成為Grandmaster估計是沒戲了。我以前認為我是一個很好的統計學家和一個好的程序員:經過多年在Kaggle社區的觀察,我再也不這麼認為了。

 

Q:Kaggle的數據科學家團隊現在有多大?


Anthony:我們的數據科學團隊隻有三個人——Wendy, Will和Walter。他們與客戶合作推出比賽。我們現在規模還很小,隻有24個人,也沒有辦公室,團隊大部分人都在遠程工作。

 

Q:你什麼時候第一次遇見“數據科學”,你如何知道這就是你今後要走的路?

 

Anthony:我在大學畢業後的第一份工作是預測GDP,通貨膨脹和失業率。我喜歡玩數據!每個數據集都有其秘密,我認為嚐試去發現這些隱藏在數據背後的秘密是令人興奮的。

 

Q:有沒有什麼比賽是你希望Kaggle舉辦但還沒有辦的?

 

Anthony:私下裏我一直在參加kitefoil的比賽。我希望對風的預測能有一個更好的模型,所以我一直希望能辦一個和風的預測有關的比賽。

 

Q:在未來5-10年裏,你期待看到什麼類型的AI相關技術?(刨去汽車相關的)

 

Anthony:今年11月,我的第一個孩子就要出生了。昨晚我還和我的妻子開玩笑說:要是能有一個自動駕駛的嬰兒車也蠻不賴的。人類在語音識別領域取得的進展也讓我很興奮。我已經買了一個Google Home智能音箱放在家裏,用起來感覺很不錯。我期待有一天我再也不用一直看著手機了,而是可以用語音來進行一切指令的操作。

 

Q:未來10年,數據科學(ML/DL)將會擁有一個怎樣的未來呢?

 

Anthony:我很喜歡William Gibson的名言:未來已來,隻是尚未流行。像穀歌這樣的公司已經展示了在Google Home、穀歌照片、Word Lens等app中數據科技可以企及的高度。未來10年,我們將看到越來越多的機器學習應用在我們的產品中。希望之後我們也能開始看到如今學術界流行的一些技術(如強化學習,GAN等)能應用在現實的產品中。

 

Q:對於在數據科學領域創業的創業者,你能否給3點建議?

 

Anthony:其實我隻有2點建議,但這也是最重要的2點。

  • 去解決那些你自己有切身體會,你覺得其他人也正經曆,而且還沒有被解決的問題;

  • 你要對這個問題充滿熱情。

 

Q:有沒有計劃向那些對使用公開地址有疑惑的大企業提供企業版的Kaggle?我想這可能對Kaggle來說是一個比較好的發展機會。

 

Anthony:當然考慮過啦~我們在計劃啟動一些大企業內部的比賽,幾家企業可以打通數據集。但這個優先級目前還沒有那麼高,預計大概要到2018年才會和大家見麵了吧。

 

Q:個人來說,我相信Kaggle Kernels是目前數據科學領域最好的一個發明。你們早開始創建它是源於怎麼樣的動力呢?

 

Anthony:之前Kaggle上有很多附上code的用戶討論,但是那些code很少是有人跑過的。經常是有不少人點讚,但沒有回複。這讓我們意識到,其實要跑通其他人的code是一個真實的痛點。大部分的人來Kaggle都是來學習的,因此我們發布的Kaggle Kernel來確保我們有更豐富的學習體驗,以及讓kenerl的作者機會來展示他們的聰明才智。

 

Q:你能不能和我們大家分享兩個Kaggle成立以來最困難的時刻?


Anthony:大概在2013年,Kaggle最早是專注在垂直行業起家的,我們用一個個case來拉動我們的業務增長。剛開始我們專注在石油和天燃氣行業,但是2014年油價大跌,我們大部分的收入就沒了。我們必須裁員以求自保。另外,在商業中我學到的最多的就是要招那些聰明但是不自負的人。Kaggle剛開始的時候,我們總是追求一個人是不是聰明。但那是錯的。因為在實際的工作中,你是很難去跟那些自以為是的人去合作的。

 

Q:在Kaggle得到第一筆投資前,你拜訪了多少個投資人呢?能和我們分享一下麼?

 

Anthony:融資總是很難的。VC一般每年會看成百上千個項目,然後從中選兩個投。我們的第一輪相對容易一些:找了大概30家機構,然後有4家對我們感興趣的。我們的第二輪就比較難了(就是在油價大跌之後),我們找了60家機構,隻有一家感興趣的。

 

Q:你是如何遇到Kaggle的CTO兼聯合創始人Ben Hamner的?

 

Anthony:最早是在悉尼的ICDM 2010大會上。Ben Hamner也在那個大會上,因為他參加了ICDM的機器學習挑戰賽。我當時去那兒是為了安利Kaggle。然後Ben就開始在Kaggle上參加比賽了,而且表示地非常積極。2012年我又見到他了,那時候他在灣區麵試Google。不過最後他還是放棄Google,加入了我們。

 

Q:如果在創立一家數據科學領域相關的公司,哪些是最需要考慮的點?

 

Anthony:現在來看的話,這已經是一個相當擁護的領域了。首先,你要確保你有一個不同的切入點。Kaggle其實是很幸運的,因為我們在大家關注之前創立了公司。所以,當出現泡沫的時候,我們反而受益了。現在大家對數據科學和機器學習的關注度這麼高,要脫穎而出其實是更難了。

 

Q:如果可以作一個超級英雄,你最想成為誰?


Anthony:不知道他算不算,我想成為《安德的遊戲》(Ender's Game)裏的Andrew 'Ender' Wiggin。


最後謝謝所有成就了Kaggle的今天的你們! 未來Kaggle還有更多令人興奮的事情,希望你繼續從中找尋喜歡和寶貴的事情~



2017-08-19


最後更新:2017-10-11 11:34:22

  上一篇:go  數據蔣堂 | 從SQL語法看集合化
  下一篇:go  java 異常