近300位數據挖掘專家雲集阿裏,最精彩的發言都在這兒
2017年6月29日,中國杭州阿裏巴巴西溪園區,首屆數據挖掘前沿發展與未來論壇成功舉辦。作為阿裏巴巴集團、中國中文信息學會和KDD China三方聯合打造的國內業界和學界頂尖數據挖掘論壇,會議吸引了來自國內頂級高校和知名企業的近300名專家學者到場參會。
眾多數據挖掘領域大咖如:阿裏巴巴iDST負責人金榕、螞蟻金服人工智能部技術總監李小龍、IEEE Fellow、ACM Fellow、AAAI Fellow國立台灣大學教授林智仁、清華大學計算機係副教授崔鵬、中科院副研究員羅平等齊聚一堂,共同探討數據挖掘領域前沿研究。
下麵隨阿裏妹一起,看看諸位大牛的精彩觀點吧!
金榕,阿裏巴巴iDST(Institute of Data Science&Technologies 數據科學與技術研究院)負責人;美國密歇根州立大學終身教授,曾擔任NIPS、SIGIR等頂級國際會議領域主席和 KDD、AAAI、IJCAI等頂級會議高級程序委員會委員;ACM中國理事會常務理事。
精準匹配的目標就是試著在作用者和任務間做出最佳的任務分配。每當你分配特定任務時,即某個作用者所要實現的目標,你將得到一個不同的參數。難點就是該如何發現最佳的任務分配,從而使整體的獎勵參數是互補的。很多情況下,每個任務都隻能被分配給有限的作用者,或者某個作用者隻被允許完成少量的任務。
淘寶“問大家”功能實現了大規模在線精準匹配,比如有些人想要購買毛衣,但他對此持有疑問,係統發現確實有機會或有潛力回答這些問題的用戶後,在抽象意義上匹配這個問題,從而對問題進行精準分配。“問大家”功能可以實現這樣的效果,由於阿裏一方麵擁有在做出最終決定之前持有疑問的不同用戶所提出的問題;另一方麵擁有那些有潛力的回答問題的用戶數據,這樣係統就可以順利進行在線大規模精準匹配。雖然如今大多數人聚焦於學習預測,但實際上,這是一個很長的過程。我認為未來以及接下來要做的事就是充分使用大規模在線匹配預測來為任務進行最佳安排。
國立台灣大學教授、IEEE Fellow、ACM Fellow、AAAI Fellow。
在大數據時代,越來越大規模的數據需要處理。數據通常太大無法存儲在一個電腦中,但何時該使用分布式機器學習是個仍需探討的課題。采樣數據存儲在一個電腦是一個容易和直接的選項。而且根據過去的統計,一個觀點是說電腦存儲增大的速度比數據增大的速度還要來的快。但另一方麵,因為互聯網公司的數據已經存儲在分布式係統中,如果我們直接進行分布式機器學習,工作流將不會中斷。我認為傳統的單機設置和新的分布式設置對於大數據機器學習都很重要,但實際使用遇到的問題決定采取哪個途徑。
圖中從左至右
鴻俠(主持人): 阿裏巴巴資深算法專家
蓋坤:阿裏巴巴資深算法專家
李小龍:螞蟻金服人工智能部技術總監
崔鵬:清華大學計算機係副教授
羅平:中科院計算技術研究所博士生導師、副研究員
楊洋:浙江大學計算機學院講師
鴻俠:各位對機器學習、數據挖掘、深度學習這幾個是如何理解的?
蓋坤:首先說機器學習和數據挖掘。數據挖掘是一套完整的理論,根據自己的問題從數據裏挖出有用的信息,用簡單的統計方式或者用各種各樣的方式都可以。機器學習是一套方法論,用在數據挖掘的問題裏,也可以用在視覺、語音等等其他問題裏麵。
從現在的發展來講,數據挖掘裏麵比較複雜的問題和前沿的問題,很多都和機器學習有關,這個關聯或多或少。其實如果你真的在數據挖掘領域裏麵想要做的不管是深度也好,還是廣度也好,做的比較好的話機器學習應該是必備的技能,雖然不是邏輯對等的相關關係。
再說深度學習和機器學習。現在深度學習基本上已經快占了機器學習的80%的概念和資源了,我做研究生的時候大家還不太認可深度學習,現在大家也在慢慢轉變觀念。近幾年,深度學習展現出來其效果和複雜性,慢慢在各種領域開始展露非常強勁的性能,解決實際問題的威力比較大,所以在機器學習裏麵越來越重,工業界的資源也有很大的投入。
從研究角度來講,以前做機器學習問題,從問題定義到數學定義再到求解整個一套方法其實是研究人員需要全套推導的,首先問題是什麼,有了問題可能轉化成一個優化問題再研究優化方法,優化問題能不能解很關鍵,模型很好不能解也不行。工作很重,模型設計也有製約。
我看到深度學習展現出來幾個優勢:
第一個,優化方法標準化,研究工作量大大降低,解開束縛。優化方法就用BP以及BP衍生類方法,有一套標準化方法,使得做模型的人不用那麼關注優化方法了,雖然必要的理論認知和調試工作必須要做,但很多時候優化問題不再是一個攔路虎了,基本上是通的。
第二個,模型組件化,可以構建更複雜模型。之前從頭到尾構建機器學習方法的時候,像現在深度模型的複雜度是可望不可及的。現在優化方法解耦之後,又在模型上麵變成組件化。可以用現在基本單元,有LSTM等基本單元,也可以自己創造基本單元,可以在裏麵發揮創造力,比如新創連接函數,層數也沒有太多束縛,可以組件化地構建一個非常複雜的模型。
第三個,深度的方式。雖然沒有理論證明,但我認為在泛化性能上也有一定優勢。理論上,潛層模型,像非常多隱層節點的單隱層網絡,近鄰法或者普通Kernel方法,也是有無限複雜的擬合能力的。但潛層網絡更像是記憶器,隻記住訓練樣本,會過擬合,泛化性不是很好。而深層網絡,如果設計模型結構更匹配這個數據,例如深層CNN在圖像上,實踐中泛化能力上是不錯的。
李小龍:這裏我補充一下,從工業界來講,深度學習現在可能像是黑洞,把所有機器學習的注意力都吸到裏麵去了,這個有好也有不好的地方。對於深度學習還是要有清醒認識,它有一些難以克服的問題:
一個是不可解釋性。這就造成到底是哪個原因導致你這個模型效果好,是不知道的,比如像金融場景有一些對解釋性要求非常高的,比如風險模型,為什麼不給這個人貸款,用深度學習就沒法做到;還有芝麻信用分,為什麼他的高,為什麼他的低,如果用深度學習來做,也是沒法解釋清楚的。這個也是實際應用中必須認識到深度學習還是有缺陷的。
第二個深度學習對數據的要求非常高。深度學習網絡複雜度高,需要大量的數據,也導致了它很難在常規的小數據的場景下能夠起到很好的作用。事實上,現在學術界對小數據已經開展研究,比如隻需要一個樣本就能夠建出來較好的模型,這也是一個值得關注的方向。
鴻俠:深度學習這麼火,但很多人在質疑深度學習雖然可以做到很深幾十層、幾百層,還有上千層但解釋性卻很差,但是可解釋性強並且有理論保證的Hierarchical Bayesian Model卻並沒有火起來。各位怎麼看?
崔鵬:我覺得深度學習比較吸引人的地方,就是比較標準化,明白輸入輸出參數的意義就可以進行研究,這個對於工業界來講是一個好事情。但對深度學習持比較保守觀點是我從教育學生的角度來思考的:我認為做學術研究應該是一步一步在走的,原來像SVM研究興旺很多年,現在又轉到深度學習上麵,作為一個研究人員,我覺得最好保護自己的方式就是要用一個相對來說比較完整或者成體係的理論武裝自己。
深度學習之外其他的一些前沿方法,之所以沒有在產業界推廣開,一方麵可能的原因是理論門檻過高,怎麼在可控的條件內去調整它,不容易標準化;另一方麵是技術發展到一定程度,比如說刷榜刷到頂了,就需要具備其他理論基礎的人來進一步研究。所以,從研究的角度,我認為越火的東西越值得我們謹慎看待。
羅平:對此,我也做了一些分析,比如語句稍微改一下,模型不知道怎麼回事就不能正確反應了。也就是說,深度學習模型的魯棒性並不好。前段時間有篇文章也寫道這個問題:自動駕駛很多時候都會駕駛的很好,但如果從攝像頭輸入一些“人工扭曲”過的影響,可能會把車帶溝裏去。這就引申出model testing和model verification的問題。深度學習是一個很強大的擬合工具,但還不是一個強大的泛化工具。
鴻俠:關於研究資源利用,在工業界大家有豐富的數據和計算平台是否可以介紹一兩個基於此的成功案例?對於學術界,有的時候缺乏數據計算平台又缺失,這是不是個很大的挑戰?
羅平:我之前是在工業界的又轉到學術界。我覺得學術研究有兩種模式:一種是從數據出發發現問題,抽象問題。因為計算機本質上應用型科學,隻有解決實際問題的研究才是好的研究。另一種是從模型出發, 做出一些“驚世駭俗”的工作(例如PLSA和CRF的發明)。
但如果僅僅是模型上的修修補補,其實研究價值並不大,因此,一切的基礎都是建立在數據之上。工業界有大量的數據,學術界確實需要與工業界深度合作;而學術界也不能隻關注工業界當下的問題,必須有前瞻性和開拓性。
關於數據的問題,還有一種模式是,找一個好的切入點,大公司可能不太關注這個點,我們自己來標注一些數據,這個數據的產生也是對學術界的一個貢獻。我們現在也是試圖朝著這個方麵努力。但不管怎樣,數據都是我們的基礎。
楊洋:我想起了我朋友打過一個比方,說我們是幹什麼的,我們更多是摸索道路,以前沒有人走過,有可能通向世外桃源,有可能哪也去不了,走到底了,告訴其他人可以通往哪裏,這是我們學術界在做的一件事情。對於工業界而言希望這條路通往世外桃源,走了一年發現走不了,老板們肯定不會開心,到了世外桃源以後能幹什麼,這裏有很美麗的風景,更重要的要開墾這片新的土地,讓更多的人可以來這個新地方居住起來,在開墾的過程中就不是我們學術界的資源和能力獨立完成的事情,這個時候工業界人會進來。
五六年前我們跟公司做一些合作,那個時候對於同一批數據,我們實驗室對這批數據的想法和公司的一些想法是有很大的差異,公司想到是做推薦算法,我們實驗室就想做一些其他更好玩的事,那個時候我們沒法勸說公司直接做這個問題,我們會先贏得公司的信任。現在和工業界合作,比如做推薦或者CTR預估,很多公司有非常強大的團隊可以做的非常好,比我們學術界好很多,公司很多情況下也會往長遠想一步,合作就可以研究一些很好玩的問題。
最後更新:2017-07-10 10:02:17