【專訪】KDD2018主席熊輝教授:數據挖掘與深度學習結合新趨勢
2017年8月13日至17日,數據挖掘國際頂級學術會議 KDD2017在加拿大哈利法克斯市舉行。本次大會總的注冊人數達到1656人,來自全世界51個國家和地區。其中,美國注冊人數最多,其次是中國,第三是加拿大。
關於本次大會論文接受數據、中國學者和公司的表現以及最佳論文、最佳論文請參見新智元此前的報道《【KDD最佳論文出爐】BAT、華為穀歌論文排行榜,中國包攬KDDCUP》。
大會同時宣布了KDD2018年大會的主席名單。美國羅格斯-新澤西州立大學信息安全中心主任、羅格斯商學院管理科學與信息係統係熊輝當選 Research Track PC 主席。
熊輝 E- Mail:hxiong@rutgers.edu ;實驗室主頁:https://datamining.rutgers.edu
熊輝教授本科畢業於中國科學技術大學,博士畢業於美國明尼蘇達大學,目前為美國羅格斯-新澤西州立大學信息安全中心主任、羅格斯商學院管理科學與信息係統係副係主任、正教授 (終身教授)、RBS院長講席教授,並擔任中國科學技術大學大師講席教授。
熊輝教授主要研究領域涵蓋數據挖掘、大數據、人工智能;獲得的部分榮譽包括ACM傑出科學家,長江講座教授,海外傑青B類(海外及港澳學者合作研究基金)。熊輝教授的研究工作被Forbes, The Economist,Harvard Business Review,The Wall Street Journal等媒體廣泛報道。其中,經濟學人雜誌(The Economist)在2016年專文重點介紹了熊輝教授利用大數據技術預防犯罪的研究工作 (Economist Article Title: Cutpurse capers),同時哈佛商業評論在2016年也以專文重點介紹他的關於人力大數據分析的前沿工作。
據介紹,本次大會熊輝教授和團隊總共有8篇文章被接收(包括oral),去年他們團隊的論文被接收數量是9篇,可謂非常高產。要知道,相比之下,在本年度KDD接收的 200 多篇論文裏,來自中國大陸的高校和企業隻有 20 多篇。
另外,本屆KDD上 China Chapter,熊輝教授與裴健、鄭宇和葉傑平等多位頂尖的學者一起組織了精彩的分享。
熊輝對新智元介紹說:“在本屆KDD China Session, 我介紹了在大數據人才智能化分析這一世界前沿領域的創新工作。區別於傳統人力資源管理須通過大量長期實踐才能總結出經驗規則,永遠在解決問題,管理相對滯後。大數據人才智能化管理通過數據挖掘提供客觀性,完整性,透明性,預測性分析,可以讓管理做到更加客觀,公正,未雨綢繆。具體來說,我從人才、組織和文化三大人才管理業務場景出發,介紹了一整套針對業務痛點的智能化人才管理工具和解決方案,所介紹的人才智庫係統是基於我們自主開發的數十項智能化機器學習模型算法工具,有效支持和輔助了人才獲取、人才保留、人才發掘、組織穩定等一整套管理動作。我們構建的這套完整的智能化人才管理係統,充分展示了以大數據驅動智能化人才管理的高效性,在世界範圍內尚屬首創。”
近年來,中國學者在KDD學術會議上的存在感逐漸變強,表現非常突出。對此,熊輝教授也有感受,他說:“中國學者這幾年在各個研究方向都在快速成長和突破。我具體感覺體現在兩個方麵。首先是大量高水平的論文發表,並伴生大批的優秀青年學者;其次是中國學者學術地位的大幅提升,越來越多的中國學者擔任行業頂級會議的組織者和頂級期刊的編委甚至主編。”
今年論文接受率最高隻有12.8%, 為什麼KDD的論文錄取率那麼低?
數據顯示,今年KDD研究Track共審閱了748篇論文,共接收130篇,其中口頭展示64篇,海報展示66篇,接收率分別為8.6%和8.8%。數據科學應用Track 共審閱了390篇論文,共接收86篇,其中口頭展示36篇,海報展示50篇,接收率分別為9.2%和12.8%。
KDD向來以論文接受率低著稱。被問及大會接受率為何如此低,熊輝教授向新智元介紹說,KDD是數據挖掘和數據科學領域最頂級的學術年會。來自學術界,工業界和政府部門的研究人員都希望在KDD上發表和展示自己的有影響力的工作,因而投稿量每年都特別大,所以KDD的接收率一直非常低。另外,非常多的高科技公司人力資源部門都積極招聘在KDD以第一作者發表過論文的學生,所以學生也都非常有投稿熱情,這也客觀導致文章接受率低。
KDD新趨勢:傳統行業與大數據,機器學習,人工智能技術的結合將會成為一個新的戰場和製高點
新智元在采訪中問到,近兩年KDD領域最值得關注的趨勢是什麼?
熊輝教授認為,近兩年,數據挖掘,機器學習和人工智能技術,不僅僅和新興互聯網產業結合緊密,和傳統產業的相互結合和促進,也成為了一個新亮點。比如,根據人們傳統的理解,人力資源行業是一個組織行為學科,是很難被量化的。我們的人才智能化的項目展示了通過大數據分析提供客觀性,完整性,透明性,預測性分析,可以讓管理做到更加客觀,公正,未雨綢繆。又比如,工業製造行業,似乎也是很難擁抱大數據和人工智能技術。但是,在工業製造4.0的標準裏,人工智能技術,將會成為傳統工業製造涅槃重生的引擎。他說:“我相信傳統行業與大數據,機器學習,人工智能技術的結合將會成為一個新的戰場和製高點。”
那麼,近年來,KDD領域向機器學習和實際應用的結合非常緊密,這是一個大趨勢麼?
熊輝教授認為這是一個大趨勢。他進一步解釋說,首先人類在世界任何一個角落,任何一個時間,任何一類的行為,都以不同數據的形式開始保存了下來。在人類曆史上,我們從來沒有這麼好的機會能夠通過細致化,全麵化的數據,深入毛孔的了解人的行為,發現行業的痛點。所以,未來KDD領域向機器學習和實際應用的結合會越來越緊密,而且未來越來越多KDD的研究問題會來源於應用實踐。
具體到深度學習。熊輝教授認為,大數據+深度學習,目前是很多領域的非常熱門的一類技術解決方案。深度學習在擁有大數據的很多應用領域展示了自己獨特的優勢,比如語音識別和圖像處理。然而,他的個人觀點是,深度學習就像任何一種技術都有它的局限性,也有它的適用範圍。在KDD領域,他相信會有很多研究專注於深度學習的參數選擇,降低計算複雜度和結果的可解釋性。
數據挖掘高手談數據:什麼樣的數據才是好數據?
作為在數據挖掘領域有著深厚積累的資深教授。熊輝教授如何看待數據?怎麼樣的數據才能是好數據?要怎樣獲得這些好數據呢?
熊輝教授認為,要獲得高效優質的數據,我認為應該同時考慮“量”和“質”。 量,不僅僅是指數據量的大,還包括是否有效覆蓋所要研究課題的不同的對象,即統計裏的population;“質”指的是數據信息的有效性,即我們的數據的噪聲程度,是否包括具體問題分析所需的各種屬性,是否存在和易於構建內在的關聯性,是否能有表征豐富的語義,是否能夠支持快速計算和分析。
對於大數據。他認為,數據不是簡單的越大越好,而是和需要解決的問題相關的數據越大越好。在很多具體數據分析應用,特別是商務智能中,還要注意大數據和小數據的有效結合。
AI的迅速發展也為數據挖掘領域帶來了一些有趣的變化,比如數據的發現和挖掘的自動化,就是由機器來自動完成數據挖掘的工作。針對這一研究方向,熊輝教授向新智元介紹說:“在學術界,已經有一些學者開始嚐試探索自動化的數據挖掘,一個潛在方向是Prescriptive Analysis。”
比如,他們和IBM的學者合作嚐試實現自動化的異常點檢測,在今年KDD17發表了文章 “REMIX: Automated Exploration for Interactive Outlier Detection”。但是,基於數據挖掘工作本身的多樣性和複雜性,往往需要領域知識和技術知識的有機結合,經常很難完全避免人的參與,所以做到完全自動化在目前看還是不現實的。
挖掘數據的價值:抓小偷,治霧霾甚至反恐
2015年開始,數據挖掘領域出現了一些非常有意思的研究,比如熊輝教授做的利用大數據分析“抓小偷”的研究(參見新智元的報道:KDD 精彩論文:用智能公交一卡通數據抓小偷)。
另外,也有研究員在探索使用數據挖掘進行霧霾的治理和反恐。熊輝教授對新智元說,隨著傳感網技術的快速發展和實施,越來越密集的傳感器可以幫助實時搜集廣泛覆蓋的環境監測的數據。這些數據對於我們有效判斷霧霾的成因,進而幫助合理的霧霾治理提供了決策支持。
在反恐領域,數據挖掘應用前景廣闊。首先,近幾年數據分析技術和大數據硬件分析平台技術獲得突破性進步。比如,雲計算大數據分析平台的快速發展和應用,以及深度學習技術在文本,聲音,圖像,視頻數據的分析取得了很大成功。其次,現在可運用於反恐的數據來源多樣化和數據覆蓋範圍也更廣闊。例如,廣泛分布的攝像頭已經一定程度上物聯網了,聯網的攝像頭產生的多源視頻數據可以很好的幫助發掘潛在恐怖襲擊,或者幫助捕獲恐怖分子。
文章轉自新智元公眾號,原文鏈接
最後更新:2017-08-23 17:33:31