從上千篇投稿脫穎而出,這5篇大數據論文憑什麼征服KDD評委?
5月23日消息,在2017國際知識發現與數據挖掘大會(KDD)全球論文投稿中,阿裏集團和螞蟻金服共有5篇論文被大會收錄,這是繼年初阿裏雲獲得KDD Cup 2017舉辦權之後,阿裏巴巴在國際數據挖掘頂會KDD學術成果上的又一次突破。
圖 KDD 2017 官網圖片
KDD的英文全稱是Knowledge Discovery and Data Mining,即知識發現與數據挖掘,由美國計算機協會ACM下的數據挖掘分會舉辦,是國際數據挖掘領域的頂級會議,每年有大量來自世界各地的學術界和工業界人士參與此盛會。KDD 2017共吸引全世界1144篇論文投遞,收錄216篇,包括清華、中科院、阿裏在內的中國大陸學術界和工業界共被收錄25篇。今年8月,KDD 2017大會將在加拿大港口城市哈利法克斯召開,被稱為大數據領域奧運會的KDD Cup也會同期舉辦。
據了解,阿裏巴巴本次被收錄論文涵蓋深度學習、大規模圖計算、商品智能排序等多個研究領域,基於真實的業務場景或數據樣本,文中部分方法結論已經在業務中運用。如深度學習語義建模研究中提出了一種新的文本語義編碼算法conv-RNN,該模型在參考了較為常用的文本語義編碼模型循環神經網絡與卷積神經網絡的同時,進行了進一步的文本語義編碼優化,實現更為精準的文本分類和問答匹配並已應用於阿裏智能問答係統中。
5篇論文概述如下:
《淘寶展示廣告中的OCPC智能調價算法》
“針對傳統廣告係統中廣告主對粗粒度流量進行固定價格競價的模式,該論文創新性提出了一種新的OCPC(Optimized Cost per Click)智能調價算法。
該方法智能調整每個流量上的廣告主出價,實現更優的流量價值匹配,明顯提升了廣告主收益和廣告係統的分配效率。同時立足於健康的經濟生態和可持續的長遠收益,該方法亮點在於不單優化了客戶價值,還實現了用戶體驗、平台收益的整體優化和經濟福利的權衡分配。”
《基於大規模圖計算的本地算法對展示廣告的行為預測》
“用戶行為建模在計算廣告中是至關重要的,它通過跟蹤用戶的在線行為建立用戶的產品,然後根據用戶的興趣和需求提供相關的廣告。準確的模型將導致更高的定位精度,從而提高廣告效果。直觀上,類似的用戶往往對展示的廣告具有類似的行為(例如,展示,點擊,轉換)。
然而,據我們所知,以前的工作沒有太多明確地調查各種類型的用戶行為的相似之處,並且將它們納入廣告響應目標和預測中,主要是由於問題規模過大。為彌合這一差距,本文中,我們使用二分圖來表示曆史用戶行為,其中包括用戶節點和廣告客戶活動節點,以及過去反映各種類型的用戶- 廣告營銷活動交互的邊。
基於這種表示,我們研究了用戶行為建模和動作預測的隨機步行本地算法,其計算複雜度僅取決於輸出群集的大小,而不是整個圖形。我們的目標是通過利用曆史用戶-用戶 (user-user),廣告係列活動 (campaign- campaign) 和用戶-活動 (user-campaign) 交互來改善行為預測。
特別地,我們提出了伴隨ADNI算法的二分圖AdvUserGraph。 ADNI將NIBBLE算法擴展到AdvUserGraph,並且能夠將由感興趣的用戶組成的本地群集發現到特定的廣告客戶活動。我們還提出了ADNI的兩個擴展,提高了效率。所提出的算法的性能表現在合成數據和世界領先的需求側平台(Demand Side Platform),表明它們在預測極少數事件的有效性。”
《一種新的語義編碼模型及其在智能問答及分類中的應用》
“在本文中,我們研發了卷積迭代神經網絡(conv-RN N)的通用推理混合框架,用於文本的語義建模,無縫集成了從卷積和複現神經網絡結構中提取語言信息的不同方麵的優點從而加強新框架的理解力。
此外,基於轉換RNN,我們還提出了一種新穎的句子分類模型和一個基於句子的答案選擇模型,分別具有加強力的句子匹配和分類。我們在各種各樣的數據集中驗證了所提出的模型,包括兩個具有挑戰性的答案選擇任務(AS)和用於句子分類(SC)的基準數據集。
據我們所知,AS和SC目前是最為完整的比較結果。我們在這些不同的挑戰性任務和基準數據集中經驗性地展示了轉換RNN的優越性能,並總結了對其他最先進技術方法的表現的見解。”
《多層級聯學習在大型電商排序係統的應用》
“在大數據時代,大量應用都會涉及到對海量項目進行排序的工作。我們一方麵需要得到盡量準確的排序結果,另一方麵希望保證係統的性能以及用戶的體驗。過往大量的工作都集中在算法準確性方麵(如各種learning to rank的方法);隻有不多的工作會考慮計算的性能,而且基本停留在小數據集和研究階段。而在電商場景,商品總量很多的同時(十億級),query的相關商品也可能很多(千萬級)。
在在線請求非常高的情況下,計算性能是必須考慮的,尤其是在雙十一等場景下請求量會數倍的增長。為了同時保證排序的效果和效率以及用戶體驗,本文設計並實現了一種級聯式搜索CLOES:它的主要思想是將以此排序分成多個階段,各階段使用逐漸複雜的特征去得到逐漸準確的結果;在靠前階段使用簡單特征過濾顯然不合要求的結果,在靠後階段使用複雜特征辨別難以區分的結果。
除此以外,算法結合電商場景的特殊性,嚴格限製了返回結果的延遲以及返回商品的數量,以保證用戶的搜索體驗。離線實驗驗證了算法的正確性以及有效性,對比傳統的方法能提升準確率的同時大幅提升了計算性能;在去年雙11,在新增了大量準確又耗時的計算特征(包括強化學習和深度學習特征)的情況下,算法極大保證了引擎的效率,使排序對引擎的壓力下降40%,同時排序效果有一定提升。”
《基於參數服務器的分布式學習係統及其在阿裏和螞蟻的應用》
近年來,由於大數據(TB甚至PB量級)和大模型(數千億甚至上萬億參數)的出現,無論是學術圈還是工業界,都亟需並行機器學習的能力。雖然有一些現有的分布式計算係統,如Hadoop和Spark,它們為了支持機器學習算法並行化,提供了一些同步和粗粒度運算符(例如,Map,Reduce和Join等),能夠在一定程度上解決一些中小規模的問題,但這些係統很難讓開發人員設計出更有效率且支持更大規模的機器學習算法。
這促使我們設計一個通用的分布式平台,稱為鯤鵬。它結合了分布式係統和分布式優化算法的特性,來處理複雜的大規模機器學習問題。具體來說,鯤鵬不僅封裝了數據/模型並行、負載平衡、模型同步、稀疏表示、工業容錯等特性,而且還提供了易於使用的接口,以使用戶能夠聚焦在機器學習核心邏輯上,降低使用成本並提升效率。在上千億樣本/特征的數據集上,測試結果表明,這樣的設計在機器學習上帶來了引人注目的性能改進,大幅提升了LR、FTRL、GBDT、FM和深度學習等算法的規模跟效率。
作為全球頂尖的互聯網科技企業,過去一年阿裏電商整體規模超過3.7萬億人民幣,記錄數億的活躍用戶購買行為數據、數十億的商品多維特征的刻畫數據,有EB級別的數據沉澱。擁有海量數據的阿裏在年初就發布NASA計劃,目的為“為了解決10年、20年後的困難”。
另外還正在與國內外頂級學術機構中科院、SIGIR、ASPLOS等拓展合作,不久前,阿裏iDST負責人金榕就受邀擔任國際計算機學會中國理事會常務理事。在部分領域阿裏已經實現突破,如聯合中科院研製出中國首台光量子計算機,單位體積內的計算能力提升10倍的液冷服務器也計劃2018年大規模商用。
最後更新:2017-06-14 14:02:14