閱讀880 返回首頁    go 阿裏雲 go 技術社區[雲棲]


專訪新浪微博黃波:千人千麵,機器學習賦能用戶信息流消費

編者按:1011-14日,為期四天的2017杭州雲棲大會(門票火熱搶購中!)將再度在杭州雲棲小鎮起航,作為全球最具影響力的科技展會之一,本屆大會將有不少阿裏集團專家以及各企業行業領袖的精彩演講。從今天開始,雲棲社區將會對大會嘉賓做一係列專訪(關注雲棲大會”社區公眾號了解更多大會信息)。本期我們采訪的是新浪微博機器學習平台負責人、資深架構師黃波,他將在10月的雲棲大會上分享微博信息流產品中機器學習和深度學習的實戰解讀、最新進展,以及搭建微博機器學習平台和深度學習平台的經驗總結。

ea1612949a602fb8372a4d7396fb76302d4c2bc6

黃波,微博機器學習平台技術負責人、資深架構師,負責微博機器學習平台和Feed算法係統。他畢業於中科院計算所,參與研究了高性能計算和算法優化;並曾供職於百度,參與開發了分布式文件係統。2010年加入新浪微博,目前專注於機器學習、深度學習、高性能計算、大數據處理等領域,致力於打造機器學習平台和深度學習平台,將機器學習技術和分布式計算應用於微博 Feed信息流、推薦、反垃圾等業務場景。

跬步千裏,微博深入應用新興技術

新浪對於大數據和人工智能技術的應用,最早可以追溯到2008年,並且隨著技術的深度應用在不斷發展完善。

2008年左右,新浪開始搭建Hadoop集群,建立信息係統收集公司級的基本數據,奠定了大數據係統的基礎。2009年起,隨著微博的興起和壯大,越來越多的用戶、內容和行為等業務數據沉澱下來,奠定了大數據的業務數據和業務場景基礎。2011至2012年,微博開放平台讓微博數據和第三方數據能夠互通。2013至2014年,成功構建了大數據Darwin平台,用於梳理和挖掘用戶數據及行為數據,刻畫了微博用戶的用戶畫像,並對微博短文本進行分析理解,形成了內容標簽等內容理解體係;同時在技術上,以分布式離線處理為基礎,成功引入了實時流計算,讓數據能更快發揮價值,從而更好地服務於業務。2015年起,微博大數據和Feed、熱門微博等業務充分結合;2016年,開始強調機器學習和人工智能挖掘數據價值的能力在業務中的作用,並開發搭建微博的機器學習平台和深度學習平台。

毋庸置疑,大數據、機器學習、人工智能已經逐漸滲透到了微博的各大業務中。然而,這一過程中不可避免地遇到了一些技術挑戰。黃波表示,分布式離線計算技術的挑戰就是其一,因此微博緊跟業界Hadoop生態的發展,由Hadoop 1.0升級到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等組件,解決了大數據離線處理的問題。其次是實時流計算技術的挑戰,基於此微博選擇了依靠開源社區的發展,包括Storm、Spark Streaming等技術的發展和成熟。“目前遇到的最大問題是大規模機器學習和深度學習技術”,為了從容應對這一難題,微博一方麵持續深入和阿裏雲的合作,引入數加、EMR、HPC、PAI等成熟係統來加快技術發展速度,另外一方麵還依靠了開源社區的Glint、Angel、Spark、Tensorflow等機器學習技術,自研和完善參數服務器WeiPS、機器學習編程框架WeiFlow來滿足微博機器學習和深度學習平台的業務需要。

千人千麵,人工智能助力億級規模的用戶畫像

數據是人工智能的基礎。微博充分發揮了作為社交媒體的先天優勢,以其平台所擁有的億萬級圖片、視頻和文本數據,刻畫出了微博龐大的業務體係和用戶畫像。

黃波介紹,微博數據有內容數據和用戶數據這兩類。內容數據包括圖片、視頻和文本等。對於這類數據的處理方法,一是將內容數據映射到微博內容標簽體係(微博內容標簽體係分為三級內容標簽,例如:一級的體育;二級的籃球;三級的金州勇士等),可解釋性強,但存在一定歧義,準確性有待提高。另一種處理方式是對內容做embedding,通過embedding向量做匹配或推薦,能夠對內容更深入地理解,但是解釋性較差。內容數據還有一個獨特的點是內容發布人,即發博者。在長期的實踐中可以發現,社交網絡和社交媒體中的發博者有著相對穩定的特征,在業務場景下簡單有效。用戶數據包括用戶靜態數據和用戶行為數據,通過挖掘用戶性別、年齡、地域、注冊時間、賬號類型、是否橙V等靜態特征構建用戶靜態畫像,通過分析用戶在業務產品中的特定行為來構建用戶行為畫像,例如用戶一級興趣標簽、用戶實時興趣標簽等。

以上所述的內容數據和用戶數據就是業界常說的特征,通過與模型的結合,能為微博Feed信息流、熱門微博等場景帶來顯著的效果提升。在這其中,人工智能技術的部署應用,也為微博的整體技術架構帶來了深刻的變化。

人工智能技術的引入,讓微博的離線係統、實時係統、在線係統融合得更加緊密。在線係統的業務數據化為機器學習提供了最基礎的業務樣本數據;離線係統的模型訓練充分利用了分布式計算能力,加強了對大數據的處理和理解;離線訓練出的模型加載到在線係統並應用於業務係統中,能夠為業務發揮作用;同時,實時係統不僅可以提供實時特征,而且還能提供機器學習在線訓練服務,有效保障了特征和模型的時效性,從而良好保障了業務效果。以微博Feed信息流為例,基於對內容數據的充分理解和對用戶畫像的精確刻畫,利用大規模機器學習模型排序能夠有效控製大量低質內容,深入挖掘出用戶感興趣的個性化內容,從而改善微博Feed信息流的用戶體驗。

此外,微博特別設立的機器學習實驗室也在深入研究人工智能技術潛在的應用價值。“追蹤前沿技術,保持技術領先;落地微博業務,體現技術價值”,這是微博機器學習實驗室的初衷和使命,其主要的研究方案包括機器學習算法、推薦算法、自然語言理解、計算機視覺、語音識別、機器學習係統、分布式計算係統、高性能計算係統、大數據技術等。黃波提到,目前在大規模機器學習排序算法、深度學習排序、深度學習推薦、文本處理、圖片識別、機器學習平台、深度學習平台等方麵都已經取得了不錯的進展,特別是微博大規模機器學習排序算法在微博Feed信息流、熱門微博中的應用和全量上線,取得了顯著的效果。

返璞歸真,技術落地創造實踐價值

時下的社交媒體大趨勢,都在致力於通過大數據、人工智能來更全麵地了解用戶畫像、更深刻地理解內容、更細致地結合業務場景,從而提高信息分發效率,為用戶提供更好的內容消費體驗。

微博實踐表明,人工智能技術能夠更好地促進產品和業務的發展。在微博,大數據、人工智能等新興技術廣泛地應用到微博Feed信息流、熱門微博、Push消息推送、圖片推薦、反垃圾等業務中,並取得了不俗的效果。產品和業務目標的理解是基礎,在目標理解的基礎上再將產品場景、業務目標、用戶行為、內容數據等數據化。數據化之後,技術人員利用大數據策略、機器學習模型等方法擬合或逼近業務數據目標,這個過程通常需要借助大規模分布式計算和高性能計算來迭代逼近。同時也要求盡可能早地將這些策略或模型灰度上線到線上係統中,便於收集灰度測試數據,對比評估業務線上效果。數據化是指產品全流程的數據化,包括機器學習模型上線灰度對比的數據,用數據來說明效果。

在本次雲棲大會上,黃波將分享微博機器學習平台、深度學習平台的架構和實踐,介紹其在微博信息流產品中的實戰解讀,同時介紹平台搭建中的經驗教訓,向業界分享微博在機器學習和深度學習方麵的最新進展。同時,黃波也希望可以借助這次機會和業界深入交流,獲得更多業界經驗來完善內部係統及平台,更好地為微博業務服務。(購票請戳這裏!)

公眾號——“雲棲大會”

專訪iDST NLP負責人——淘寶內容搜索、評價歸納的幕後英雄

專訪阿裏雲易立:從實踐積累到需求沉澱,容器技術必將引領主流

專訪阿裏雲異構計算負責人:異構計算,GPU、FPGA、ASIC芯片將三分天下

專訪阿裏雲量子技術首席科學家施堯耘:量子計算前途輝煌而任重道遠

專訪iDST華先勝:城市大腦,對城市的全量、實時認知和搜索

雲棲大會變遷史(2009-2017)
圖說曆屆雲棲大會精彩內容(長圖鑒賞)

最後更新:2017-09-21 11:32:37

  上一篇:go  CVE-2017-12615/CVE-2017-12616:Tomcat信息泄漏和遠程代碼執行漏洞分析報告
  下一篇:go  小米為什麼把智能家居定義為“輕智能”?