271 阿裏雲技術社區[雲棲]

機器學習&人工智能：數據賦能背後的黑科技

馬老師曾提到三次技術革命：“第一次技術革命是體能的釋放，是讓人的力量更大，第二次技術革命是對能源的利用，使得人可以走得更遙遠，而這一次技術革命是IT時代走向DT時代，是真正的大腦的釋放。我們其實正在進入一個新的能源的時代，這個時代核心資源已經不是石油，而是數據。”。逍遙子也曾經講過：“我們用大數據賦能了雙11，賦能了我們自己的運營能力。我們還要更上一層樓，利用大數據賦能所有的商家，幫助他們運營好消費者，這樣才能讓我們在大數據時代踐行‘讓天下沒有難做的生意’的使命。”

新商家事業部自去年12月成立以來，數據賦能商家就是重要的方向之一。我們將之前平台沉澱的數據和算法的能力轉過來賦能我們為商家提供的工具和平台，這其中包括客戶運營平台、千牛、服務市場等等。很多技術在今年的雙11也起到了非常顯著的作用，為商家帶來實實在在的收益。下麵從客戶運營平台、千牛頭條、服務市場三個產品給大家分享一下我們如何通過ML&AI技術重新定義產品。

客戶運營平台旨在為商家提供基於大數據和人工智能的客戶精細化運營能力。阿裏巴巴2015年提出客戶運營戰略方向，帶領平台的商家從“流量經營”向“客戶運營”轉型。客戶運營的核心理念有兩個方麵：其一是精細化，其二是從過於關注短期經營的成交目標向關注客戶粘性、客戶體驗、客戶忠誠度的目標轉變。客戶運營平台提供了“訪客運營”和“會員粉絲運營”兩大利器，借助大數據和人工智能技術，幫助商家提升客戶運營的效率。2016年雙11，超過23萬商家通過客戶運營平台實現了店鋪的個性化運營和粉絲會員的精準營銷，顯著提升了成交轉化。下麵以訪客運營為例，介紹AI分群引擎的應用。

訪客運營通過對訪客的細分和精準營銷策略來提升轉化的效果。如下圖所示，是某美妝店鋪的訪客分群個性化店鋪首頁策略示例，左側和右側分別是針對水乳類和麵膜類偏好人群的個性化首頁，通過麵向細分的人群投放有針對性的內容，可以顯著提升客戶體驗和訪客成交轉化率。類似的分群運營策略還可以應用在詳情、微淘等場景。

訪客運營示例：個性化店鋪首頁

有別於普通的營銷平台，阿裏巴巴客戶運營平台通過AI能力，實現了對訪客的實時分群，也就是說當客戶進入店鋪的一瞬間，客戶運營平台的AI引擎會對用戶所屬的人群進行實時預測，得到此時此刻的最佳分群結果。下圖是AI分群引擎架構圖：

AI實時分群的三大特點如下：
1.行業級別的模型同一個特征在不同的行業會有不同的重要性，例如地域屬性，對於美妝行業用戶是否偏好保濕產品具有較強的預測能力，因為北方幹燥，南方潮濕，而對於快消行業，比如用戶是否會喜歡吃某種口味的零食，地域屬性預測能力就會比較弱。因此同一個特征在不同的行業會有不同的權重。

2.長期、近期和實時相結合的特征體係例如用戶對男裝、女裝、童裝三類服飾商品的偏好，既受用戶的人口統計學特征，比如性別、年齡段的影響，又受隨機實時情境的影響，比如女性客戶可能會為男友或家人購買男裝，因此當我們按照偏好對客戶分群時，既需要考慮長期穩定的屬性和行為，又需要結合實時的行為和需求。

3.店鋪分群自適應以美妝行業為例，從用戶在平台層麵上的行為來看，大部分用戶可能會偏好美白、保濕功效的產品，而具體到某個品牌，其主營的產品品類和平台總體的品類成交分布很可能有較大偏差，比如一些品牌可能是主打彩妝，另外的一些品牌則主打緊致類的產品。當我們用平台整體數據建立的模型對用戶在某個店鋪的分群歸屬進行預測的時候，很可能會出現偏差。為了使得AI引擎能夠適應店鋪多樣化的情況，我們從兩個角度進行了升級，其一是引入店鋪內銷量分布作為分群結果的先驗，其二是引入了增強學習技術（多臂老虎機MAB）為每個商家自動調整模型參數。

對比於靜態的人口統計學分群方法，AI分群具有實時性高、精準性好、店鋪自適應等特點，商家實際使用的效果提升也更加顯著。

阿裏巴巴作為一個新零售平台，平台上的商家具有很高的多樣性。客戶運營平台基於增強學習技術的自適應技術，能夠使得AI分群自動適應每個店鋪的策略特點。通過該方法的應用，在一級類目偏好分群的場景下，成交轉化率提升超過10%，同時個性化的滲透率大幅提升40%。

今年雙11阿裏巴巴首次實現了全麵的全站個性化，包括從會場到大促承接頁到店鋪再到詳情，而大促店鋪承接頁是連接會場與店鋪的橋梁，大促承接頁的整體活動氛圍和布局由平台確定，商家可以通過頁麵裝修工具來裝修商品模塊、營銷模塊等內容。2016年雙11大促承接頁首次實現了全麵的個性化，實現了顯著的成交轉化提升。

大促承接頁個性化屬於單個店鋪內的個性化，相比於平台級的個性化場景（例如手機淘寶猜你喜歡、有好貨等），具有一些特有的挑戰。平台級的個性化我們可以想象為把平台的大量商品作為候選商品，形成一個虛擬店鋪，用戶在平台上的行為都是這個虛擬店鋪內的行為；店鋪內的個性化，候選商品為單個店鋪的商品，用戶在單個店鋪內的行為是非常稀疏的，必須要考慮借助用戶在平台整體的行為來做好店鋪內的個性化。麵向店鋪內個性化的特點，我們的AI個性化引擎框架主要包括matching框架和ranking框架兩個部分。

matching框架解決的是用戶偏好意圖的覆蓋，即基於單店的小數量級商品盡可能全麵地匹配用戶的偏好和意圖，matching框架還有一個重要的作用是為ranking提供輸入特征；ranking框架解決的是個性化商品列表的最優排序問題，它基於曆史反饋數據、用戶特征、商品特征、用戶與商品的交叉特征等訓練麵向特定業務目標的模型。

在matching階段，我們可插拔的框架支持多種matching方法：
1.基於圖挖掘的matching方法包括adsorption、adar、jacacard、simrank、simrank++以及基於大規模流式計算的增量ItemCF方法；
2.基於索引的方法包括minhash、simhash等hashing-based的方法，利用局部一跳信息建立商品索引；
3.基於Graph Embedding的方法 Graph Embeding也是一種商品索引，與hashing-based方法的不同之處在於它可以利用圖的全局信息、多跳信息來建模，具有更高的覆蓋度；
4.基於語義匹配的方法例如基於用戶偏好的商品屬性與商品本身的屬性進行匹配；
5.基於流式計算的方法基於流式計算引擎，實時更新商品之間的關聯關係，更好地捕捉線上流量的變化
6.麵向場景的適配基於排序學習技術，可以將上述方法的輸出進行麵向場景的重新排序和打分，使得matching層麵向特定場景調優

我們創新地提出了麵向電商場景的大規模分布式Graph Embeding的算法。商品Embedding算法可以將一個現實生活中的商品實體表示成低維空間裏的一個向量，使得我們可以僅通過這些向量之間的空間位置關係就能得到商品之間的某些聯係。由於我們可以將學習出來的Embedding向量作為更上層機器學習任務的輸入，這就使得Embedding這樣的表示學習非常有潛力。在雙11中，我們設計實現了一種能夠保持非對稱關係的Graph Embedding算法，來對商品進行Embedding。由於用戶對大部分商品（長尾）的點擊行為非常稀疏，我們選擇將用戶的點擊序列拚接成商品點擊轉換圖的形式，來試圖緩解稀疏性問題以提高商品Embedding的質量。另一方麵，為了表示商品之間的非對稱關係（例如購買手機後可能會對手機殼感興趣，但反之不成立），我們用兩個Embedding向量來表示一個商品的不同角色（已被看過和待預測）。我們在構建好的商品圖中，對每個商品節點按照帶重啟動的隨機遊走進行路徑采樣，並且僅按照采樣的正方向分別對兩個Embedding向量進行更新。我們基於分布式平台ODPS Graph首次實現了億級別節點、百億級邊的大規模圖數據的Embedding，並且在理論上，我們還證明了基於這種采樣方式的Graph Embedding算法能夠保持原圖節點之間的Rooted PageRank的相似度關係，相關工作已被人工智能頂級國際會議AAAI 2017接收。

在ranking階段，我們通過億級特征的大規模稀疏模型，包括LR、FTRL、DNN（深度學習），十億級樣本的訓練，實現精準的個性化排序。特征的體係包括用戶、商品、matching特征、場景相關的反饋類特征、以及場景化（context）特征，在特征實時性方麵我們會結合長期特征、短期特征和實時特征，在追蹤線上變化的同時能夠保持較高的覆蓋度和穩定性；在樣本層麵，通過日誌去噪、樣本采樣策略、樣本構造策略（頁麵級樣本和模塊級樣本），優化樣本構造；在模型層麵，通過天級、小時級和實時模型，結合麵向不同目標的模型來綜合優化業務目標，比如我們會利用多個模型對點擊、加購、成交等目標進行建模，並實時結合多個模型來優化最終的業務目標。我們的分布式GBDT排序學習算法能夠支持不同類型的排序函數，包括pairwise ranking和listwise ranking，能夠從樣本和特征兩個維度對數據進行拆分並進行並行化訓練，可以支持百億級樣本。深度學習模型訓練基於阿裏巴巴集團多機多卡的分布式GPU訓練平台，可支持大規模億級稀疏特征、億級樣本的神度學習模型快速訓練。我們對深度學習實時預測的性能進行了深入優化，預測性能是普通實現的10倍以上。

通過算法細節的不斷調優，雙11承接頁個性化效果顯著，相比於非個性化頁麵，個性化頁麵的成交轉化有超過20%的提升，帶來了十億級別的成交提升。

4.1產品概述

千牛頭條是一個定位於通過內容傳播與運營，滿足商家內容消費需求的商業媒體平台。為了滿足商家獲取實時、個性化資訊的需求，同時提高千牛平台的流量效率，為千牛頭條上線了一套個性化的資訊推薦係統。

千牛頭條雙11和熱門頻道

目前個性化算法支持了熱門feeds流、雙11頻道，後續會支持更多的頻道和場景。

4.2千年頭條推薦整體框架

千牛頭條推薦係統總體框架

千牛頭條資訊推薦係統的總體框架上圖所示，整個框架可分為離線、近實時、實時三部分。

離線部分主要負責用戶Profile構建以及關聯數據挖掘；近實時部分主要包括新發布資訊的實時分析引擎，模型流式更新引擎；實時部分基於通用的推薦pipeline，並結合離線、近實時模塊的產出結果，完成整套的推薦邏輯。

4.3 技術創新點

1.基於期望偏好的用戶profile

為了全方位地刻畫用戶興趣，從關鍵詞、類目、行業等維度對用戶興趣進行建模。在計算用戶profile過程時引入期望偏好，期望偏好是根據行為分布計算的用戶預期行為分布，通過用戶的期望偏好分布和實際偏好比較得到偏好分，最後用伽馬泊鬆分布對偏好分進行平滑。

2.資訊實時分析引擎

對新發布的資訊進行實時文本分析，包括分詞、關鍵詞抽取，通過行業profile和Multi-task語義向量生成行業標簽，並對資訊建立倒排索引，實現實時更新。技術上集成使用TextRank，Mutual Information, Log Odds Ratio三種關鍵詞抽取算法實現精準抽取；Multi-task語義向量模型與傳統的Word2Vector詞向量模型不同，使用詞的meta data數據，使得模型在給定上下文的情況下，同時學習詞的分布和詞meta信息分布。

3.Online Bayesian Logistic Regression模型

千牛頭條用戶在百萬量級，每天的新資訊相對較少，每篇資訊能夠累計較多的用戶行為，為此采用了PerArticle的模型方法，即針對每篇資訊單獨訓練一個Online Bayesian Logistic Regression(BLR)模型，精細化地刻畫每篇資訊。相比傳統的LR模型，BLR模型認為模型參數本身是有先驗分布的，具有更優的泛化能力，上線後ctr也有20%的提升。
其中就是LR模型的預測函數，就是Bayesian模型學習的參數分布。
在線Bayesian學習算法如下：
a）每一個參數有有一個獨立的高斯先驗
b）得到一批數據
c）優化目標函數
d）Laplace approximation求解目標函數，得到模型的均值，方差

4.高階泛化統計類特征

模型使用的特征包含用戶特征、資訊特征、用戶與資訊的交叉特征等，其中用戶與資訊的交叉特征是關鍵特征。傳統的做法直接對用戶特征和資訊特征進行交叉，這種方法很容易導致特征爆炸，交叉後大量冗餘的特征容易導致模型過擬合；為了解決上述問題，采用了一種根據業務經驗進行特征交叉，然後對交叉特征計算統計量的方法，該方法可以很好地解決特征組合爆炸問題，同時生成的統計類特征有較好的泛化性。

5.資訊冷啟動

時效性在資訊推薦中至關重要，而新資訊由於缺乏線上反饋導致CF等基於行為的推薦算法失效。
從文章維度來看新文章沒有用戶行為，但是從新文章包含的關鍵詞、主題等維度看，曆史上有很多文章也都包含這些特征，因此可以根據新文章包含關鍵詞、主題的曆史表現推斷新文章的表現。

4.4業務成果

千牛頭條經曆了兩次大的算法升級，核心指標如點擊率有了顯著的提升，第一次升級增加了基於用戶行為的個性化；第二次升級引入文本算法以及在線排序模型。

5.1背景介紹

服務市場是麵向淘係商家提供多樣化服務的交易平台，目前覆蓋淘係活躍賣家90%以上。其特點是：用戶訪問頻次低、訪問路徑短、行為少，訂購呈現周期性。原來的服務市場千人一麵，不能很好匹配商家實際需求，導購效率較低。

為解決以上問題，我們設計了服務市場個性化框架（如下圖），在個性化搜索和推薦場景中取得了顯著的效果。其中搜索點擊率提升10%，空結果率降低400%；千次展示成交數提升20%；推薦點擊提升90%，千次展示成交數提升200%，轉化率比服務市場整體高70%。

個性化導購框架

框架分為在線計算和離線計算，在線計算負責實時的商家行為分析，商品召回，個性化排序；離線部分負責商家/服務特征更新，訂購模型訓練以及候選商品池計算。

多樣化的個性化推薦算法場景

5.2關鍵技術點

1.實時偏好識別

服務市場的用戶訪問頻次低，識別用戶的實時偏好有助於更準確的匹配用戶需求。實時偏好包括實時商品偏好和實時類目偏好兩個維度，使用時間衰減累計+用戶實時訪問反饋調整的方式來構建用戶實時偏好模型。在實際使用時，根據曆史累計的數據選取TopN產生實時偏好。

2.匹配召回

服務市場搜索召回麵臨問題：搜索無結果、搜索結果相關性不高以及搜索結果不夠優質。針對上述問題，使用核心詞抽取和query擴展對原query進行語義分析和補充。包括：基於語義embedding對搜索詞進行自適應分詞和向量化表示；為保證核心詞與原query語義相似，綜合語義單元的類目分布熵、與原query的鄰接熵，與原query類目匹配度進行核心詞抽取；為了擴大query召回，根據用戶搜索補充了與原query相關的其他搜索核心詞。補充後的搜索詞大幅降低了搜索無結果率，搜素點擊率和轉化率也得到明顯提升。個性化推薦召回以實時商品偏好，實時類目偏好，近期搜索，曆史訂購商品為基礎，配合相似商品，搭配商品，類目優質商品進行擴大召回，從而構建個性化推薦的優質多樣的商品池。

3.模型排序

個性化推薦的模型排序部分負責對召回的商品池結合當前商家店鋪和商家行為特征進行個性化排序針。對特定的排序模型組裝合適的模型特征（包括單一特征，組合交叉特征，以及ID類特征等），然後根據CTR/CVR模型生成預測分數；同時結合商家訂購服務的特點，以及推薦多樣性等策略的考慮，對分數進行重排。

原文鏈接

最後更新：2017-06-22 11:32:06

機器學習&人工智能：數據賦能背後的黑科技

上一篇：《vSphere性能設計：性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一3.1.4　模擬性能問題來排除故障

下一篇：《vSphere性能設計：性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一3.1.3　重現生產問題

相關內容

熱門內容

最新內容

機器學習&人工智能：數據賦能背後的黑科技

上一篇： 《vSphere性能設計：性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一3.1.4 模擬性能問題來排除故障

下一篇： 《vSphere性能設計：性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一3.1.3 重現生產問題

相關內容

熱門內容

最新內容

上一篇：《vSphere性能設計：性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一3.1.4　模擬性能問題來排除故障

下一篇：《vSphere性能設計：性能密集場景下CPU、內存、存儲及網絡的最佳設計實踐》一3.1.3　重現生產問題