閱讀1011 返回首頁    go 人物


啟動離線計算__用戶指南_推薦引擎-阿裏雲

配置完推薦場景的算法流程後,推薦引擎需要對已配置的數據進行算法計算,才能輸出推薦結果。您可以通過手動方式或調用API方式啟動離線計算。

1 通過手動方式啟動作業。

① 執行數據預處理任務。在我的推薦頁麵,若當日數據預處理狀態處於“未運行時”,點擊“啟動數據預處理”按鈕,在彈出的數據預處理窗口中選擇當天的日期,隨後點擊“啟動預處理”按鈕。此時我的推薦夜間,當日數據預處理的狀態處於“運行中”。如果啟動數據預處理的日期不是當天日期,可通過點擊“查看數據預處理日誌”來查看其它日期的數據預處理結果。

② 啟動離線計算任務。在我的推薦頁麵,選擇要進行離線計算的算法流程,點擊“啟動離線計算”。

注意:

  • 如果要計算“線上生產環境”中的算法流程,請點擊TAB頁“線上生產環境”,選擇要進行計算的算法流程,點擊“啟動離線計算”;為了保證線上的推薦能夠進行ABTEST,線上生產環境中的離線計算強製要求針對該推薦場景下所有處於線上生產環境狀態的算法流程。

  • 如果要計算“開發測試環境”中的算法流程,請點擊TAB頁“開發測試環境”,選擇要進行計算的算法流程,點擊“啟動離線計算”;在開發測試環境中,離線計算針對單個算法流程進行計算。

③ 在彈出的啟動離線計算窗口中,係統會顯示將進行計算的算法流程,您還需要設置要進行計算的日期(如果該日期的數據沒有執行過數據預處理,則需要先進行數據預處理),設置完成後點擊確定。

④ 查詢計算運行是否成功,可通過我的推薦頁麵中的列表“算法運行狀態”進行查看,點擊查看日誌鏈接可查看詳細日誌。

進入路徑:我的推薦 -> 啟動數據預處理/啟動離線計算

2 通過API方式啟動作業

先調用啟動數據預處理任務API,再調用啟動離線算法任務API。

有關API詳細內容可參閱API說明

數據預處理說明

數據預處理是對源數據進行一些預先處理,處理的內容包括對客戶數據進行離線日誌處理、格式轉換和格式檢查等。當每天的源數據發生變化時,需要進行數據預處理(源數據如果沒有發生變化,則不需要進行數據預處理,也不需要啟動離線計算任務進行算法計算)。業務每天的數據預處理隻需要執行一次,執行成功後才可以啟動其他離線算法任務進行算法計算。

在下文中將會使用下麵的標識表示各個部分的內容

  • DS 表示數據預處理的數據時間

  • 客戶添加業務時填寫的各離線表及其標識

    • UPLOAD_USER_META 表示用戶表
    • UPLOAD_ITEM_META 表示物品表
    • UPLOAD_USER_BEHAVIOR 表示行為表
    • UPLOAD_ITEM_META_CONFIG 表示物品屬性維度表
    • UPLOAD_USER_META_CONFIG 表示用戶屬性維度表
    • UPLOAD_REC_ITEM_INFO 表示可推薦物品表
  • 日誌服務解析的離線表及其標識

    • LOG_USER_META 表示解析日誌得到的用戶表
    • LOG_ITEM_META 表示解析日誌得到的物品表
  • 算法使用的離線表及其標識

    • USER_META 表示用戶表
    • ITEM_META 表示物品表
    • USER_BEHAVIOR 表示行為表
    • REC_ITEM_INFO 表示可推薦物品表

了解數據預處理計算邏輯

step1 離線日誌處理

如果用戶業務屬性中配置了“使用本產品日誌API接收日誌”,來完成數據采集,則執行這一步,否則跳過。 埋點規範可以參照 日誌埋點規範

  • 用戶登錄埋點會解析插入到LOG_USER_META表中,並且與曆史數據匯總,曆史數據最多保留180天
  • 物品注冊埋點會解析插入到LOG_ITEM_META表中,並且與曆史數據匯總,曆史數據最多保留180天
  • 行為埋點會解析插入到USER_BEHAVIOR表的DS分區。

step2 格式轉換

  • UPLOAD_ITEM_META的最新分區解析插入到ITEM_META表的DS分區中,如果同時使用日誌服務,則與LOG_ITEM_META合並,根據item_id去重,ID相同的條目以LOG_ITEM_META為準。
  • UPLOAD_ITEM_META_CONFIG插入 ITEM_META 的 'type = config' 分區。
  • UPLOAD_USER_META的最新分區解析插入到USER_META表的DS分區中,如果同時使用日誌服務,則與LOG_USER_META合並,根據user_id去重,ID相同的條目以LOG_USER_META為準。
  • UPLOAD_USER_META_CONFIG插入 USER_META 的 'type = config' 分區。
  • UPLOAD_USER_META的最新分區解析插入到USER_META表的DS分區中,如果同時使用日誌服務,則與LOG_USER_META合並,根據user_id去重,ID相同的條目以LOG_USER_META為準。
  • 如果沒有使用日誌服務,取UPLOAD_USER_BEHAVIORDS分區插入至 USER_BEHAVIORDS分區。如果 UPLOAD_USER_BEHAVIOR有‘ds=recent’分區,則‘recent’分區也會插入至USER_BEHAVIORDS分區。
  • 如果客戶提供UPLOAD_REC_ITEM_INFO 則把UPLOAD_REC_ITEM_INFO 的最新分區插入 REC_ITEM_INFODS分區,否則把 ITEM_META的 item_id,biz_info 字段插入 REC_ITEM_INFODS分區,意味著ITEM全集都為推薦候選集。

step3 格式檢查

對如下最終產生的算法輸入表檢查是否非空,字段格式是否符合規範,字段規範參照數據格式規範

  • USER_META 用戶表
  • ITEM_META 物品表
  • USER_BEHAVIOR 行為表
  • REC_ITEM_INFO 可推薦物品表

最後更新:2016-11-23 16:04:08

  上一篇:go 內置算法和模板說明__用戶指南_推薦引擎-阿裏雲
  下一篇:go API對接__用戶指南_推薦引擎-阿裏雲