664
財經資訊
數據上傳到MaxCompute(原ODPS)__用戶指南_推薦引擎-阿裏雲
大數據計算服務MaxCompute(原ODPS)用於在推薦引擎中對大批量離線數據進行計算和存儲。開通ODPS和詳細操作請點擊大數據平台幫助指南,購買鏈接請點擊開通大數據計算服務(原ODPS)
① 在MaxCompute(原ODPS)中創建Project項目
您需要先創建MaxCompute的項目空間(Project),該項目空間用於在推薦引擎中進行離線數據計算,創建方法請參考創建項目空間。
創建完項目空間後,請記錄下項目名稱、Access Key ID和SECRET,後續在配置推薦引擎時會使用。
如果想了解數據開發(DATA IDE)的更多功能,請點擊數據開發概述,您可以通過數據開發的控製台管理MaxCompute,進行數據ETL等操作。
② 將示例數據導入到MaxCompute的數據表中
A場景:數據在本地
本示例中,我們使用MaxCompute dship命令將本地數據導入到MaxCompute的數據表中。
上傳工具:dship (MaxCompute新版推薦使用 MaxCompute Tunnel命令,您也可以參考TUNNEL命令手冊使用TUNNEL來完成數據上傳)
create table movielens_1m_movies (
movie_id string,
title string,
genres string
);
dship u D:workDatasetMovieLensml-1mmovies.dat alidata_rp.movielens_1m_movies -h false -fd :: -rd n
create table movielens_1m_users (
user_id string,
gender string,
age bigint,
occupation string,
zipcode string
);
dship u D:workDatasetMovieLensml-1musers.dat alidata_rp.movielens_1m_users -h false -fd :: -rd n
create table movielens_1m_ratings (
user_id string,
movie_id string,
rate double,
ts bigint
);
dship u D:workDatasetMovieLensml-1mratings.dat alidata_rp.movielens_1m_ratings -h false -fd :: -rd n
B場景:數據在RDS中
- 先看RDS中的數據字段,然後在MaxCompute中創建一個一模一樣字段的表,然後在大數據開發DataIDE中創建一個同步任務,源數據表設置成RDS的表,目標表設置成MaxCompute的表。
- 等數據同步到MaxCompute後,再在DataIDE中加工數據,加工成推薦要求的數據
其他場景
當您的數據保存在其他數據源時,您可以參考雲上數據集成方案
③ 在MaxCompute中創建推薦引擎需要的數據表
數據規範參照數據格式規範
create table aliyun_re_demo_ml1m_user_meta (
user_id string,
tags string
) partitioned by (ds string);
create table aliyun_re_demo_ml1m_user_meta_config (
config_name string,
config_value string
) partitioned by (ds string);
create table aliyun_re_demo_ml1m_item_meta (
item_id string,
category string,
keywords string,
description string,
properties string,
bizinfo string
) partitioned by (ds string);
create table aliyun_re_demo_ml1m_item_meta_config (
config_name string,
config_value string
) partitioned by (ds string);
create table aliyun_re_demo_ml1m_user_behavior (
user_id string,
item_id string,
bhv_type string,
bhv_amt double,
bhv_cnt double,
bhv_datetime datetime,
content string,
media_type string,
pos_type string,
position string,
env string,
trace_id string
) partitioned by (ds string);
create table aliyun_re_demo_ml1m_rec_item_info (
item_id string,
item_info string
) partitioned by (ds string);
④ 將示例數據導入到步驟③創建的數據表
注意:用戶表和物品表需要在DS分區中導入全量,行為表在DS分區中導入每天的增量即可。
-------------------------------------------------------------
insert overwrite table aliyun_re_demo_ml1m_user_meta partition (ds='recent')
select
user_id,
concat('age 03', age, ' 02gender 03', gender, ' 02occupation 03', occupation) as tags
from alidata_rp.movielens_1m_users
;
insert overwrite table aliyun_re_demo_ml1m_user_meta_config partition (ds='recent')
select *
from (
select 'age', 'sv_enum' from dual
union all
select 'gender', 'sv_enum' from dual
union all
select 'occupation', 'sv_enum' from dual
) t
;
-------------------------------------------------------------
insert overwrite table aliyun_re_demo_ml1m_item_meta partition (ds='recent')
select
movie_id as item_id,
t2.category as category,
REGEXP_REPLACE(t1.genres, '\|', ' 02') as keywords,
title as description,
concat('genres 03', REGEXP_REPLACE(t1.genres, '\|', ' 04')) as properties,
null
from alidata_rp.movielens_1m_movies t1
join (
select distinct genres, category
from (
select genres, DENSE_RANK() over(partition by 1 order by genres) as category
from alidata_rp.movielens_1m_movies
) t
) t2
on t1.genres = t2.genres
;
insert overwrite table aliyun_re_demo_ml1m_item_meta_config partition (ds='recent')
select 'genres', 'mv_enum' from dual
;
-------------------------------------------------------------
insert overwrite table aliyun_re_demo_ml1m_rec_item_info partition (ds='recent')
select
movie_id as item_id,
concat('{"title":"', title, '","genres":"', genres, '"}') as item_info
from alidata_rp.movielens_1m_movies
;
-------------------------------------------------------------
insert overwrite table aliyun_re_demo_ml1m_user_behavior partition (ds='recent')
select
user_id, movie_id as item_id,
"grade" as bhv_type,
rate as bhv_amt, 1.0 as bhv_cnt,
FROM_UNIXTIME(ts) as bhv_datetime,
null, null, null, null, null, null
from alidata_rp.movielens_1m_ratings
;
最後更新:2016-11-23 16:04:08
上一篇:
步驟五:啟用推薦業務__快速入門_推薦引擎-阿裏雲
下一篇:
創建表格存儲實例(可選)__用戶指南_推薦引擎-阿裏雲
刪除流控策略__流量控製相關接口_API_API 網關-阿裏雲
日誌服務監控指標__常見問題_日誌服務-阿裏雲
SDK示例代碼運行簡介__數據訂閱_用戶指南_數據傳輸-阿裏雲
權限__授權管理_用戶指南_訪問控製-阿裏雲
基本問題__常見問題_日誌服務-阿裏雲
創建數據庫和賬號(SQL Server 2008 R2)__設置實例基礎配置_快速入門(SQL Server)_雲數據庫 RDS 版-阿裏雲
OSSWriter__Writer插件_使用手冊_數據集成-阿裏雲
多方式寫入__高級特性_DataHub實時數據通道_大數據計算服務-阿裏雲
GetPolicy__授權策略管理接口_RAM API文檔_訪問控製-阿裏雲
Flume MaxCompute Sink插件__數據入雲_數據集成-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲