數據上傳到MaxCompute(原ODPS)__用戶指南_推薦引擎-阿裏雲
大數據計算服務MaxCompute(原ODPS)用於在推薦引擎中對大批量離線數據進行計算和存儲。開通ODPS和詳細操作請點擊大數據平台幫助指南,購買鏈接請點擊開通大數據計算服務(原ODPS)
① 在MaxCompute(原ODPS)中創建Project項目
您需要先創建MaxCompute的項目空間(Project),該項目空間用於在推薦引擎中進行離線數據計算,創建方法請參考創建項目空間。
創建完項目空間後,請記錄下項目名稱、Access Key ID和SECRET,後續在配置推薦引擎時會使用。
如果想了解數據開發(DATA IDE)的更多功能,請點擊數據開發概述,您可以通過數據開發的控製台管理MaxCompute,進行數據ETL等操作。
② 將示例數據導入到MaxCompute的數據表中
A場景:數據在本地
本示例中,我們使用MaxCompute dship命令將本地數據導入到MaxCompute的數據表中。
上傳工具:dship (MaxCompute新版推薦使用 MaxCompute Tunnel命令,您也可以參考TUNNEL命令手冊使用TUNNEL來完成數據上傳)
create table movielens_1m_movies (movie_id string,title string,genres string);dship u D:workDatasetMovieLensml-1mmovies.dat alidata_rp.movielens_1m_movies -h false -fd :: -rd ncreate table movielens_1m_users (user_id string,gender string,age bigint,occupation string,zipcode string);dship u D:workDatasetMovieLensml-1musers.dat alidata_rp.movielens_1m_users -h false -fd :: -rd ncreate table movielens_1m_ratings (user_id string,movie_id string,rate double,ts bigint);dship u D:workDatasetMovieLensml-1mratings.dat alidata_rp.movielens_1m_ratings -h false -fd :: -rd n
B場景:數據在RDS中
- 先看RDS中的數據字段,然後在MaxCompute中創建一個一模一樣字段的表,然後在大數據開發DataIDE中創建一個同步任務,源數據表設置成RDS的表,目標表設置成MaxCompute的表。
- 等數據同步到MaxCompute後,再在DataIDE中加工數據,加工成推薦要求的數據
其他場景
當您的數據保存在其他數據源時,您可以參考雲上數據集成方案
③ 在MaxCompute中創建推薦引擎需要的數據表
數據規範參照數據格式規範
create table aliyun_re_demo_ml1m_user_meta (user_id string,tags string) partitioned by (ds string);create table aliyun_re_demo_ml1m_user_meta_config (config_name string,config_value string) partitioned by (ds string);create table aliyun_re_demo_ml1m_item_meta (item_id string,category string,keywords string,description string,properties string,bizinfo string) partitioned by (ds string);create table aliyun_re_demo_ml1m_item_meta_config (config_name string,config_value string) partitioned by (ds string);create table aliyun_re_demo_ml1m_user_behavior (user_id string,item_id string,bhv_type string,bhv_amt double,bhv_cnt double,bhv_datetime datetime,content string,media_type string,pos_type string,position string,env string,trace_id string) partitioned by (ds string);create table aliyun_re_demo_ml1m_rec_item_info (item_id string,item_info string) partitioned by (ds string);
④ 將示例數據導入到步驟③創建的數據表
注意:用戶表和物品表需要在DS分區中導入全量,行為表在DS分區中導入每天的增量即可。
-------------------------------------------------------------insert overwrite table aliyun_re_demo_ml1m_user_meta partition (ds='recent')selectuser_id,concat('age 03', age, ' 02gender 03', gender, ' 02occupation 03', occupation) as tagsfrom alidata_rp.movielens_1m_users;insert overwrite table aliyun_re_demo_ml1m_user_meta_config partition (ds='recent')select *from (select 'age', 'sv_enum' from dualunion allselect 'gender', 'sv_enum' from dualunion allselect 'occupation', 'sv_enum' from dual) t;-------------------------------------------------------------insert overwrite table aliyun_re_demo_ml1m_item_meta partition (ds='recent')selectmovie_id as item_id,t2.category as category,REGEXP_REPLACE(t1.genres, '\|', ' 02') as keywords,title as description,concat('genres 03', REGEXP_REPLACE(t1.genres, '\|', ' 04')) as properties,nullfrom alidata_rp.movielens_1m_movies t1join (select distinct genres, categoryfrom (select genres, DENSE_RANK() over(partition by 1 order by genres) as categoryfrom alidata_rp.movielens_1m_movies) t) t2on t1.genres = t2.genres;insert overwrite table aliyun_re_demo_ml1m_item_meta_config partition (ds='recent')select 'genres', 'mv_enum' from dual;-------------------------------------------------------------insert overwrite table aliyun_re_demo_ml1m_rec_item_info partition (ds='recent')selectmovie_id as item_id,concat('{"title":"', title, '","genres":"', genres, '"}') as item_infofrom alidata_rp.movielens_1m_movies;-------------------------------------------------------------insert overwrite table aliyun_re_demo_ml1m_user_behavior partition (ds='recent')selectuser_id, movie_id as item_id,"grade" as bhv_type,rate as bhv_amt, 1.0 as bhv_cnt,FROM_UNIXTIME(ts) as bhv_datetime,null, null, null, null, null, nullfrom alidata_rp.movielens_1m_ratings;
最後更新:2016-11-23 16:04:08
上一篇:
步驟五:啟用推薦業務__快速入門_推薦引擎-阿裏雲
下一篇:
創建表格存儲實例(可選)__用戶指南_推薦引擎-阿裏雲
刪除流控策略__流量控製相關接口_API_API 網關-阿裏雲
日誌服務監控指標__常見問題_日誌服務-阿裏雲
SDK示例代碼運行簡介__數據訂閱_用戶指南_數據傳輸-阿裏雲
權限__授權管理_用戶指南_訪問控製-阿裏雲
基本問題__常見問題_日誌服務-阿裏雲
創建數據庫和賬號(SQL Server 2008 R2)__設置實例基礎配置_快速入門(SQL Server)_雲數據庫 RDS 版-阿裏雲
OSSWriter__Writer插件_使用手冊_數據集成-阿裏雲
多方式寫入__高級特性_DataHub實時數據通道_大數據計算服務-阿裏雲
GetPolicy__授權策略管理接口_RAM API文檔_訪問控製-阿裏雲
Flume MaxCompute Sink插件__數據入雲_數據集成-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲