閱讀901 返回首頁    go 財經資訊


步驟二:準備實驗數據__快速入門_推薦引擎-阿裏雲

操作如下:

  1. 下載實驗數據
  2. 解壓數據

1. 下載實驗數據

本實驗將會使用公開數據集 MovieLens (ml-100k)作為數據源,該數據集可以通過網頁https://grouplens.org/datasets/movielens/?spm=5176.docshujia/RE/startup/re-startup-pre1.2.5.ekLsL3 下載。

2. 解壓數據

下載完成後解壓縮,目錄中會有多個文件,其中我們實驗中會用到以下幾個數據文件:

  1. u.user:用戶信息
  2. u.item:電影信息
  3. u.data:用戶對電影的評分信息

具體的表結構如下:

用戶表 users:

字段名 字段含義
User_id 用戶標識,數值型,唯一標識一個用戶
Age 年齡,數值型
Gender 性別,字符串型,M:男,F:女
Occupation 職業,字符串型,如student,artist等
Zip_code 郵編,字符串型,用戶郵寄地址的郵編

電影信息表 movies:

字段名 字段含義
movie_id 電影標識,唯一標識一部電影
movie_title 電影名字
release_date 上映日期
video_release_date VCD發行日期
IMDb_URL 在IMDB中的鏈接地址
Unknown 電影類型為“未知”,1:是 0:否
Action 電影類型為“動作片”,1:是 0:否
Adventure 電影類型為“探險片”,1:是 0:否
Animation 電影類型為“動畫片”,1:是 0:否
Childrens 電影類型為“兒童片”,1:是 0:否
Comedy 電影類型為“喜劇片”,1:是 0:否
Crime 電影類型為“犯罪片”,1:是 0:否
Documentary 電影類型為“紀錄片”,1:是 0:否
Drama 電影類型為“喜劇片”,1:是 0:否
Fantasy 電影類型為“幻想片”,1:是 0:否
Film_Noir 電影類型為“黑色片”,1:是 0:否
Horror 電影類型為“恐怖片”,1:是 0:否
Musical 電影類型為“英語片”,1:是 0:否
Mystery 電影類型為“推理片”,1:是 0:否
Romance 電影類型為“愛情片”,1:是 0:否
Sci_Fi 電影類型為“科幻片”,1:是 0:否
Thriller 電影類型為“驚悚片”,1:是 0:否
War 電影類型為“戰爭片”,1:是 0:否
Western 電影類型為“西部片”,1:是 0:否

用戶評分表 ratings:

字段名 字段含義
User_id 用戶標識,數值型,唯一標識一個用戶
Movie_id 電影標識,數值型,唯一標識一部電影
Rating 用戶評分,數值型,從1-5,的整數
Timestamps 用戶評分時間,數值型,Unix時間,即從1970/1/1開始的秒數

最後更新:2016-11-23 17:16:08

  上一篇:go 步驟一: 實驗環境準備__快速入門_推薦引擎-阿裏雲
  下一篇:go 步驟三:實驗數據上傳和加工__快速入門_推薦引擎-阿裏雲