閱讀90 返回首頁    go 人物


編寫MapReduce__快速開始_大數據計算服務-阿裏雲

本文章節的目的是介紹在安裝好 MaxCompute 客戶端後,如何快速運行MapReduce WordCount示例程序。使用Maven的用戶可以從Maven庫中搜索”odps-sdk-mapred”獲取不同版本的Java SDK,相關配置信息:

  1. <dependency>
  2. <groupId>com.aliyun.odps</groupId>
  3. <artifactId>odps-sdk-mapred</artifactId>
  4. <version>0.20.7</version>
  5. </dependency>

備注:

  • 編譯、運行MapReduce需要安裝JDK1.6版本;
  • MaxCompute 客戶端的快速部署請參閱 快速開始 。更多關於 MaxCompute 客戶端的使用,請參考 ODPS客戶端參考手冊
  • 如果外部用戶需要使用MapReduce功能,需要在工單係統上提交申請,提供項目空間名稱,簡單描述使用場景。隻有申請通過,開通好權限後才可以使用。

1.創建輸入輸出表,創建表的語句請參閱 創建表(CREATE TABLE)

  1. CREATE TABLE wc_in (key STRING, value STRING);
  2. CREATE TABLE wc_out (key STRING, cnt BIGINT);
  3. -- 創建輸入、輸出表

2.上傳數據

  • 使用tunnel命令上傳數據:
  1. tunnel upload kv.txt wc_in
  2. -- 上傳示例數據

kv.txt文件中的數據如下:

  1. 238,val_238
  2. 186,val_86
  3. 186,val_86
  • 您也可以用sql語句直接插入數據,比如:

    1. insert into table wc_in select '238',' val_238' from (select count(*) from wc_in) a;

3.編寫MapReduce程序並編譯

MaxCompute 為用戶提供了便捷的Eclipse開發插件,方便用戶快速開發MapReduce程序,並提供了本地調試MapReduce的功能。

用戶需要先在Eclipse中創建一個項目工程,而後在此工程中編寫MapReduce程序。本地調試通過後,將編譯好的程序(jar包)導出並上傳至ODPS。詳細介紹請參考 MapReduce開發插件介紹

4.添加jar包到project資源(比如這裏的jar包名為word-count-1.0.jar):

  1. add jar word-count-1.0.jar;

5.在ODPS客戶端運行jar命令:

  1. jar -resources word-count-1.0.jar -classpath /home/resources/word-count-1.0.jar com.taobao.jingfan.WordCount wc_in wc_out;

6.在ODPS客戶端查看結果:

  1. select * from wc_out;

備注:如果在java程序中使用了任何資源,請務必將此資源加入-resources參數。jar命令的詳細介紹請參考Jar命令介紹

最後更新:2016-12-14 10:42:19

  上一篇:go 編寫UDF__快速開始_大數據計算服務-阿裏雲
  下一篇:go 編寫Graph__快速開始_大數據計算服務-阿裏雲