阅读90 返回首页    go 阿里云


编写MapReduce__快速开始_大数据计算服务-阿里云

本文章节的目的是介绍在安装好 MaxCompute 客户端后,如何快速运行MapReduce WordCount示例程序。使用Maven的用户可以从Maven库中搜索”odps-sdk-mapred”获取不同版本的Java SDK,相关配置信息:

  1. <dependency>
  2. <groupId>com.aliyun.odps</groupId>
  3. <artifactId>odps-sdk-mapred</artifactId>
  4. <version>0.20.7</version>
  5. </dependency>

备注:

  • 编译、运行MapReduce需要安装JDK1.6版本;
  • MaxCompute 客户端的快速部署请参阅 快速开始 。更多关于 MaxCompute 客户端的使用,请参考 ODPS客户端参考手册
  • 如果外部用户需要使用MapReduce功能,需要在工单系统上提交申请,提供项目空间名称,简单描述使用场景。只有申请通过,开通好权限后才可以使用。

1.创建输入输出表,创建表的语句请参阅 创建表(CREATE TABLE)

  1. CREATE TABLE wc_in (key STRING, value STRING);
  2. CREATE TABLE wc_out (key STRING, cnt BIGINT);
  3. -- 创建输入、输出表

2.上传数据

  • 使用tunnel命令上传数据:
  1. tunnel upload kv.txt wc_in
  2. -- 上传示例数据

kv.txt文件中的数据如下:

  1. 238,val_238
  2. 186,val_86
  3. 186,val_86
  • 您也可以用sql语句直接插入数据,比如:

    1. insert into table wc_in select '238',' val_238' from (select count(*) from wc_in) a;

3.编写MapReduce程序并编译

MaxCompute 为用户提供了便捷的Eclipse开发插件,方便用户快速开发MapReduce程序,并提供了本地调试MapReduce的功能。

用户需要先在Eclipse中创建一个项目工程,而后在此工程中编写MapReduce程序。本地调试通过后,将编译好的程序(jar包)导出并上传至ODPS。详细介绍请参考 MapReduce开发插件介绍

4.添加jar包到project资源(比如这里的jar包名为word-count-1.0.jar):

  1. add jar word-count-1.0.jar;

5.在ODPS客户端运行jar命令:

  1. jar -resources word-count-1.0.jar -classpath /home/resources/word-count-1.0.jar com.taobao.jingfan.WordCount wc_in wc_out;

6.在ODPS客户端查看结果:

  1. select * from wc_out;

备注:如果在java程序中使用了任何资源,请务必将此资源加入-resources参数。jar命令的详细介绍请参考Jar命令介绍

最后更新:2016-12-14 10:42:19

  上一篇:go 编写UDF__快速开始_大数据计算服务-阿里云
  下一篇:go 编写Graph__快速开始_大数据计算服务-阿里云