919
微信
扩展MapReduce__概要_MapReduce_大数据计算服务-阿里云
传统的MapReduce模型要求每一轮MapReduce操作之后,数据必须落地到分布式文件系统上(比如HDFS或 MaxCompute 表)。而一般的MapReduce应用通常由多个MapReduce作业组成,每个作业结束之后需要写入磁盘,接下去的Map任务很多情况下只是读一遍数据,为后续的Shuffle阶段做准备,这样其实造成了冗余的IO操作。
MaxCompute 的计算调度逻辑可以支持更复杂编程模型, 针对上面的那种情况,可以在Reduce后面直接执行下一次的Reduce操作,而不需要中间插入一个Map操作。基于此,MaxCompute 提供了扩展的MapReduce模型,即可以支持Map后连接任意多个Reduce操作,比如Map->Reduce->Reduce。
Hadoop Chain Mappper/Reducer也支持类似的串行化Map或Reduce操作,但和MaxCompute的扩展MapReduce(MR2)模型有本质的区别,因为Chain Mapper/Reducer还是基于传统的MapReduce模型,只是可以在原有的Mapper或Reducer后面在增加一个或多个Mapper操作(不允许增加Reducer)。这带来的好处是用户可以复用之前的Mapper业务逻辑,可以把一个Map或Reduce拆成多个Mapper阶段,但本质上并没有改变底层的调度和I/O模型。
与 MaxCompute MapReduce相比,MR2在Map/Reducedeng 等函数编写方式上基本一致。较大的不同点发生在作业时。更多详细信息可参考扩展MapReduce示例。
最后更新:2016-10-17 15:07:41
上一篇:
MapReduce__概要__大数据计算服务-阿里云
下一篇:
开源兼容MapReduce__概要_MapReduce_大数据计算服务-阿里云
阿里云多款产品降价:最高降幅53%,可按秒计费
五步玩转事件通知__事件通知使用帮助_控制台使用帮助_消息服务-阿里云
VPC如何绑定弹性公网IP(EIP)__常见问题_专有网络 VPC-阿里云
带宽跑满__故障处理_云服务器 ECS-阿里云
怎样在OSS中使用带IP限制的访问控制___对象存储(OSS)授权问题_授权常见问题_访问控制-阿里云
SSH 登录时出现如下错误:requirement "uid >= 1000" not met by user "root"__远程登录 (SSH)_Linux操作运维问题_云服务器 ECS-阿里云
阿里云新一代关系型数据库 PolarDB
消息堆积查询场景__场景示例_Open API_消息队列 MQ-阿里云
手工脚本__脚本编写_使用手册_性能测试-阿里云
apache日志__常见日志格式_用户指南_日志服务-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云