124
阿里云
E-MapReduce监控__云服务监控_用户指南_云监控-阿里云
概览
云监控通过监控E-MapReduce 集群的CPU空闲率、内存容量、磁盘容量等多个监控项,帮助用户监测集群的运行状态,并支持用户对监控项设置报警规则。用户购买E-MapReduce服务后,云监控会自动对上述监控项收集数据。
监控服务
监控项
云监控提供的监控指标见如下列表,hadoop指标含义可参考官网文档
监控项 | 维度 | 单位 | 最小监控粒度 |
---|---|---|---|
网络流入速率 | 用户维度、集群维度、角色维度 | bits/s | 30s |
网络流出速率 | 用户维度、集群维度、角色维度 | bits/s | 30s |
cpu空闲率 | 用户维度、集群维度、角色维度 | % | 1分钟 |
用户态CPU使用率 | 用户维度、集群维度、角色维度 | % | 30s |
系统态CPU使用率 | 用户维度、集群维度、角色维度 | % | 30s |
空闲磁盘容量 | 用户维度、集群维度、角色维度 | Bytes | 30s |
磁盘总容量 | 用户维度、集群维度、角色维度 | Bytes | 30s |
15分钟平均负载 | 用户维度、集群维度、角色维度 | - | 30s |
5分钟平均负载 | 用户维度、集群维度、角色维度 | - | 30s |
1分钟平均负载 | 用户维度、集群维度、角色维度 | - | 30s |
空闲内存容量 | 用户维度、集群维度、角色维度 | Bytes | 30s |
总内存容量 | 用户维度、集群维度、角色维度 | Bytes | 30s |
数据包流入速率 | 用户维度、集群维度、角色维度 | 个/秒 | 30s |
数据包流出速率 | 用户维度、集群维度、角色维度 | 个/秒 | 30s |
运行中的进程数目 | 用户维度、集群维度、角色维度 | 个 | 30s |
总进程数目 | 用户维度、集群维度、角色维度 | 个 | 30s |
阻塞的进程数目 | 用户维度、集群维度、角色维度 | 个 | 30s |
创建的进程/线程数目 | 用户维度、集群维度、角色维度 | 个 | 30s |
MemNonHeapUsedM | 用户维度、集群维度、角色维度 | Bytes | 30s |
MemNonHeapCommittedM | 用户维度、集群维度、角色维度 | Bytes | 30s |
MemNonHeapMaxM | 用户维度、集群维度、角色维度 | Bytes | 30s |
MemHeapUsedM | 用户维度、集群维度、角色维度 | Bytes | 30s |
MemHeapCommittedM | 用户维度、集群维度、角色维度 | Bytes | 30s |
MemHeapMaxM | 用户维度、集群维度、角色维度 | Bytes | 30s |
MemMaxM | 用户维度、集群维度、角色维度 | Bytes | 30s |
ThreadsNew | 用户维度、集群维度、角色维度 | - | 30s |
ThreadsRunnable | 用户维度、集群维度、角色维度 | - | 30s |
ThreadsBlocked | 用户维度、集群维度、角色维度 | - | 30s |
ThreadsWaiting | 用户维度、集群维度、角色维度 | - | 30s |
ThreadsTimedWaiting | 用户维度、集群维度、角色维度 | - | 30s |
ThreadsTerminated | 用户维度、集群维度、角色维度 | - | 30s |
GcCount | 用户维度、集群维度、角色维度 | - | 30s |
GcTimeMillis | 用户维度、集群维度、角色维度 | - | 30s |
CallQueueLength | 用户维度、集群维度、角色维度 | - | 30s |
NumOpenConnections | 用户维度、集群维度、角色维度 | - | 30s |
ReceivedBytes | 用户维度、集群维度、角色维度 | - | 30s |
SentBytes | 用户维度、集群维度、角色维度 | - | 30s |
BlockCapacity | 用户维度、集群维度、角色维度 | - | 30s |
BlocksTotal | 用户维度、集群维度、角色维度 | - | 30s |
CapacityRemaining | 用户维度、集群维度、角色维度 | - | 30s |
CapacityTotal | 用户维度、集群维度、角色维度 | - | 30s |
CapacityUsed | 用户维度、集群维度、角色维度 | - | 30s |
CapacityUsedNonDFS | 用户维度、集群维度、角色维度 | - | 30s |
CorruptBlocks | 用户维度、集群维度、角色维度 | - | 30s |
ExcessBlocks | 用户维度、集群维度、角色维度 | - | 30s |
ExpiredHeartbeats | 用户维度、集群维度、角色维度 | - | 30s |
MissingBlocks | 用户维度、集群维度、角色维度 | - | 30s |
PendingDataNodeMessageCount | 用户维度、集群维度、角色维度 | - | 30s |
PendingDeletionBlocks | 用户维度、集群维度、角色维度 | - | 30s |
PendingReplicationBlocks | 用户维度、集群维度、角色维度 | - | 30s |
PostponedMisreplicatedBlocks | 用户维度、集群维度、角色维度 | - | 30s |
ScheduledReplicationBlocks | 用户维度、集群维度、角色维度 | - | 30s |
TotalFiles | 用户维度、集群维度、角色维度 | - | 30s |
TotalLoad | 用户维度、集群维度、角色维度 | - | 30s |
UnderReplicatedBlocks | 用户维度、集群维度、角色维度 | - | 30s |
BlocksRead | 用户维度、集群维度、角色维度 | - | 30s |
BlocksRemoved | 用户维度、集群维度、角色维度 | - | 30s |
BlocksReplicated | 用户维度、集群维度、角色维度 | - | 30s |
BlocksUncached | 用户维度、集群维度、角色维度 | - | 30s |
BlocksVerified | 用户维度、集群维度、角色维度 | - | 30s |
BlockVerificationFailures | 用户维度、集群维度、角色维度 | - | 30s |
BlocksWritten | 用户维度、集群维度、角色维度 | - | 30s |
BytesRead | 用户维度、集群维度、角色维度 | - | 30s |
BytesWritten | 用户维度、集群维度、角色维度 | - | 30s |
FlushNanosAvgTime | 用户维度、集群维度、角色维度 | - | 30s |
FlushNanosNumOps | 用户维度、集群维度、角色维度 | - | 30s |
FsyncCount | 用户维度、集群维度、角色维度 | - | 30s |
VolumeFailures | 用户维度、集群维度、角色维度 | - | 30s |
ReadBlockOpNumOps | 用户维度、集群维度、角色维度 | - | 30s |
ReadBlockOpAvgTime | 用户维度、集群维度、角色维度 | ms | 30s |
WriteBlockOpNumOps | 用户维度、集群维度、角色维度 | - | 30s |
WriteBlockOpAvgTime | 用户维度、集群维度、角色维度 | ms | 30s |
BlockChecksumOpNumOps | 用户维度、集群维度、角色维度 | - | 30s |
BlockChecksumOpAvgTime | 用户维度、集群维度、角色维度 | ms | 30s |
CopyBlockOpNumOps | 用户维度、集群维度、角色维度 | - | 30s |
CopyBlockOpAvgTime | 用户维度、集群维度、角色维度 | ms | 30s |
ReplaceBlockOpNumOps | 用户维度、集群维度、角色维度 | - | 30s |
ReplaceBlockOpAvgTime | 用户维度、集群维度、角色维度 | ms | 30s |
BlockReportsNumOps | 用户维度、集群维度、角色维度 | - | 30s |
BlockReportsAvgTime | 用户维度、集群维度、角色维度 | ms | 30s |
NodeManager_AllocatedContainers | 用户维度、集群维度、角色维度 | - | 30s |
ContainersCompleted | 用户维度、集群维度、角色维度 | - | 30s |
ContainersFailed | 用户维度、集群维度、角色维度 | - | 30s |
ContainersIniting | 用户维度、集群维度、角色维度 | - | 30s |
ContainersKilled | 用户维度、集群维度、角色维度 | - | 30s |
ContainersLaunched | 用户维度、集群维度、角色维度 | - | 30s |
ContainersRunning | 用户维度、集群维度、角色维度 | - | 30s |
ActiveApplications | 用户维度、集群维度、角色维度 | - | 30s |
ActiveUsers | 用户维度、集群维度、角色维度 | - | 30s |
AggregateContainersAllocated | 用户维度、集群维度、角色维度 | - | 30s |
AggregateContainersReleased | 用户维度、集群维度、角色维度 | - | 30s |
AllocatedContainers | 用户维度、集群维度、角色维度 | - | 30s |
AppsCompleted | 用户维度、集群维度、角色维度 | - | 30s |
AppsFailed | 用户维度、集群维度、角色维度 | - | 30s |
AppsKilled | 用户维度、集群维度、角色维度 | - | 30s |
AppsPending | 用户维度、集群维度、角色维度 | - | 30s |
AppsRunning | 用户维度、集群维度、角色维度 | - | 30s |
AppsSubmitted | 用户维度、集群维度、角色维度 | - | 30s |
AvailableMB | 用户维度、集群维度、角色维度 | - | 30s |
AvailableVCores | 用户维度、集群维度、角色维度 | - | 30s |
PendingContainers | 用户维度、集群维度、角色维度 | - | 30s |
ReservedContainers | 用户维度、集群维度、角色维度 | - | 30s |
注意事项
- 监控数据最多保存31天。
- 用户最多可连续查看14天的监控数据。
查看监控数据
- 登录云监控控制台。
- 进入“云服务监控”下的“E-MapReduce”实例列表。
- 点击实例名称或“操作”中的“监控图表”即可进入实例监控详情页面,查看各项指标。
- 点击页面上方的“时间范围”快速选择按钮或精确选择功能,监控数据最长支持查看连续14天的监控数据。
- 点击监控图右上角的“放大”按钮,可查看监控大图。
报警服务
参数说明
- 监控项:即E-MapReduce服务提供的监控指标。
- 统计周期:报警系统会按照这个周期检查您对应的监控数据是否超过了报警阈值。例如设置内存使用率报警规则的统计周期为1分钟,则每间隔1分钟会检查一次内存使用率是否超过了阈值。
统计方法:统计方法指对超出阈值范围的设置。统计方法中可以设置平均值、最大值、最小值、求和值。
a. 平均值:统计周期内监控数据的平均值。统计结果是15分钟内采集的所有监控数据的平均值,当这个平均值大于80%时,才算超过阈值。
b. 最大值:统计周期内监控数据的最大值。统计周期内采集的监控数据中,最大值超过80%,即为超过阈值。
c. 最小值:统计周期内监控数据的最小值。统计周期内采集的监控数据中,最小值超过80%,即为超过阈值。
d. 求和值:统计周期内监控数据的总和。对统计周期内采集的监控数据进行求和,求和后的结果超过80%即为超过阈值。流量类指标需要用到此类统计方法。
连续次数:指连续几个统计周期监控项的值持续超过阈值后触发报警。
例如:设置CUP使用率超过80%报警,统计周期为5分钟,连续3次超过阈值后报警,则第一次探测CUP使用率超过80%时,不会发出报警通知。5分钟后第二次探测CUP使用率超过80%,也不会发出报警。第三次探测仍然超过80%时,才会发出报警通知。即从实际数据第一次超过阈值到最终发出报警规则,最少需要消耗的时间为统计周期(连续探测次数-1)=5(3-1)=10分钟。
设置单条报警规则
- 登录云监控控制台。
- 进入“云服务监控”下的“E-MapReduce”实例列表。
- 点击实例名称或“操作”中的“监控图表”即可进入实例监控详情页面
- 点击监控图右上角的“铃铛”按钮或页面右上角的“新建报警规则”,可对该实例对应的监控项设置报警规则。
设置批量报警规则
- 登录云监控控制台。
- 进入“云服务监控”下的“E-MapReduce监控”实例列表。
- 实例列表页面选中所需实例后,在页面下方点击“设置报警规则”,即可批量添加报警规则。
最后更新:2016-11-23 17:16:10
上一篇:
API网关监控__云服务监控_用户指南_云监控-阿里云
下一篇:
站点监控概览__站点监控_用户指南_云监控-阿里云
云小蜜首次对外开放,阿里云的智能客服机器人有何新特点?
Ping响应延迟或丢包的解决办法__故障处理_云服务器 ECS-阿里云
自定义标签-标签加工及规范__进阶功能_移动定向营销_规则引擎-阿里云
什么是对象存储 OSS_阿里云帮助中心-阿里云,领先的云计算服务提供商
云计算资源注册__使用手册_画像分析-阿里云
云服务器 ECS 安全组 应用案例
阿里云加快西部布局:西南地域将于2018年初上线
上云培训及认证的主旨__上云培训介绍_上云培训-阿里云
查询端口转发规则列表__NAT网关相关接口_API 参考_云服务器 ECS-阿里云
防火墙管理__系统管理_用户指南(Linux)_数据管理-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云