閱讀124 返回首頁    go 微信


E-MapReduce監控__雲服務監控_用戶指南_雲監控-阿裏雲

概覽

雲監控通過監控E-MapReduce 集群的CPU空閑率、內存容量、磁盤容量等多個監控項,幫助用戶監測集群的運行狀態,並支持用戶對監控項設置報警規則。用戶購買E-MapReduce服務後,雲監控會自動對上述監控項收集數據。

監控服務

監控項

雲監控提供的監控指標見如下列表,hadoop指標含義可參考官網文檔

監控項 維度 單位 最小監控粒度
網絡流入速率 用戶維度、集群維度、角色維度 bits/s 30s
網絡流出速率 用戶維度、集群維度、角色維度 bits/s 30s
cpu空閑率 用戶維度、集群維度、角色維度 % 1分鍾
用戶態CPU使用率 用戶維度、集群維度、角色維度 % 30s
係統態CPU使用率 用戶維度、集群維度、角色維度 % 30s
空閑磁盤容量 用戶維度、集群維度、角色維度 Bytes 30s
磁盤總容量 用戶維度、集群維度、角色維度 Bytes 30s
15分鍾平均負載 用戶維度、集群維度、角色維度 - 30s
5分鍾平均負載 用戶維度、集群維度、角色維度 - 30s
1分鍾平均負載 用戶維度、集群維度、角色維度 - 30s
空閑內存容量 用戶維度、集群維度、角色維度 Bytes 30s
總內存容量 用戶維度、集群維度、角色維度 Bytes 30s
數據包流入速率 用戶維度、集群維度、角色維度 個/秒 30s
數據包流出速率 用戶維度、集群維度、角色維度 個/秒 30s
運行中的進程數目 用戶維度、集群維度、角色維度 30s
總進程數目 用戶維度、集群維度、角色維度 30s
阻塞的進程數目 用戶維度、集群維度、角色維度 30s
創建的進程/線程數目 用戶維度、集群維度、角色維度 30s
MemNonHeapUsedM 用戶維度、集群維度、角色維度 Bytes 30s
MemNonHeapCommittedM 用戶維度、集群維度、角色維度 Bytes 30s
MemNonHeapMaxM 用戶維度、集群維度、角色維度 Bytes 30s
MemHeapUsedM 用戶維度、集群維度、角色維度 Bytes 30s
MemHeapCommittedM 用戶維度、集群維度、角色維度 Bytes 30s
MemHeapMaxM 用戶維度、集群維度、角色維度 Bytes 30s
MemMaxM 用戶維度、集群維度、角色維度 Bytes 30s
ThreadsNew 用戶維度、集群維度、角色維度 - 30s
ThreadsRunnable 用戶維度、集群維度、角色維度 - 30s
ThreadsBlocked 用戶維度、集群維度、角色維度 - 30s
ThreadsWaiting 用戶維度、集群維度、角色維度 - 30s
ThreadsTimedWaiting 用戶維度、集群維度、角色維度 - 30s
ThreadsTerminated 用戶維度、集群維度、角色維度 - 30s
GcCount 用戶維度、集群維度、角色維度 - 30s
GcTimeMillis 用戶維度、集群維度、角色維度 - 30s
CallQueueLength 用戶維度、集群維度、角色維度 - 30s
NumOpenConnections 用戶維度、集群維度、角色維度 - 30s
ReceivedBytes 用戶維度、集群維度、角色維度 - 30s
SentBytes 用戶維度、集群維度、角色維度 - 30s
BlockCapacity 用戶維度、集群維度、角色維度 - 30s
BlocksTotal 用戶維度、集群維度、角色維度 - 30s
CapacityRemaining 用戶維度、集群維度、角色維度 - 30s
CapacityTotal 用戶維度、集群維度、角色維度 - 30s
CapacityUsed 用戶維度、集群維度、角色維度 - 30s
CapacityUsedNonDFS 用戶維度、集群維度、角色維度 - 30s
CorruptBlocks 用戶維度、集群維度、角色維度 - 30s
ExcessBlocks 用戶維度、集群維度、角色維度 - 30s
ExpiredHeartbeats 用戶維度、集群維度、角色維度 - 30s
MissingBlocks 用戶維度、集群維度、角色維度 - 30s
PendingDataNodeMessageCount 用戶維度、集群維度、角色維度 - 30s
PendingDeletionBlocks 用戶維度、集群維度、角色維度 - 30s
PendingReplicationBlocks 用戶維度、集群維度、角色維度 - 30s
PostponedMisreplicatedBlocks 用戶維度、集群維度、角色維度 - 30s
ScheduledReplicationBlocks 用戶維度、集群維度、角色維度 - 30s
TotalFiles 用戶維度、集群維度、角色維度 - 30s
TotalLoad 用戶維度、集群維度、角色維度 - 30s
UnderReplicatedBlocks 用戶維度、集群維度、角色維度 - 30s
BlocksRead 用戶維度、集群維度、角色維度 - 30s
BlocksRemoved 用戶維度、集群維度、角色維度 - 30s
BlocksReplicated 用戶維度、集群維度、角色維度 - 30s
BlocksUncached 用戶維度、集群維度、角色維度 - 30s
BlocksVerified 用戶維度、集群維度、角色維度 - 30s
BlockVerificationFailures 用戶維度、集群維度、角色維度 - 30s
BlocksWritten 用戶維度、集群維度、角色維度 - 30s
BytesRead 用戶維度、集群維度、角色維度 - 30s
BytesWritten 用戶維度、集群維度、角色維度 - 30s
FlushNanosAvgTime 用戶維度、集群維度、角色維度 - 30s
FlushNanosNumOps 用戶維度、集群維度、角色維度 - 30s
FsyncCount 用戶維度、集群維度、角色維度 - 30s
VolumeFailures 用戶維度、集群維度、角色維度 - 30s
ReadBlockOpNumOps 用戶維度、集群維度、角色維度 - 30s
ReadBlockOpAvgTime 用戶維度、集群維度、角色維度 ms 30s
WriteBlockOpNumOps 用戶維度、集群維度、角色維度 - 30s
WriteBlockOpAvgTime 用戶維度、集群維度、角色維度 ms 30s
BlockChecksumOpNumOps 用戶維度、集群維度、角色維度 - 30s
BlockChecksumOpAvgTime 用戶維度、集群維度、角色維度 ms 30s
CopyBlockOpNumOps 用戶維度、集群維度、角色維度 - 30s
CopyBlockOpAvgTime 用戶維度、集群維度、角色維度 ms 30s
ReplaceBlockOpNumOps 用戶維度、集群維度、角色維度 - 30s
ReplaceBlockOpAvgTime 用戶維度、集群維度、角色維度 ms 30s
BlockReportsNumOps 用戶維度、集群維度、角色維度 - 30s
BlockReportsAvgTime 用戶維度、集群維度、角色維度 ms 30s
NodeManager_AllocatedContainers 用戶維度、集群維度、角色維度 - 30s
ContainersCompleted 用戶維度、集群維度、角色維度 - 30s
ContainersFailed 用戶維度、集群維度、角色維度 - 30s
ContainersIniting 用戶維度、集群維度、角色維度 - 30s
ContainersKilled 用戶維度、集群維度、角色維度 - 30s
ContainersLaunched 用戶維度、集群維度、角色維度 - 30s
ContainersRunning 用戶維度、集群維度、角色維度 - 30s
ActiveApplications 用戶維度、集群維度、角色維度 - 30s
ActiveUsers 用戶維度、集群維度、角色維度 - 30s
AggregateContainersAllocated 用戶維度、集群維度、角色維度 - 30s
AggregateContainersReleased 用戶維度、集群維度、角色維度 - 30s
AllocatedContainers 用戶維度、集群維度、角色維度 - 30s
AppsCompleted 用戶維度、集群維度、角色維度 - 30s
AppsFailed 用戶維度、集群維度、角色維度 - 30s
AppsKilled 用戶維度、集群維度、角色維度 - 30s
AppsPending 用戶維度、集群維度、角色維度 - 30s
AppsRunning 用戶維度、集群維度、角色維度 - 30s
AppsSubmitted 用戶維度、集群維度、角色維度 - 30s
AvailableMB 用戶維度、集群維度、角色維度 - 30s
AvailableVCores 用戶維度、集群維度、角色維度 - 30s
PendingContainers 用戶維度、集群維度、角色維度 - 30s
ReservedContainers 用戶維度、集群維度、角色維度 - 30s

注意事項

  • 監控數據最多保存31天。
  • 用戶最多可連續查看14天的監控數據。

查看監控數據

  1. 登錄雲監控控製台。
  2. 進入“雲服務監控”下的“E-MapReduce”實例列表。
  3. 點擊實例名稱或“操作”中的“監控圖表”即可進入實例監控詳情頁麵,查看各項指標。
  4. 點擊頁麵上方的“時間範圍”快速選擇按鈕或精確選擇功能,監控數據最長支持查看連續14天的監控數據。
  5. 點擊監控圖右上角的“放大”按鈕,可查看監控大圖。

報警服務

參數說明

  • 監控項:即E-MapReduce服務提供的監控指標。
  • 統計周期:報警係統會按照這個周期檢查您對應的監控數據是否超過了報警閾值。例如設置內存使用率報警規則的統計周期為1分鍾,則每間隔1分鍾會檢查一次內存使用率是否超過了閾值。
  • 統計方法:統計方法指對超出閾值範圍的設置。統計方法中可以設置平均值、最大值、最小值、求和值。

    a. 平均值:統計周期內監控數據的平均值。統計結果是15分鍾內采集的所有監控數據的平均值,當這個平均值大於80%時,才算超過閾值。

    b. 最大值:統計周期內監控數據的最大值。統計周期內采集的監控數據中,最大值超過80%,即為超過閾值。

    c. 最小值:統計周期內監控數據的最小值。統計周期內采集的監控數據中,最小值超過80%,即為超過閾值。

    d. 求和值:統計周期內監控數據的總和。對統計周期內采集的監控數據進行求和,求和後的結果超過80%即為超過閾值。流量類指標需要用到此類統計方法。

  • 連續次數:指連續幾個統計周期監控項的值持續超過閾值後觸發報警。

    例如:設置CUP使用率超過80%報警,統計周期為5分鍾,連續3次超過閾值後報警,則第一次探測CUP使用率超過80%時,不會發出報警通知。5分鍾後第二次探測CUP使用率超過80%,也不會發出報警。第三次探測仍然超過80%時,才會發出報警通知。即從實際數據第一次超過閾值到最終發出報警規則,最少需要消耗的時間為統計周期(連續探測次數-1)=5(3-1)=10分鍾。

設置單條報警規則

  1. 登錄雲監控控製台。
  2. 進入“雲服務監控”下的“E-MapReduce”實例列表。
  3. 點擊實例名稱或“操作”中的“監控圖表”即可進入實例監控詳情頁麵
  4. 點擊監控圖右上角的“鈴鐺”按鈕或頁麵右上角的“新建報警規則”,可對該實例對應的監控項設置報警規則。

設置批量報警規則

  1. 登錄雲監控控製台。
  2. 進入“雲服務監控”下的“E-MapReduce監控”實例列表。
  3. 實例列表頁麵選中所需實例後,在頁麵下方點擊“設置報警規則”,即可批量添加報警規則。

最後更新:2016-11-23 17:16:10

  上一篇:go API網關監控__雲服務監控_用戶指南_雲監控-阿裏雲
  下一篇:go 站點監控概覽__站點監控_用戶指南_雲監控-阿裏雲