阅读242 返回首页    go 微信


云监控ECS监控插件安装方法__技术分享_技术运维问题_云监控-阿里云

 

 

云监控针对ECS实例的监控需要安装监控插件。

1.在云监控控制台上,如果ECS实例未安装插件,则云监控状态会显示为“点击安装”,如下图:

11.JPG

2.等待几分钟,云监控插件将监控数据上报到云监控系统中,控制台显示如下图:

12.JPG

 

 

对于一些特殊ECS实例无法通过云监控控制台进行插件安装的,控制台将提供手工安装提示,可参考以下方式进行插件安装。

注意:下列操作需要使用administrator或者root权限执行安装与卸载的操作:

有公网IP地址云监控组件安装

1. Linux类系统:

  1) 确认操作系统中已有unzip、iostat命令。如果没有,请通过yum install unzip sysstat或apt-get install unzip sysstat进行安装。

  2) wget https://cloudmonitor-agent.oss-cn-hangzhou.aliyuncs.com/aegis/cms_install.sh

  3) chmod +x cms_install.sh

  4) ./cms_install.sh

      安装完成后,请等待5分钟后检查服务器列表。

 

2. Windows系统:

  1) 下载https://cloudmonitor-agent.oss-cn-hangzhou.aliyuncs.com/aegis/win32/aegis_quartz.zip

  2) Windows 32bit, 解压至C:Program FilesAlibabaAegisaegis_quartz

  3) Windows 64bit, 解压至C:Program Files (x86)AlibabaAegisaegis_quartz

     15分钟后在控制台观察是否有数据。

 

无公网IP地址云监控组件安装

1. Linux类系统:

  1) 确认操作系统中已有unzip、iostat命令。如果没有,请通过yum install unzip sysstat或apt-get install unzip sysstat进行安装。

  2) wget https://cloudmonitor-agent.oss-cn-hangzhou-internal.aliyuncs.com/aegis/cms_install.sh

  3) chmod +x cms_install.sh

  4) ./cms_install.sh

      安装完成后,请等待5分钟后检查服务器列表。

 

2. Windows系统:

  1) 下载https://cloudmonitor-agent.oss-cn-hangzhou-internal.aliyuncs.com/aegis/win32/aegis_quartz.zip

  2) Windows 32bit, 解压至C:Program FilesAlibabaAegisaegis_quartz

  3) Windows 64bit, 解压至C:Program Files (x86)AlibabaAegisaegis_quartz

     15分钟后在控制台观察是否有数据。

VPC网络下云监控组件安装:

1.Linux 安装脚本下载: https://cloudmonitor-agent.oss-cn-hangzhou.aliyuncs.com/aegis/cms_install.sh
2.Windows 安装软件下载: https://update3.aegis.aliyun.com/download/win32/updates/update_00_70/aegis_inst.exe

 

常见问题:

 一、云监控里面云服务监控,监控列表和内存使用率数据展示为N/A,怎么办?

问题排查方法:

若您已经升级至新版本云盾,但没有看到监控数据,可按照以下几种方式排查。

1.检查监控模块是否安装成功:

   1).Windows用户请在任务管理器中查看是否有aegis_quartz.exe进程。

   2).Linux用户请ps查看是否有aegis_quartz进程。

2.检查网络是否连接,您可以尝试telnet open.cms.aliyun.com 80,若网络不通,检查您是否设置了安全组策略或防火墙ACL规则。

二、 通道沉默是什么概念?

        通道沉默是指,当某一条报警发出后,如果这个异常在24小时之内未被处理,则24小时内不会再次触发报警。

          举个例子:设置ECS的CPU使用率超过80%时报警,则当CPU使用率>80%且达到重试次数时,会触发报警规则发送报警短信,如果24小时内没有处理这个异常,CPU使用率持续超过80%,则24小时之内不会再次发送报警信息。如果24小时内异常恢复后再次发生异常,则仍然会触发报警信息。

 

三、“重试几次后报警”这个功能是立即重试还是按周期重试,例如,我设置的监控项是5分钟一次上报,重试3次报警,那么是15分钟后报警,还是立即重试3次然后报警呢?

       是按照周期重试,15分钟后报警

 

四、对于站点监测的一个监控项,杭州和青岛的监测都出现异常,那么一天之内是给客户发一次短信还是2次?

       这个和报警策略的设置有关,如果设置为组合报警,则杭州和青岛的监测都发生异常才会报警。如果是独立报警,则其中任何一个监测点发生异常,都会报警。建议您设置为组合报警,减少因网络抖动等非站点本身原因造成的报警。

 

五、站点监控和云服务监控项是否有设置个数限制?

        站点监控项设置个数最大为200个,云服务监控项暂时没有设置个数限制。


 

 

 

 

 

最后更新:2016-07-12 12:03:56

  上一篇:go 云服务器 ECS Linux SSH 基于密钥交换的自动登录原理简介及配置说明__远程登录 (SSH)_Linux操作运维问题_云服务器 ECS-阿里云
  下一篇:go 访问链路问题排查__常见问题_产品使用问题_容器服务-阿里云