概要说明
本案例用于解决 Manager Web或者ganglia Web页面上的曲线消失的问题;
详细说明
Manager 页面的监控信息是由Ganglia服务提供底层支持的;Ganglia是一个集群监控工具,提供了一个PHP实现的Web front end,通过Web front可以直观的看到集群的各种数据图表,可以通过 <clusterip/ganglia> 访问
Ganglia底层使用RRDTool获得数据,Ganglia主要分为两个进程组件:
gmond(ganglia monitor deamon)运行在集群每个节点上,收集RRDTool产生的数据;
gmetad(ganglia metadata deamon)运行在机柜的汇聚节点上,收集每个gmond的数据。
操作步骤
1、确定rack级别的节点
在Manager节点上执行grep data_source /etc/ganglia/gmetad.conf,查看所有的rack级别的节点;
说明
rack1的rack级别节点是在tdh-42
rack2的rack级别节点是在tdh-54
集群有N个机柜,意味有N个rack级别的节点,本案例中有两个机柜,就有两个rack级别的节点
2、重启Ganglia进程
1、先停止所有rack级别的节点的 gmetad:
service gmetad stop (centos6.x)
systemctl stop gmetad (centos7.x)
2、重启所有节点的 gmond:
service gmond restart (centos6.x)
systemctl restart gmond (centos7.x)
3、启动所有rack级别的节点的 gmetad:
service gmetad start (centos6.x)
systemctl start gmetad (centos7.x)
备注
rrdtool fetch –daemon unix:/var/run/rrdcached/rrdcached.sock /var/lib/ganglia/rrds/__SummaryInfo__/cpu_system.rrd AVERAGE
查看后台文件确认rrdtool是否正常收集信息
FAQ
1、执行 systemctl start gmond/gmetad 卡住,一直重启不了
# systemctl list-jobs (centos 7.x)
正常情况该命令执行后显示结果应为:No jobs running.
而如果有类似下图所示情况,有 job 在 running,其他 job 在 waiting 的状态,则可以停掉 running 的任务,然后再重启 gmond/gmetad。
如上情况可以执行:
# systemctl stop plymouth-quit-wait.service (centos 7.x)
如果该服务无需开机启动,则可以继续执行:
# systemctl disable plymouth-quit-wait.service (centos 7.x)