服务故障时的日志信息收集方式

  其他常见问题
内容纲要

概要描述

当服务出现某些特殊问题时,需要保留当时的环境,来排查问题的根本原因;
可以先收集一些当时的奔溃信息,然后再重启服务,及时解决实际问题;


详细说明

按照信息来源和保留方式,可以将服务相关的信息分为三种:

  1. 日志信息:服务重启后,日志信息依然保留;
  2. 运行时状态或者指标信息:服务重启后,故障时的运行信息或者指标会变化
  3. jvm 信息:服务重启后,jvm 信息会重新初始化,所以需要及时保留奔溃时刻的 jvm 信息

1、日志信息的收集

TDH 集群中,日志信息一般保留在 /var/log/ 下,不同组件有自己不同的路径;

比如 Inceptor 的,在 /var/log/Inceptor1/ 下,一般收集 hive-server2.log、hive-metastore.log、hive-server2.audit

可以先 cp 到其他路径作为备份,避免被滚动覆盖。

[root@tdh6-161/var/log/inceptor1]# ls -lt
总用量 2045796
-rw-r--r--  1 1005 1006  5266159 6月  30 15:35 inceptor-executor.log
-rw-r--r--  1 1005 1006 37599988 6月  30 15:35 hive-metastore.log
-rw-r--r--  1 1005 1006 16261820 6月  30 15:35 hive-server2.log
-rw-r--r--. 1 1005 1006  4904608 6月  30 15:30 hive-server2.audit
-rw-r--r--. 1 1005 1006     1152 6月  30 13:40 inceptor-executor.gc.log

比如 HDFS 的日志信息,在 /var/log/hdfs1/ 下;

[root@tdh6-161/var/log/hdfs1]# ls -lt
总用量 1334956
-rwxr-xr-x  1 1001 1002 46043926 6月  30 15:36 hadoop-hdfs-namenode-tdh6-161.log
-rwxr-xr-x  1 1001 1002  7785293 6月  30 15:36 hadoop-hdfs-journalnode-tdh6-161.log
-rwxr-xr-x  1 1001 1002  3823783 6月  30 15:36 SecurityAuth-hdfs.audit
-rwxr-xr-x  1 1001 1002 59254429 6月  30 15:31 hadoop-hdfs-datanode-tdh6-161.log
-rwxr-xr-x. 1 1001 1002 65772346 6月  30 14:54 hadoop-hdfs-zkfc-tdh6-161.log

2、运行时状态信息

服务端口连接数

netstat -antp |grep 10000
netstat -antp |grep 9083
netstat -antp |grep 2181

服务器的 top 信息

截图即可,如下图所示:

file

4040 信息,如果已经升级至 dbaservice ,可以跳过

job 标签页,以及 executor 标签页,如下图所示:

file

file

jmx 信息(仅限hdfs、yarn、hyperbase)

开启jmx 的可以提供,如下图所示:

file

ganglia 信息或者 aquila 信息

开启 ganglia 或者 aquila 的可以提供

3、jvm 信息(并非所有组件都有)

jvm 信息一般只有在 GC 或者任务卡住时才会收集;

参见连接: jmap、jstack、jstat、jinfo 等 jvm 信息收集方式

同时提供了一个收集 jvm 信息的脚本;具体可以参见这个链接:TDH以及TDC收集 Inceptor jvm 的脚本

这篇文章对您有帮助吗?

平均评分 0 / 5. 次数: 0

尚无评价,您可以第一个评哦!

非常抱歉,这篇文章对您没有帮助.

烦请您告诉我们您的建议与意见,以便我们改进,谢谢您。