服务故障时的日志信息收集方式

2024-07-25 其他常见问题

内容纲要

概要描述

当服务出现某些特殊问题时，需要保留当时的环境，来排查问题的根本原因；
可以先收集一些当时的奔溃信息，然后再重启服务，及时解决实际问题；

详细说明

按照信息来源和保留方式，可以将服务相关的信息分为三种：

日志信息：服务重启后，日志信息依然保留；
运行时状态或者指标信息：服务重启后，故障时的运行信息或者指标会变化
jvm 信息：服务重启后，jvm 信息会重新初始化，所以需要及时保留奔溃时刻的 jvm 信息

1、日志信息的收集

TDH 集群中，日志信息一般保留在 /var/log/ 下，不同组件有自己不同的路径；

比如 Inceptor 的，在 /var/log/Inceptor1/ 下，一般收集 hive-server2.log、hive-metastore.log、hive-server2.audit；

可以先 cp 到其他路径作为备份，避免被滚动覆盖。

[root@tdh6-161/var/log/inceptor1]# ls -lt
总用量 2045796
-rw-r--r--  1 1005 1006  5266159 6月  30 15:35 inceptor-executor.log
-rw-r--r--  1 1005 1006 37599988 6月  30 15:35 hive-metastore.log
-rw-r--r--  1 1005 1006 16261820 6月  30 15:35 hive-server2.log
-rw-r--r--. 1 1005 1006  4904608 6月  30 15:30 hive-server2.audit
-rw-r--r--. 1 1005 1006     1152 6月  30 13:40 inceptor-executor.gc.log

比如 HDFS 的日志信息，在 /var/log/hdfs1/ 下；

[root@tdh6-161/var/log/hdfs1]# ls -lt
总用量 1334956
-rwxr-xr-x  1 1001 1002 46043926 6月  30 15:36 hadoop-hdfs-namenode-tdh6-161.log
-rwxr-xr-x  1 1001 1002  7785293 6月  30 15:36 hadoop-hdfs-journalnode-tdh6-161.log
-rwxr-xr-x  1 1001 1002  3823783 6月  30 15:36 SecurityAuth-hdfs.audit
-rwxr-xr-x  1 1001 1002 59254429 6月  30 15:31 hadoop-hdfs-datanode-tdh6-161.log
-rwxr-xr-x. 1 1001 1002 65772346 6月  30 14:54 hadoop-hdfs-zkfc-tdh6-161.log

2、运行时状态信息

服务端口连接数

netstat -antp |grep 10000
netstat -antp |grep 9083
netstat -antp |grep 2181

服务器的 top 信息

截图即可，如下图所示：

file

4040 信息，如果已经升级至 dbaservice ，可以跳过

job 标签页，以及 executor 标签页，如下图所示：

file

jmx 信息（仅限hdfs、yarn、hyperbase）

开启jmx 的可以提供，如下图所示：

file

ganglia 信息或者 aquila 信息

开启 ganglia 或者 aquila 的可以提供

3、jvm 信息（并非所有组件都有）

jvm 信息一般只有在 GC 或者任务卡住时才会收集；

参见连接： jmap、jstack、jstat、jinfo 等 jvm 信息收集方式

同时提供了一个收集 jvm 信息的脚本；具体可以参见这个链接：TDH以及TDC收集 Inceptor jvm 的脚本

服务故障时的日志信息收集方式

概要描述

详细说明

1、日志信息的收集

2、运行时状态信息

3、jvm 信息（并非所有组件都有）

近期文章

分类

归档