Inceptor 启动失败排查思路

  其他常见问题
内容纲要

概要描述

Inceptor 启动或者重启失败的排查思路,如果根据本文的排查思路没有解决问题,可以 联系星环科技全球技术支持中心 寻求帮助。


详细说明

本文只讨论 Inceptor 服务本身的故障排查,平台组件(Manager、Agent、TOS、Guardian)以及 Inceptor 依赖的组件(Zookeeper、YARN、HDFS、TXSQL)必须是健康的;

本文的排查思路主要包括如下内容:

  1. 故障相关信息(日志、监控等)的获取以及查看
  2. 常见的启动失败的原因

故障相关信息的查看

查看启动失败的截图

一般是通过 Manager 启动,可以看一下启动失败是卡在哪个步骤,然后点击步骤后面的 查看 ,看一下具体的信息;

file

查看后台 pod 信息

在安装了 Inceptor server 节点的服务器上查看 pod 状态以及相关日志;更详细的可以参考如下连接:kubernetes 运维常用命令 – pod 篇

# 查看 inceptor 服务各角色的 pod 运行状态
[root@tdh-01~]# kubectl get pods -o wide | grep inceptor
inceptor-executor1-inceptor1-3528718297-5n38d     1/1  Running  6     21d       172.22.22.2   tdh-02
inceptor-executor1-inceptor1-3528718297-5tt2q     1/1  Running  0     16d       172.22.22.1   tdh-01
inceptor-executor1-inceptor1-3528718297-c62nk     1/1  Running  5     21d       172.22.22.3   tdh-03
inceptor-server-inceptor1-3529736423-qh58n        1/1  Running  0     16d       172.22.22.1   tdh-01
inceptor-metastore-inceptor1-3522446325-ssrnm     1/1  Running  0     5d        172.22.22.1   tdh-01
# 查看 pod 的启动日志 kubectl logs 
[root@tdh-01~]# kubectl logs inceptor-metastore-inceptor1-3522446325-ssrnm
# 查看 pod 的运行状态以及事件信息 kubectl describe pods 
[root@tdh-01~]# kubectl describe pods inceptor-metastore-inceptor1-3522446325-ssrnm

file

查看 Inceptor 的日志

获取相应角色的日志,在 Inceptor 安装的节点上进入路径/var/log/inceptor实例名,例如/var/log/inceptor1,查看以下日志文件:

  • 当 metastore 启动失败时,查看 hive-metastore.log
  • 当 Inceptor server 启动失败时,查看 hive-server2.log
  • 当 executor 启动失败时,可以查看 Inceptor-executor.log 和 hive-server2.log

如下图所示:

file

常见启动失败的原因(持续更新)

1、更换正式 license 之后,sla 功能不可用;
2、本地数据目录文件数量太多,chown hive:hive /vdir/mnt/disk1/hadoop/ngmr/inceptor2 -R 耗费时间太多;
3、metastore 相关

这篇文章对您有帮助吗?

平均评分 0 / 5. 次数: 0

尚无评价,您可以第一个评哦!

非常抱歉,这篇文章对您没有帮助.

烦请您告诉我们您的建议与意见,以便我们改进,谢谢您。