内容纲要
概要描述
Inceptor 启动或者重启失败的排查思路,如果根据本文的排查思路没有解决问题,可以 联系星环科技全球技术支持中心 寻求帮助。
详细说明
本文只讨论 Inceptor 服务本身的故障排查,平台组件(Manager、Agent、TOS、Guardian)以及 Inceptor 依赖的组件(Zookeeper、YARN、HDFS、TXSQL)必须是健康的;
本文的排查思路主要包括如下内容:
- 故障相关信息(日志、监控等)的获取以及查看
- 常见的启动失败的原因
故障相关信息的查看
查看启动失败的截图
一般是通过 Manager 启动,可以看一下启动失败是卡在哪个步骤,然后点击步骤后面的 查看 ,看一下具体的信息;
查看后台 pod 信息
在安装了 Inceptor server 节点的服务器上查看 pod 状态以及相关日志;更详细的可以参考如下连接:kubernetes 运维常用命令 – pod 篇
# 查看 inceptor 服务各角色的 pod 运行状态
[root@tdh-01~]# kubectl get pods -o wide | grep inceptor
inceptor-executor1-inceptor1-3528718297-5n38d 1/1 Running 6 21d 172.22.22.2 tdh-02
inceptor-executor1-inceptor1-3528718297-5tt2q 1/1 Running 0 16d 172.22.22.1 tdh-01
inceptor-executor1-inceptor1-3528718297-c62nk 1/1 Running 5 21d 172.22.22.3 tdh-03
inceptor-server-inceptor1-3529736423-qh58n 1/1 Running 0 16d 172.22.22.1 tdh-01
inceptor-metastore-inceptor1-3522446325-ssrnm 1/1 Running 0 5d 172.22.22.1 tdh-01
# 查看 pod 的启动日志 kubectl logs
[root@tdh-01~]# kubectl logs inceptor-metastore-inceptor1-3522446325-ssrnm
# 查看 pod 的运行状态以及事件信息 kubectl describe pods
[root@tdh-01~]# kubectl describe pods inceptor-metastore-inceptor1-3522446325-ssrnm
查看 Inceptor 的日志
获取相应角色的日志,在 Inceptor 安装的节点上进入路径/var/log/inceptor实例名
,例如/var/log/inceptor1
,查看以下日志文件:
- 当 metastore 启动失败时,查看 hive-metastore.log
- 当 Inceptor server 启动失败时,查看 hive-server2.log
- 当 executor 启动失败时,可以查看 Inceptor-executor.log 和 hive-server2.log
如下图所示:
常见启动失败的原因(持续更新)
1、更换正式 license 之后,sla 功能不可用;
2、本地数据目录文件数量太多,chown hive:hive /vdir/mnt/disk1/hadoop/ngmr/inceptor2 -R 耗费时间太多;
3、metastore 相关