概要描述
本文主要描述在出现以下两种情况时的问题排查步骤。
- 巡检工具执行失败
- 巡检工具执行成功,但打不开巡检报告页面
详细说明
可以依次按照以下步骤排查。
1 确认Manager版本号
登录 Manager 页面所在服务器,执行以下命令获取Manager版本号。
rpm -qa | grep transwarp-manager
如上图,Manager 版本号为 6.0-2006 。
2 确认巡检工具版本号
登录 Manager 页面所在服务器,执行以下命令获取Manager版本号。
rpm -qa | grep inspection
如上图,巡检工具的版本为 1.6.7 。
因为巡检工具高版本向下兼容,并且较高版本的 Manager 存在巡检工具的最低版本要求限制,所以建议如果巡检工具版本低于 1.7.10 时先升级到最新版本。具体的升级巡检工具的方法可以咨询星环售后技术支持。
3 确认磁盘空间
登录 Manager 页面所在服务器,执行以下命令查看磁盘空间是否充足。
df -h | head -n 30
如果有磁盘已使用超过95%甚至达到100%,则需要先清理磁盘空间,确保磁盘空间充足。
4 确认巡检工具配置
登录 Manager 页面所在服务器,执行以下命令确认巡检工具的配置项。
cat /etc/inspection/config/env.properties
重点关注以下几项。
# Manager界面登录账号
username = inspector
# Manager界面登录密码
password = inspector
# 节点登录用户名(仅限root用户或sudo用户)
nodeUser = transwarp
# 节点ssh端口号
nodePort = 22
# 节点用户密钥
userRsa = /etc/transwarp/transwarp-id_rsa
5 确认巡检用户状态
在第4步中我们看到的username
配置项即为巡检用户,例如默认的inspector
。
在 Manager 页面点击【管理】-【用户】,找到该用户。
可以看下用户是否被锁定了,如图中的inspector
用户就是被锁定状态,这种状态下无法正常巡检,需要点击用户名后点击解锁。
同时也需要确保该用户的密码与第4步看到的password
一致,如果不确定可以在该用户界面点击【设置密码】来将密码更新为password
的值。
6 确认节点免密登录
在第4步中我们看到的nodeUser
、nodePort
和userRsa
即为ssh免密登录各个节点的用户名、端口号和密钥文件。
登录 Manager 页面所在服务器,对集群内每个节点(包括Manager所在服务器自身)都执行以下命令确认是否可以免密登录。
ssh -o StrictHostKeyChecking=no -o PasswordAuthentication=no -i {userRsa} "{nodeUser}@{目标节点的hostname}"
例如:
ssh -o StrictHostKeyChecking=no -o PasswordAuthentication=no -i /etc/transwarp/transwarp-id_rsa "transwarp@linux-4-23"
执行上面的语句如果不需要输入密码就登录上的话说明免密配置成功。如果部分或全部节点免密登录失败,则需要先配置好免密登录。巡检工具的要求是root或具备sudo权限的用户,配置好任意root或具备sudo权限用户的免密登录后,可以在第4步中的配置文件中,修改nodeUser
和userRsa
的值。修改完成后,需要重启Manager服务使其生效。
7 获取日志文件联系星环售后
如果在确认完以上步骤后仍然无法正常巡检,请下载巡检工具的日志文件:
/var/log/inspection/inspection-result.log
然后通过以下任意方式提交工单,将1-6步的确认结果以及上面这个日志文件通过工单发给我们帮您处理。
- 支持邮箱: service@transwarp.io
- 微信服务号: 星环科技服务号