内容纲要
概要描述
扩容yarn角色的时候,一个nodemanager角色启动失败,日志报错:
Disallowed NodeManager from tdhdata11, Sending SHUTDOWN signal to the NodeManager
。
详细说明
问题描述
扩容yarn服务的时候,有一个nodemanager角色启动失败,查看启动失败节点的 /var/log/yarn1/hadoop-yarn-nodemanager-XXXXX.log,发现报错:
2021-05-19 15:30:33,277 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Unexpected error starting NodeStatusUpdater org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from tdhdata11, Sending SHUTDOWN signal to the NodeManager.
问题原因
该节点之前可能出现过下架失败的问题,导致该节点加到了nodemanager的黑名单里面。
解决方案
- 确认nodemanager的黑名单配置文件,默认是 /etc/yarn1/conf/yarn.exclude。
通过参数yarn.resourcemanager.nodes.exclude-path
查看黑名单是哪个文件;
- 在每一个resourcemanager节点都查看,确认黑名单文件中包含了报错节点的主机名信息,清空该文件(保留文件,清空里面的内容)。
- 对yarn做配置服务操作。
- 重启整个yarn服务。