内容纲要
概要描述
本文描述Yarn的ResourceManager均处于standby状态的解决方案
详细描述
问题描述
Manager页面配置服务重启YARN,卡在了ResourceManager上,后台 kubectl get pods -owide | grep yarn 可以查看到pod状态均为1/1 running
可以去查询两个resourcemanager服务器上/var/log/yarn1下的resource manager日志可以看到都是 Already in standby state
通过yarn rmadmin -getServiceState rm1
、yarn rmadmin -getServiceState rm2
确认2个resourcemanager都是standby。
且2个resourcemanager都没有起8031端口的监听(一般只有master节点才会起)。
解决方案
方案一: zookeeper删除znode
强制转换rm1为Active状态,查看是否生效
yarn rmadmin -transitionToActive rm1 --forcemanual
如果方案一不生效 可以尝试 下面的方案二
方案二: zookeeper删除znode
1 进入zookeeper
未开启安全情况下
source TDH-Client/init.sh
export HADOOP_USER_NAME=zookeeper
export CLIENT_JVMFLAGS="-Djava.security.auth.login.config=/etc/zookeeper1/conf/jaas.conf -Dtranswarp.maintenance.only.mode=true"
TDH-Client/zookeeper/bin/zookeeper-client
开启安全情况下
source TDH-Client/init.sh
#kinit 认证zookeeper账号
klist -kt /etc/zookeeper1/conf/zookeeper.keytab
# 根据上面列出的principle 进行认证
kinit -kt /etc/zookeeper1/conf/zookeeper.keytab zookeeper/ddmss00@TDH
export CLIENT_JVMFLAGS="-Djava.security.auth.login.config=/etc/zookeeper1/conf/jaas.conf -Dtranswarp.maintenance.only.mode=true"
TDH-Client/zookeeper/bin/zookeeper-client -server [zookeeper一个角色的ip地址]:2181
rmr /yarn-leader-election
2 配置服务重启YARN