Sophon会话(session)启不来问题排查

  其他常见问题
内容纲要

概要描述


Sophon会话(session)启不来是一个常见问题,主要是两方面原因造成,一是会话启动超时,二是会话中资源需求(如会话中设置的executor的内存)超过yarn的资源配置参数。

详细说明


Sophon会话本质上是spark on yarn(yarn-client模式),一个提交到 yarn 上的 spark application,可在 Yarn 服务 resourcemanager 角色 link 的8088页面查看。
会话启动过程会将 spark 相关 jar包上传到 hdfs上,上传完毕后会检查是否能从 yarn上分配到足够的会话资源。
有时会话启动的这两个过程耗时会超过 /etc/sophon1/conf/sophon.conf 配置的超时参数 livy.server.yarn.app-lookup-timeout,(默认360s)。
另一方面,如果会话设置的资源(如会话中设置的 executor 的内存)超过 yarn的资源配置参数,则需要提高yarn的配置参数或降低会话需求资源。

PS:会话启动过程或错误可以查看sophon-server.log(具体路径:sophon-web(Sophon2.2及以后版本为sophon-base)角色所在节点/var/log/sophon1/sophon-server.log)。

解决方案

针对以上两个问题,提供两个解决方案:

  1. 提高超时参数

(1)在 sophon-web (Sophon2.2及以后版本为 sophon-base )角色所在节点找到 /etc/sophon1/conf/sophon.conf 将参数 livy.server.yarn.app-lookup-timeout 设置为3600s。
(sophon2.4版本采用了微服务模式,所在路径为 /etc/sophon1/conf/base/sophon.conf

file

  1. 资源调整

sophon 申请的 executor 内存和个数,需满足给任何 nodemanager 节点分配的 excutors 内存总量小于yarn.nodemanager.resource.memory-mb

(1)提高 yarn 的配置参数,重启yarn。在yarn服务页面提高此参数,配置服务,重启yarn,使参数生效。
(2)降低 sophon 会话申请的
(3)在终端删除sophon-web(或sophon-base) pod(即重启sophon-web pod)。

kubectl delete po [sophon-web pod名]

file

这篇文章对您有帮助吗?

平均评分 0 / 5. 次数: 0

尚无评价,您可以第一个评哦!

非常抱歉,这篇文章对您没有帮助.

烦请您告诉我们您的建议与意见,以便我们改进,谢谢您。