概要说明
50070记录了HDFS的一些关键信息,在出问题的时候,大多数情况下会表现在50070上,所以学会从50070上挖掘运维诊断信息比较重要。
详细说明
1、Overview信息
Overview包含了当前这个namenode的概况信息,由此可以看出:
a、当前namenode的状态,是standby还是active的;
b、当前namenode的启动时间;
c、当前namenode的版本信息;
可能出现的问题:
a、两个namenode状态一样,同为active或者standby;
2、Summary信息
Summary包含了hdfs集群的一些关键统计信息,由此可以看出:
a、当前hdfs是否开安全了;
b、当前hdfs是否处于safemode安全模式;
c、包含的文件个数,以及block的个数;
d、堆内存的大小;
e、Hdfs存储系统总空间大小、已使用空间、剩余空间;
f、各个datanode使用容量的百分比;
g、当前是否存在退役中的datanode
h、还需要补充副本数的block个数
3、Journalnode信息
a、journalnode当前的状态
4、Namenode数据目录状态
a、namenode对应的数据目录是不是正常的,Active代表正常,Fatal代表不正常;
5、Datanode信息
a、datanode的列表信息,包含datanode容量使用的直方图;
b、Last contact为datanode心跳最后连接时间,正常值应该小于3;
c、Datanode的block个数,使用空间大小等;
d、Failed volumnes为该datanode坏盘的个数;
e、Admin status为当前datanode的状态,正常服役(in Service)/失联(dead)/退役中(decommissioning)/已退役(decommissioned)
a、正在退役的节点
b、block with no live replicas没有live 的副本,存在的副本可能都在退役中的节点上
c、Under replicated blocks当前block的副本 < 所设置的副本(默认就是小于3) 数量
d、Under Replicated Blocks In files under construction 当前正在复制中的block个数
6、Datanode数据目录状态
a、datanode中有问题的数据目录
7、Snapshot快照信息
a、快照列表信息
8、Namenode启动过程信息
a、主要包含整个namenode的启动过程进度,加载fsimage,加载editlog,保存checkpoint,等待datanode上报block信息达到99.99%后退出安全模式;