1、问题详细描述:集群启动后,jps查看namenode不存在,namenode无法在web端打开,datanode可以在web端打开。尝试关闭集群,并未提示“无可关闭的namenode”
2、百度之前,我先到hadoop的logs目录下看了今天的日志,确定了报错信息:Failed to load FSImage file 网上大部分对于namenode问题的处理方式就是格式化,但会丢失元数据,很麻烦。因为不想格式化,所以找到了这个解答 :删除日志中读取错误的文件(可以先备份)
https://my.oschina.net/dreamness/blog/3083130
啥意思啊?不懂。但是往上翻日志的话,可以看到已经给出了fsi文件名
2021-08-19 14:36:13,269 INFO org.apache.hadoop.hdfs.server.namenode.FSImage: Planning to load image: FSImageFile(file=/opt/module/hadoop-3.1.3/data/dfs/name/current/fsimage_0000000000000037016, cpktTxId=0000000000000037016)
2021-08-19 14:36:13,276 ERROR org.apache.hadoop.hdfs.server.namenode.FSImage: Failed to load image from FSImageFile(file=/opt/module/hadoop-3.1.3/data/dfs/name/current/fsimage_0000000000000037016, cpktTxId=0000000000000037016)
根据日志的提示,找到对应路径下的文件,删除。 但是删除前,最好确认一下文件内容,由于我今天还没有做什么操作,所以文件是空的,目前未发现问题,如果有大佬研究的比较深刻,还请指教一下,这个操作是否会产生其他问题。 之后,重启hadoop集群,一切正常,happy~~
|