前言

某年某月某日开始，测试环境的NameNode开始频繁宕机，基本上是每天都会稳定触发此问题；第一次查的时候看到和JN通信发生超时，然后就宕机了，但是当时JN服务又是正常的，遂没太上心，重启完事，结果后面又继续出此问题，所以还是进行排查顺便记录一下；

正文

问题排查

Ambari页面

2022年8月2日，上午查看测试环境Ambari，再次发现NameNode惨死，两个无一幸免，JN正常，其他服务正常，至少能够得到这些信息：

ZKFC没有异常，说明HA自动切换没有生效，否则这个时间应该至少存活一个NN；
其他服务至少服务还在，这说明不大可能是ZK等组件导致的问题；

NN日志排查

进一步查看日志，NameNode日志中，最新的内容为7月31日13:44:37打印，看样子已经宕机几天了，报错信息依旧是和JN的交互超时：

2022-07-31 13:44:37,603 FATAL namenode.FSEditLog (JournalSet.java:mapJournalsAndReportErrors(390)) - Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.0.10:8485, 10.0.0.31:8485, 10.0.0.29:8485], stream=null))
java.io.IOException: Timed out waiting 120000ms for a quorum of nodes to respond.
        at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137)
        at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnclosedSegment(QuorumJournalManager.java:366)
        at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:462)
        at org.apache.hadoop.hdfs.server.namenode.JournalSet$6.apply(JournalSet.java:616)
        at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385)
        at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613)
        at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1602)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1216)
        at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.startActiveServices(NameNode.java:1887)
        at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
        at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:64)
        at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1746)
        at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1723)
        at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
        at org.apache.hadoop.ha.proto.HAServiceProtocolProtos$HAServiceProtocolService$2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:524)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1025)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:876)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:822)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2682)

在这里插入图片描述

此前已经对这个超时的限制做过更改，由60000ms增加到120000ms，还是报错，显然报错的真正原因不该是超时；

GC日志排查

GC的排查其实很没头绪，本身也不是Java开发出身，先看一下异常时候的GC日志信息：

2022-07-31T13:24:18.129+0800: 3077.295: [GC (Allocation Failure) 2022-07-31T13:24:18.130+0800: 3077.296: [ParNew: 559914K->7729K(619328K), 0.0381639 secs] 878007K->326039K(5436224K), 0.0394059 secs] [Times: user=0.14 sys=0.08, real=0.04 secs] 
2022-07-31T13:30:25.153+0800: 3444.319: [GC (Allocation Failure) 2022-07-31T13:30:25.154+0800: 3444.319: [ParNew: 558257K->7597K(619328K), 0.0387003 secs] 876567K->326074K(5436224K), 0.0400017 secs] [Times: user=0.14 sys=0.06, real=0.04 secs] 
2022-07-31T13:36:32.007+0800: 3811.173: [GC (Allocation Failure) 2022-07-31T13:36:32.008+0800: 3811.174: [ParNew: 558125K->7656K(619328K), 0.0398682 secs] 876602K->326431K(5436224K), 0.0411169 secs] [Times: user=0.17 sys=0.05, real=0.04 secs] 
Heap
 par new generation   total 619328K, used 427107K [0x0000000670000000, 0x000000069a000000, 0x000000069a000000)
  eden space 550528K,  76% used [0x0000000670000000, 0x000000068999e890, 0x00000006919a0000)
  from space 68800K,  11% used [0x00000006919a0000, 0x000000069211a3e8, 0x0000000695cd0000)
  to   space 68800K,   0% used [0x0000000695cd0000, 0x0000000695cd0000, 0x000000069a000000)
 concurrent mark-sweep generation total 4816896K, used 318774K [0x000000069a000000, 0x00000007c0000000, 0x00000007c0000000)
 Metaspace       used 53735K, capacity 54794K, committed 54948K, reserved 1097728K
  class space    used 5499K, capacity 5742K, committed 5856K, reserved 1048576K

各种GC (Allocation Failure)看起来没什么太大的异常，FullGC都没看到，但是个人感觉最后两行的内容是有蹊跷的：
在这里插入图片描述
于是我去查了一下这种日志的分析方法，如果感兴趣可以去看一下这个博文Understanding Metaspace and Class Space GC Log Entries，对我这里的案例来说，Metaspace的非类committed空间是54948K-5856K=49092K，而capacity容量的值是54794K-5742K=49052K，此时我的猜想是可能是如下两种：

这里是Metaspace满了触发了FullGC，但是，即使FullGC后也无法满足要求，然后就崩了；
FullGC在进行，但是超时了，导致和JN交互超时，毕竟运行日志一直打印超时；

不过后来又咨询了一些研发人员，大家认为这样的可能性不大，因为如果是GC的问题，理应在GC日志的最后打印出OOM之类的报错信息，但是现在是没有的，如果是Metaspace的问题，也会有类似的信息；

JN日志排查

NN的日志中，明确报错了具体是哪个JN节点连接超时，name直接去JN节点在进一步分析JN日志，看看有没有头绪：

2022-07-31 13:40:24,066 INFO  timeline.HadoopTimelineMetricsSink (AbstractTimelineMetricsSink.java:getCurrentCollectorHost(291)) - No live collector to send metrics to. Metrics to be sent will be discarded. This message will be skipped for the next 20 times.
2022-07-31 13:40:54,559 INFO  server.JournalNodeSyncer (JournalNodeSyncer.java:syncWithJournalAtIndex(231)) - Syncing Journal /0.0.0.0:8485 with XXXXXXX:8485, journal id: hdfsCluster
2022-07-31 13:42:37,126 INFO  server.Journal (Journal.java:updateLastPromisedEpoch(346)) - Updating lastPromisedEpoch from 79 to 80 for client XXXXXX ; journal id: hdfsCluster
2022-07-31 13:42:37,128 INFO  server.Journal (Journal.java:scanStorageForLatestEdits(205)) - Scanning storage FileJournalManager(root=/hadoop/hdfs/journal/hdfsCluster)
2022-07-31 13:42:37,165 INFO  server.Journal (Journal.java:scanStorageForLatestEdits(211)) - Latest log is EditLogFile(file=/hadoop/hdfs/journal/hdfsCluster/current/edits_inprogress_0000000000119187207,first=0000000000119187207,last=0000000000119187208,inProgress=true,hasCorruptHeader=false) ; journal id: hdfsCluster
2022-07-31 13:42:37,579 INFO  server.Journal (Journal.java:getSegmentInfo(740)) - getSegmentInfo(119187207): EditLogFile(file=/hadoop/hdfs/journal/hdfsCluster/current/edits_inprogress_0000000000119187207,first=0000000000119187207,last=0000000000119187208,inProgress=true,hasCorruptHeader=false) -> startTxId: 119187207 endTxId: 119187208 isInProgress: true ; journal id: hdfsCluster
2022-07-31 13:42:37,579 INFO  server.Journal (Journal.java:prepareRecovery(784)) - Prepared recovery for segment 119187207: segmentState { startTxId: 119187207 endTxId: 119187208 isInProgress: true } lastWriterEpoch: 79 lastCommittedTxId: 119187207 ; journal id: hdfsCluster
2022-07-31 13:42:37,648 INFO  server.Journal (Journal.java:getSegmentInfo(740)) - getSegmentInfo(119187207): EditLogFile(file=/hadoop/hdfs/journal/hdfsCluster/current/edits_inprogress_0000000000119187207,first=0000000000119187207,last=0000000000119187208,inProgress=true,hasCorruptHeader=false) -> startTxId: 119187207 endTxId: 119187208 isInProgress: true ; journal id: hdfsCluster
2022-07-31 13:42:37,648 INFO  server.Journal (Journal.java:acceptRecovery(872)) - Skipping download of log startTxId: 119187207 endTxId: 119187208 isInProgress: true: already have up-to-date logs ; journal id: hdfsCluster
2022-07-31 13:42:37,649 WARN  util.AtomicFileOutputStream (AtomicFileOutputStream.java:close(96)) - Unable to delete tmp file /hadoop/hdfs/journal/hdfsCluster/current/paxos/119187207.tmp
2022-07-31 13:42:37,650 INFO  server.Journal (Journal.java:acceptRecovery(905)) - Accepted recovery for segment 119187207: segmentState { startTxId: 119187207 endTxId: 119187208 isInProgress: true } acceptedInEpoch: 80 ; journal id: hdfsCluster
2022-07-31 13:44:04,066 INFO  timeline.HadoopTimelineMetricsSink (AbstractTimelineMetricsSink.java:getCurrentCollectorHost(291)) - No live collector to send metrics to. Metrics to be sent will be discarded. This message will be skipped for the next 20 times.

在这里插入图片描述
依旧是没什么有用的信息。难道有所遗漏吗？

复现准备

由于没有确定问题原因，复现并不容易，鉴于该异常在近日屡次触发，于是直接将服务重启，等待其再次触发，这次重启后，在Active的NN节点部署gc采集，准备进一步确认GC是否产生了影响，主要是以下两条命令：

nohup jstat -gcutil 167646 2s>> /home/lijiadong/hdfs_logs/gc/gc_percent.log &
nohup jstat -gc 167646 2s>> /home/lijiadong/hdfs_logs/gc/gc_size.log &

主要是想验证下上面我的猜想；

问题分析

edits发送过久

言归正传，实际上，针对NameNode的日志，遗漏了一些关键信息：

2022-07-31 13:39:51,968 WARN  client.QuorumJournalManager (IPCLoggerChannel.java:call(417)) - Took 57363ms to send a batch of 1 edits (17 bytes) to remote journal 172.18.2.29:8485