CDH集群无法启动问题

以下记录使用CDH集群过程中遇到的问题以及解决方法

1. 两个namenode都为standby,failovercontroll启动异常

解决方案

初始化自动转移znode
到Failover Controller所在的服务里，点击操作，选择初始化自动转移znode即可

2. CDH集群一直处于正在激活状态,导致zookeeper无法正常启动

1. 问题描述：

点开激活详情页面发现两个节点一直处于正在激活状态，导致zookeeper无法正常启动

2. 解决方案：

1
2
3

vim /etc/hosts
# 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
将该行的注释打开，发现CDH集群激活完成，重新启动zookeeper

3. 配置了HA的NameNode无法正常启动

1. 问题分析

NodeName日志报错

FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: recoverUnfinalizedSegments failed for required journal
java.io.IOException: Timed out waiting 120000ms for a quorum of nodes to respond.
at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:183)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:441)
at org.apache.hadoop.hdfs.server.namenode.JournalSet$8.apply(JournalSet.java:624)
at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:393)
at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:621)
at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1478)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1236)
at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.startActiveServices(NameNode.java:1771)
at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:64)
at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1644)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1378)
at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
at org.apache.hadoop.ha.proto.HAServiceProtocolProtos$HAServiceProtocolService$2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2220)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2216)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2214)

JournalNode日志

2019-01-18 10:16:02,418 WARN org.apache.hadoop.hdfs.server.namenode.FSImage: After resync, position is 1040384
2019-01-18 10:16:02,418 WARN org.apache.hadoop.hdfs.server.namenode.FSImage: Caught exception after scanning through 0 ops from /data/dfs/jn/nameservice1/current/edits_inprogress_0000000000017537571 while determining its valid length. Position was 1040384
java.io.IOException: Can't scan a pre-transactional edit log.
at org.apache.hadoop.hdfs.server.namenode.FSEditLogOp$LegacyReader.scanOp(FSEditLogOp.java:4610)
at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.scanNextOp(EditLogFileInputStream.java:245)
at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.scanEditLog(EditLogFileInputStream.java:355)
at org.apache.hadoop.hdfs.server.namenode.FileJournalManager$EditLogFile.scanLog(FileJournalManager.java:551)
at org.apache.hadoop.hdfs.qjournal.server.Journal.scanStorageForLatestEdits(Journal.java:193)
at org.apache.hadoop.hdfs.qjournal.server.Journal.<init>(Journal.java:153)
at org.apache.hadoop.hdfs.qjournal.server.JournalNode.getOrCreateJournal(JournalNode.java:95)
at org.apache.hadoop.hdfs.qjournal.server.JournalNode.getOrCreateJournal(JournalNode.java:104)
at org.apache.hadoop.hdfs.qjournal.server.JournalNodeRpcServer.getEditLogManifest(JournalNodeRpcServer.java:186)
at org.apache.hadoop.hdfs.qjournal.protocolPB.QJournalProtocolServerSideTranslatorPB.getEditLogManifest(QJournalProtocolServerSideTranslatorPB.java:236)
at org.apache.hadoop.hdfs.qjournal.protocol.QJournalProtocolProtos$QJournalProtocolService$2.callBlockingMethod(QJournalProtocolProtos.java:25431)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2281)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2277)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1924)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2275)
2019-01-18 10:16:02,419 WARN org.apache.hadoop.hdfs.server.namenode.FSImage: After resync, position is 1040384
2019-01-18 10:16:02,419 WARN org.apache.hadoop.hdfs.server.namenode.FSImage: Caught exception after scanning through 0 ops from /data/dfs/jn/nameservice1/current/edits_inprogress_0000000000017537571 while determining its valid length. Position was 1040384

初步分析：经过查看日志，分析的原因是JournalNode维护的edits文件被破坏了。共有3个Journalnode节点，其中有2个节点的日志在报上面journalnode的错，有一台Journalnode的日志没有发现报错。于是初步分析，那2台出现的破坏，只需要将第三台完好的Journalnode的数据拷贝过去，应该就能够恢复。下面开始操作。

2. 解决步骤

1. 停掉集群服务

2. 保险起见,将king1和king3的数据进行备份

3. 删除破损数据:将king1和king3的数据进行删除

1 2	cd /data/dfs/jn/nameservice1 rm -rf current

4. 复制数据:将king2的数据同步到king1和king3

1	scp -r /data/dfs/jn/nameservice1/current/ root@king1.dev.xylink:/data/dfs/jn/nameservice1

5. 修改权限:king1和king2用户组和用户主改变

1 2	cd /data/dfs/jn/nameservice1 chown -R hdfs:hdfs current/

on the road

CDH集群无法启动问题

以下记录使用CDH集群过程中遇到的问题以及解决方法

1. 两个namenode都为standby,failovercontroll启动异常

解决方案

2. CDH集群一直处于正在激活状态,导致zookeeper无法正常启动

1. 问题描述：

2. 解决方案：

3. 配置了HA的NameNode无法正常启动

1. 问题分析

2. 解决步骤

1. 停掉集群服务

2. 保险起见,将king1和king3的数据进行备份

3. 删除破损数据:将king1和king3的数据进行删除

4. 复制数据:将king2的数据同步到king1和king3

5. 修改权限:king1和king2用户组和用户主改变

6. 重启集群服务

以下记录使用CDH集群过程中遇到的问题以及解决方法

1. 两个namenode都为standby,failovercontroll启动异常

解决方案

2. CDH集群一直处于 正在激活 状态,导致zookeeper无法正常启动

1. 问题描述：

2. 解决方案：

3. 配置了HA的NameNode无法正常启动

1. 问题分析

2. 解决步骤

1. 停掉集群服务

2. 保险起见,将king1和king3的数据进行备份

3. 删除破损数据:将king1和king3的数据进行删除

4. 复制数据:将king2的数据同步到king1和king3

5. 修改权限:king1和king2用户组和用户主改变

6. 重启集群服务

2. CDH集群一直处于正在激活状态,导致zookeeper无法正常启动