iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >hbase故障如何处理
  • 852
分享到

hbase故障如何处理

2023-06-02 18:06:03 852人浏览 八月长安
摘要

这篇文章主要为大家展示了“HBase故障如何处理”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“hbase故障如何处理”这篇文章吧。一、故障现象 首先regionserver频繁爆出两类错误:wa

这篇文章主要为大家展示了“HBase故障如何处理”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“hbase故障如何处理”这篇文章吧。

一、故障现象

首先regionserver频繁爆出两类错误:

wal.FSHLog: Error syncing, request close of WAL:

以及出现错误:

 org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 293 actions: NotServingRegionException: 42 times

以及出现regionserver dead 故障:

Region server exitingjava.lang.RuntimeException: HRegionServer Aborted

既然通过优化hbase本身无法解决regionserver频繁挂掉的原因,那就必须将分析扩大到hbase相关的进程。与hbase密切相关的是ZooKeeper。我们详细分析看zk的日志,比如之前regionserver在03:03:17时间出现了regionserver dead 报错信息,因此我们分析zk在这个时间段前后的日志。从日志看到regionserver与zk的超时时间是40秒,“the sessions neGotiated with zookeeper from dead regionserver were of 40s”。然后再查看regionserver的GC时长,确实超过了40秒。

gc时间过长,超过40秒的maxSessionTimeout时间,使得zk认为regionserver已经挂掉dead;

zk返回dead region到master,master就让其他regionserver负责dead regionserver的regions;

其他regionserver会读取wal进行恢复regions,处理完的wal,会把wal文件删除;

dead regionserver的gc完成,并且恢复服务之后,找不到wal,已经产生上面截图中的报错(wal.FSHLog: Error syncing, request close of WAL);

dead regionserver从zk得知自己dead,就关闭自己(Region server exiting,java.lang.RuntimeException: HRegionServer Aborted)

四、最终原因:tickTime超时

经过上面的分析,是gc时间超过40秒的maxSessionTimeout导致的regionserver挂掉。但是,我们就很纳闷了,因为我们设置的zookeeper.session.timeout超时时间为240秒,远远超过40秒时间。非常奇怪呀!

经过hbase社区求助,以及google类似的问题,最终找到原因(详细链接,请参考:https://superuser.blog/hbase-dead-regionserver/):

原来我们的HBase 并没有设置tickTime,最终hbase与zk的会话最大超时时间并不是zookeeper.session.timeout参数决定的,而是有zk的maxSessionTimeout决定。zk会根据minSessionTimeout与maxSessionTimeout两个参数重新调整最后的超时值,minSessionTimeout=2*tickTime, maxSessionTimeout=20*tickTime。我们的大数据集群,zk的tickTime设置为默认值(2000ms)2秒,因此,最终hbase 与 zk的超时时间就为40秒。

经过调整zk的tickTime为6秒,相应的zookeeper.session.timeout为120秒,最终解决regionserver 频繁挂掉的故障。

以上是“hbase故障如何处理”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网精选频道!

--结束END--

本文标题: hbase故障如何处理

本文链接: https://www.lsjlt.com/news/230964.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • hbase故障如何处理
    这篇文章主要为大家展示了“hbase故障如何处理”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“hbase故障如何处理”这篇文章吧。一、故障现象 首先regionserver频繁爆出两类错误:wa...
    99+
    2023-06-02
  • dns服务器故障如何处理
    以下是DNS服务器故障的处理方法:1、检查网络连接首先需要检查自己的网络连接是否正常,尝试连接其他网站,确认是否只是DNS服务器故障...
    99+
    2023-03-19
    dns服务器故障 dns服务器 服务器
  • Nagios如何处理故障和警报
    Nagios是一个开源的监控系统,可以监控网络、服务器和应用程序等资源。当Nagios检测到故障或者达到预设的阈值时,会发出警报。N...
    99+
    2024-04-02
  • 【故障处理】一次RAC故障处理过程
    【故障处理】一次RAC故障处理过程1.1  故障环境介绍 项目source dbdb 类型2节点RACdb version11.2.0.1.0db 存储ASMOS版本及kernel版本RHEL 6...
    99+
    2024-04-02
  • ubuntu server中RAID 10故障如何处理
    这篇文章给大家分享的是有关ubuntu server中RAID 10故障如何处理的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。◆故障处理下面我们来模拟RAID发生故障时的处理。◆从RAID中移除设备正在使用的设备...
    99+
    2023-06-17
  • 电脑常见的故障如何处理
    这篇文章主要介绍了电脑常见的故障如何处理的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇电脑常见的故障如何处理文章都会有所收获,下面我们一起来看看吧。一、 硬件问题(出问题概率2%)开机无任何反应①(听得见风扇转...
    99+
    2023-06-28
  • 服务器死机故障如何处理
    服务器死机故障处理的方法:1、如果是软件使用不当或系统工作压力过大所导致的故障,可以请客户适当降低服务器的工作压力来看看是否能解决;2、如果是硬件故障,如硬盘故障,可以通过扫描硬盘表面来检查是否有坏道。具体内容如下:软件故障首先查看操作系统...
    99+
    2024-04-02
  • 如何处理腾讯云服务器故障
    1. 确认故障类型 当腾讯云服务器出现故障时,首先需要确认故障类型。故障类型可能包括网络故障、硬件故障、软件故障等。确认故障类型可以帮助你更快地找到解决方案。 2. 查看日志信息 在确认故障类型后,可以通过查看日志信息来了解故障的具体原因...
    99+
    2023-10-26
    腾讯 如何处理 故障
  • Cassandra如何处理故障和节点失效
    Cassandra使用一种称为分区容忍性的架构来处理故障和节点失效。当一个节点失效或发生故障时,Cassandra会自动将数据从失效...
    99+
    2024-03-06
    Cassandra
  • NoSQL数据库Cassandra和HBase与MongoDB在处理故障时候有哪些区别
    NoSQL数据库Cassandra和HBase与MongoDB在处理故障时候有哪些区别,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。  当...
    99+
    2024-04-02
  • enq:HW–contention 故障处理
    enq: HW - contention 说明:  硬件队列用于序列化段的高水位线以外的空间分配。 可以用手动分配范围即可解决问题。 V$SESSION_WAIT,P2 / V$LOCK...
    99+
    2024-04-02
  • 如何处理负载均衡器单点故障
    负载均衡器是系统中非常重要的组件,一旦出现单点故障会导致整个系统不可用。为了处理负载均衡器单点故障,可以采取以下措施: 高可用性...
    99+
    2024-04-17
    负载均衡
  • 如何处理VPS服务器的使用故障
    处理VPS服务器的使用故障的方法:1、当VPS服务器网站访问量太大时,需要通过升级服务器配置资源进行解决;2、当VPS服务器中毒时,需要做好数据备份,通过重装系统来将系统病毒进行清除;3、当VPS服务器受到DDOS和CC攻击时,可通过升级服...
    99+
    2024-04-02
  • 如何处理RHEL 5服务器系统故障
    这篇文章主要介绍“如何处理RHEL 5服务器系统故障”,在日常操作中,相信很多人在如何处理RHEL 5服务器系统故障问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何处理RHEL 5服务器系统故障”的疑惑有所...
    99+
    2023-06-10
  • HBase如何处理数据的一致性和容错性
    HBase通过多种技术来确保数据的一致性和容错性。 一致性:HBase使用WAL(Write-Ahead Logging)来确保数据...
    99+
    2024-03-06
    HBase
  • HBase如何处理数据的分布和负载均衡
    HBase处理数据的分布和负载均衡主要通过以下方式: 分布式存储:HBase采用分布式存储的方式来存储数据,数据被分散存储在多个...
    99+
    2024-04-09
    HBase
  • 如何处理RHEL 5系统下常见的故障
    本篇内容介绍了“如何处理RHEL 5系统下常见的故障”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 一、/boot下面的文件全部丢...
    99+
    2023-06-10
  • Nagios如何处理异常情况和故障恢复
    Nagios是一个开源的监控系统,用于监控网络、服务器和应用程序等的运行状态。当Nagios监测到异常情况或故障时,它会触发警报并采...
    99+
    2024-03-11
    Nagios
  • OpenBSD如何处理系统故障和崩溃恢复
    OpenBSD通过以下几种方式处理系统故障和崩溃恢复: Kernel Panic:当系统遇到严重错误或异常情况时,可能会导致内核...
    99+
    2024-04-02
  • ORA-600 [2662]故障处理
    在之前的博文中,我们详细说明了如何去模拟ORA-600 [2662]错误:ORA-600 [2662] 错误模拟  接下来,我们简单介绍一下,如何去解决2662这个问题 Thu Aug 01 10...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作