首页 > 资讯 > 数据库 >如何理解大数据时代的结构化存储数据库HBase

401

分享到

如何理解大数据时代的结构化存储数据库HBase

2024-04-02 19:04:59 401人浏览八月长安

摘要

本篇文章为大家展示了如何理解大数据时代的结构化存储数据库HBase，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。Hbase非常适合于非结构化数据存储的数据库，200

本篇文章为大家展示了如何理解大数据时代的结构化存储数据库HBase，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

Hbase非常适合于非结构化数据存储的数据库，2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起，2008年成为Apache hadoop的一个子项目。现已作为产品在多家企业被使用。

分布式数据库 HBase

授权协议：Apache

开发语言：Java

操作系统：跨平台

项目地址：https://GitHub.com/apache/hbase

HBase项目简介

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop hdfs作为其文件存储系统；Google运行mapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用ZooKeeper作为对应。

Hbase 特性

大表：数十亿行*数百万列*数千个版本 = TB级或PB级的存储
面向列：面向列(族)的存储和权限控制，列(族)独立检索。
稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。
数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；
数据类型单一：Hbase中的数据都是字符串，没有类型

HBase系统架构

如何理解大数据时代的结构化存储数据库HBase

HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等，HBase中的每张表都通过行键按照一定的范围被分割成多个子表（HRegion），默认一个HRegion超过256M就要被分割成两个，这个过程由HRegionServer管理，而HRegion的分配由HMaster管理。

相关名词介绍

RowKey：是Byte array，是表中每条记录的“主键”，方便快速查找，Rowkey的设计非常重要。表中的行根据行的键值进行排序，数据按照RowKey的字典序排序存储

Column Family：列族，拥有一个名称(string)，包含一个或者多个相关列。列族须作为表模式(schema)定义的一部分预先定义。如create 'alarmInfo' ,'i'

Column：属于某一个columnfamily，familyName:columnName，每条记录可动态添加

Version Number：类型为Long，默认值是系统时间戳，可由用户自定义

Value(Cell)：由{row key, column(=<family> + <label>), version} ***确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮。

HBase逻辑模型

如何理解大数据时代的结构化存储数据库HBase

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family)

Hbase 物理模型

Table中所有行都按照row key的字典序排列；Table在行的方向上分割为多个Region；Region按大小分割的，每个表开始只有一个region，随着数据增多，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region，之后会有越来越多的region；Region是Hbase中分布式存储和负载均衡的最小单元，不同Region分布到不同RegionServer上。

如何理解大数据时代的结构化存储数据库HBase

Region虽然是分布式存储的最小单元，但并不是存储的最小单元。Region由一个或者多个Store组成，每个store保存一个columns family；每个Strore又由一个memStore和0至多个StoreFile组成，StoreFile包含HFile；memStore存储在内存中，StoreFile存储在HDFS上。

如何理解大数据时代的结构化存储数据库HBase

Hbase 请求过程

HBase是一个分布式数据库，因此一张表的数据可能会分布在不同的节点中。需要注意的是 region是Hbase分布式存储的最小单位，但region不是HBase存储的最小单位。在HBase中，一张表会被根据行键值的范围划分为几个region，然后不同的region将会放在不同的region服务器上，被服务器上的HRegionServer 所管理和维持。

因此我们可以推断出，当我们发送一个查找（插入、删除）请求时，首先客户端能根据请求中的行键值去确定该行键值应该存储在哪一个region上，并且该region在哪一个region服务器上（该查询过程主要使用-ROOT-表、和.meta表，当定位到操作的region服务器的位置以后，客户端（Client）会将该操作发送到region服务器上，然后请求操作可能会被直接执行，也可能会进入任务队列等待

Hbase 与RDBMS对比

如何理解大数据时代的结构化存储数据库HBase

为什么采用HBase？

HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式，这样方面读写你的大数据内容。

HBase是介于Map Entry(key & value)和DB Row之间的一种数据存储方式。就点有点类似于现在流行的Memcache，但不仅仅是简单的一个key对应一个 value，你很可能需要存储多个属性的数据结构，但没有传统数据库表中那么多的关联关系，这就是所谓的松散数据。

简单来说，你在HBase中的表创建的可以看做是一张很大的表，而这个表的属性可以根据需求去动态增加，在HBase中没有表与表之间关联查询。你只需要告诉你的数据存储到Hbase的那个column families 就可以了，不需要指定它的具体类型：char,varchar,int,tinyint,text等等。但是你需要注意HBase中不包含事务此类的功能。

上述内容就是如何理解大数据时代的结构化存储数据库HBase，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网数据库频道。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何理解大数据时代的结构化存储数据库HBase

本文链接: https://www.lsjlt.com/news/67811.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何理解大数据时代的结构化存储数据库HBase

本篇文章为大家展示了如何理解大数据时代的结构化存储数据库HBase，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。Hbase非常适合于非结构化数据存储的数据库，200...

99+

2024-04-02
HBase中的数据存储结构是怎样的

在HBase中，数据以表的形式进行存储，表由多行组成，每行可以有多个列族，每个列族可以包含多个列。每行都有一个唯一的行键，通过这个行...

99+

2024-04-09

HBase
redis怎么存储结构化数据库

Redis是一个键值存储系统，它并不是一个结构化数据库，但是可以使用一些技巧来存储结构化数据。1. 使用Hash数据结构：可以将结构...

99+

2023-09-05

redis 数据库
大数据时代数据库-云HBase架构&生态&实践

...

99+

2024-04-02
【巨杉数据库Sequoiadb】LOB数据和结构化数据存储细节

【问题描述】晋商消费金融测试，客户想了解以下的内容： 1. LOB 数据读取和写入的过 ...

99+

2024-04-02
ThreadLocal数据存储结构原理解析

目录一：简述二：TheadLocal的原理分析1.ThreadLocal的存储结构2.源码分析set()方法三：源码分析createMap()源码：流程图：expungeStaleE...

99+

2024-04-02
Python数据结构之图的存储结构详解

一、图的定义图是一种比树更复杂的一种数据结构，在图结构中，结点之间的关系是任意的，任意两个元素之间都可能相关，因此，它的应用极广。图中的数据元素通常被称为顶点 ( V e r t ...

99+

2024-04-02
PHP数据结构：JSON数据处理，理解数据交换与存储的标准

非常抱歉，由于您没有提供文章标题，我无法为您生成一篇高质量的文章。请您提供文章标题，我将尽快为您生成一篇优质的文章。...

99+

2024-05-14
Teradata数据库如何处理大量数据的存储和查询

Teradata数据库是一种用于存储和处理大量数据的关系型数据库管理系统。它采用了共享架构和并行处理技术，可以处理PB级别的数据量，...

99+

2024-04-02
微服务架构中如何处理非结构化数据的处理和存储？

随着互联网技术的不断发展，越来越多的企业开始采用微服务架构来提高业务的效率和灵活性。在微服务架构中，微服务之间采用轻量级的通信协议进行交互，而非结构化数据的处理和存储成为了一个重要的问题。本文将介绍在微服务架构中如何处理非结构化数据的处理和...

99+

2023-05-17

存储微服务架构非结构化数据处理
云数据库mongodb存储结构是什么

在MongoDB中，数据以文档的形式存储，文档是MongoDB中的基本单元。文档是一个键值对的序列，类似于JSON对象。MongoD...

99+

2023-05-13

云数据库mongodb 云数据库
如何理解C语言数据结构中线性表的链式存储结构

如何理解C语言数据结构中线性表的链式存储结构，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。1.什么是线性表的链式存储结构 —链表存储结点：包括元素本身的信息，还有元素之间的关系...

99+

2023-06-21
如何使用ASP、大数据、Laravel、存储来优化企业的数据处理和存储？

随着企业数据量的不断增加，如何优化数据处理和存储已经成为了企业管理的重要问题。本文将介绍如何使用ASP、大数据、Laravel和存储来解决这一问题。 ASP是一种非常流行的网络应用程序开发技术，它可以帮助企业快速开发出高效稳定的网络应用程...

99+

2023-11-12

大数据 laravel 存储
如何在C++中处理非结构化数据和半结构化数据？

非常抱歉，由于您没有提供文章标题，我无法为您生成一篇高质量的文章。请您提供文章标题，我将尽快为您生成一篇优质的文章。...

99+

2024-05-16
如何理解Amazon的网站数据存储架构

这篇文章主要讲解了“如何理解Amazon的网站数据存储架构”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何理解Amazon的网站数据存储架构”吧！一、系统概述1、Amazon平台概述&nb...

99+

2023-06-10
C++技术中的大数据处理：如何设计优化的数据结构以处理大数据集？

大数据处理在 c++++ 中使用数据结构进行优化，包括：数组：用于存储相同类型元素，动态数组可随需求调整大小。哈希表：用于快速查找和插入键值对，即使数据集很大。二叉树：用于快速查找...

99+

2024-05-12

大数据数据结构 c++ 键值对
PHP 中的存储函数如何处理大数据？

在 PHP 中，存储函数是一种强大的工具，用于处理和管理大量的数据。这些函数可以让你轻松地将数据存储在数据库中，并进行快速的检索和操作。然而，在处理大数据时，存储函数可能会遇到一些问题。在本文中，我们将探讨 PHP 中的存储函数如何处理大...

99+

2023-09-02

大数据函数存储
结构化SQL数据库与非结构化NOSQL数据库的对比是怎样的

今天就跟大家聊聊有关结构化SQL数据库与非结构化NOSQL数据库的对比是怎样的，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。大家好，我们来谈一下数据...

99+

2024-04-02
MySQL 数据库如何实现存储时间

目录1.切记不要用字符串存储日期2.Datetime 和 Timestamp 之间抉择2.1 DateTime 类型没有时区信息的2.2 DateTime 类型耗费空间更大3.再看 ...

99+

2024-04-02
HBase中如何实现数据的存储和检索

在HBase中，数据的存储和检索是通过HBase表来实现的。HBase中的数据存储在表中，每个表可以包含多行数据，每行数据由行键（R...

99+

2024-04-09

HBase