首页 > 资讯 > 数据库 >大数据时代数据库-云HBase架构&生态&实践

462

分享到

大数据时代数据库-云HBase架构&生态&实践

2024-04-02 19:04:59 462人浏览泡泡鱼

摘要

摘要：2018第九届中国数据库技术大会，阿里云高级技术专家、架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲。主要内容有三个方面：首先介绍了业务挑战带来的架构演进，其次分析了ApsaraDB HBase及生态，最后分享了大数据数据库的实际案例。

　　讲师介绍：

　　封神，真名曹龙，09年加入阿里，现任阿里云高级技术专家、架构师，专注于大数据分布式计算、数据库、存储领域，先后研发上万台hadoop、ODPS集群，负责阿里YARN、spark及自主研发内存计算引擎，目前为广大公共云用户提供专业的云HBase数据库及计算服务。

　　正文演讲：

　　业务的挑战

　　存储量量/并发计算增大

大数据时代数据库-云HBase架构&生态&实践

　　现如今大量的中小型公司并没有大规模的数据，如果一家公司的数据量超过100T，且能通过数据产生新的价值，基本可以说是大数据公司了。起初，一个创业公司的基本思路就是首先架构一个或者几个ECS，后面加入Mysql,如果有图片需求还可加入磁盘，该架构的基本能力包括事务、存储、索引和计算力。随着公司的慢慢发展，数据量在不断地增大，其通过mysql及磁盘基本无法满足需求，只有分布式化。这个时候Mysql变成了HBase,检索变成了Solr/ES，再ECS提供的计算力变成了Spark。但这也会面临存储量大且存储成本高等问题。

　　非结构化业务增多

大数据时代数据库-云HBase架构&生态&实践

　　另外一个趋势就是非结构化的数据越来越多，数据结构的模式不仅仅是SQL，时序、时空、graph模式也越来越多，需要一些新的存储结构或新的算法去解决这类问题，也意味着所需要做的工程量就会相对较高。

　　引入更多的数据

　　对于数据处理大致可归类为四个方面，分别是复杂性、灵活性、延迟<读,写>和分布式，其中分布式肯定是不可少的，一旦缺少分布式就无法解决大规模问题。灵活性的意思是业务可以任意改变的;复杂性就是运行一条SQL能够访问多少数据或者说SQL是否复杂;延迟也可分为读与写的延迟。Hadoop & Spark可以解决计算复杂性和灵活性，但是解决不了延迟的问题;HBase&分布式索引、分布式数据库可以解决灵活性与延迟的问题，但由于它没有很多计算节点，所以解决不了计算复杂性的问题。Kylin(满足读延迟)在计算复杂性与延迟之间找了一个平衡点，这个平衡点就是怎样快速出报表，但对于这个结果的输入时间我们并不关心，对于大部分的报表类的需求就是这样的。每个引擎都有一定的侧重，没有银弹!

　　ApsaraDB HBase产品架构及改进

　　应对的办法

　　我们也不能解决所有的问题，我们只是解决其中大部分的问题。如何找到一个在工程上能够解决大部分问题的方案至关重要，应对办法：

　　分布式：提供扩展性

　　计算力延伸：算子+SQL，从ECS到Spark其本质其实就是一种计算力的延伸

　　分层设计：降低复杂性，提供多模式的存储模型

　　云化：复用资源&弹性，降低成本

　　基本构架

大数据时代数据库-云HBase架构&生态&实践

　　首先包含了两个分离

　　·分别是hdfs与分布式Region\分布式检索分离

　　·SQL\时空\图\时序\Cube与分布式Region\检索分离

　　大致的分层机构如下：

　　· 第一层：介质层，热SSD介质、温SSD&SATA 混合、冷纯SATA(做EC)

　　· 第二层：分布式文件系统，也就是盘古。事实上越是底层越容易做封装优化。

　　· 第三层：分布式安全隔离保障层QOS，如果我们做存储计算分离，就意味着底层的三个集群需要布三套，这样每个集群就会有几十台甚至几百台的节点，此时存储力是由大家来均摊的，这就意味着分布式安全隔离保障层要做好隔离性，引入QOS就意味着会增加延迟，此时会引入一些新的硬件(比如RDMA)去尽可能的减小延迟。

　　· 第四层：分布式?文件接?：HDFS & api(此层看情况可有可无)

　　· 第五层：我们提供了两个组件，分布式Region-HBase与分布式检索-Solr，在研究分布索引的时候发现单机索引是相对简单的，我们提供针对二级索引采取内置的分布式Region的分布式架构，针对全文索引采取外置Solr分布式索引方案

　　· 第六层：建设在分布式KV之上，有NewSQL套件、时空套件、时序套件、图套件及Cube套件

　　另外，可以引入spark来分析，这个也是社区目前通用的方案

　　解决成本的方案

　　对于解决成本的方案简单介绍如下：

　　· 分级存储：SSD与SATA的价格相差很多，在冷数据上，我们建议直接采取冷存储的方式，可以节约500%的成本

　　· 高压缩比：在分级存储上有一个较好的压缩，尤其是在冷数据，我们可以提高压缩比例，另外分布式文件系统可以采取EC进一步降低存储成本，节约100%的成本

　　· 基础设施共享：库存压力分担，云平台可以释放红利给客户

　　· 存储与计算分离：按需计费

　　· 优化性能：再把性能提升1倍左右

　　云数据库基本部署结构

大数据时代数据库-云HBase架构&生态&实践

　　假设在北京有三个机房可用区A、B和C,我们会在可用区A中部署一个热的存储集群，在北京整体区域部一个冷的存储集群，实际上有几个可用区就可以有几个热集群，主要是保障延迟的;冷集群对延迟相对不敏感，可以地域单独部署，只要交换机满足冷集群所需的带宽即可。这样的好处是三个区共享一个冷集群，就意味着可以共享库存。

　　ApsaraDB HBase产品能力

　　我们提供两个版本，一是单节点版，其特点是给开发测试用或者可用性不?，数据量不大的场景。二是集群版本其特点是高至5000w QPS，多达10P存储与高可靠低延迟等。

　　· 数据可靠性：99.99999999%：之所以可靠性可以达到如此之高，其核心的原因就是存储集群是单独部署的，其会根据机架等进行副本放置优化

　　· 服务可用性：单集群99.9% 双集群99.99%。

　　· 服务保障：服务未满足SLA赔付。

　　· 数据备份及恢复。

　　· 数据热冷分离\分级存储。

　　· 企业级安全：认证授权及加密。

　　· 提供检索及二级索引及NewSQL能?。

　　· 提供时序/图/时空/Cube相关能?。

　　· 与Spark无缝集成，提供AP能?。

　　数据备份及恢复

大数据时代数据库-云HBase架构&生态&实践

　　备份分为全量备份HFile与增量量备份HLog;恢复分为HLog转化为HFile和BulkLoad加载。阿里云集团迄今为止已经有一万两千多台的HBase,大部分都是主备集群的，在云上由于客户成本的原因，大部分不选择主备，所以需要对数据进行备份。其难点在于备份需要引入计算资源，我们需要引入弹性的计算资源来处理备份的相关计算任务

　　Compaction 离线Compaction(研究中)

大数据时代数据库-云HBase架构&生态&实践

　　我们在内部研究如何通FPGA对Compaction进行加速，这会使得集群运行比较平缓，特别是对计算资源少，存储量大的情况下，可以通过离线的作业处理Compaction。

　　组件层

　　我们有5中组件，NewSQL(Phoenix)、时序OpenTSDB、时空GeoMesa、图JanusGraph及Cube的Kylin，及提供HTAP能力的Spark。这里简单描述几个，如下：

　　NewSQL - Phoenix

　　客户还是比较喜欢用SQL的,Phoenix会支持SQL及二级索引，在超过1T的数据量的情况下，对事务的需求就很少(所以我们并没有支持事务);二级索引是通过再新建一张HBase表来实现的。在命中索引的情况下，万亿级别的访问基本在毫秒级别，但由于Phoenix聚合点在一个节点，所以不能做Shuffle类似的事情，同时也就不能处理复杂的计算，所以任何说我是HTAP架构的，如果不能做Shuffle，就基本不能做复杂的计算。

　　HTAP – Spark

大数据时代数据库-云HBase架构&生态&实践

　　在HTAP-Spark这部分主要介绍一下RDD API、 SQL、直接访问HFile的特点。

　　· RDD API具有简单?便，默认支持的特点，但高并发scan大表会影响稳定性;

　　· SQL支持算?子下推、schema映射、各种参数调优，高并发scan大表会影响稳定性;

　　· 直接访问HFile，直接访问存储不经过计算，大批量量访问性能最好，需要snapshot对齐数据。

　　时序 – OpenTSDB & HiTSDB

　　TSD没有状态，可以动态加减节点，并按照时序数据的特点设计表结构，其内置针对浮点的高压缩比的算法，我们云上专业版的HiTSDB增加倒排等能?，并能够针对时序增加插值、降精度等优化。

　　大数据数据库的实际案例

　　以下简单介绍几个客户的案例，目前已经在云上ApsaraDB HBase运行，数据量基本在10T以上：

　　某车联网公司

大数据时代数据库-云HBase架构&生态&实践

　　这是一个车联网的客户，有100万车，每辆车每10秒上传一次，每次1KB，这样一年就有300T数据，六个月以上是数据低频访问，所以他要做分级存储，把冷数据放到低介质上

　　某大数据控公司

大数据时代数据库-云HBase架构&生态&实践

　　这是一个大数据控公司，它大约有200T+的数据量，将HBase数据 (在线实时大数据存储)作为主数据库，先用HBase做算法训练，再用HBase SQL出报表，另外做了一套ECS进行实时查以便与客户之间进行数据交换。

　　某社交公司

大数据时代数据库-云HBase架构&生态&实践

　　社交会有大量的推荐，所以SLA要求高达99.99，并采用双集群保障，单集群读写高峰QPS 可以达到1000w+，数据量在30T左右。

　　某基金公司

大数据时代数据库-云HBase架构&生态&实践

　　这是一个金融公司，它有10000亿以上的交易数据，目前用多个二级索引支持毫秒级别的查询，数据量在100T左右

　　某公司报表系统

大数据时代数据库-云HBase架构&生态&实践

　　先离线建好Cube再把数据同步到HBase中，实时数据通过Blink对接进行更新，数据量在可达20T左右

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 大数据时代数据库-云HBase架构&生态&实践

本文链接: https://www.lsjlt.com/news/47509.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

大数据时代数据库-云HBase架构&生态&实践

...

99+

2024-04-02
如何理解大数据时代的结构化存储数据库HBase

本篇文章为大家展示了如何理解大数据时代的结构化存储数据库HBase，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。Hbase非常适合于非结构化数据存储的数据库，200...

99+

2024-04-02
[转载]智能＆大数据时代，架构师思维的十个学习步骤&演练 By 高煥堂

架构师的第一步：学习两种抽象视角(Abstraction View)架构像房子的地基(第1种比喻)：由于地基要稳定，上层房子才不会倒塌；因此这项比喻让架构师认为架构要稳定，上层的业务应用才会稳定可靠。这种比喻偏于寻找不变，而不是追求创新。架...

99+

2023-06-05
Kotlin & Compose Multiplatform 跨平台（Android端、桌面端）开发实践之使用 SQLDelight 将数据储存至数据库

前言关于标题和文章主题取标题的时候我还在想，我应该写 Compose 跨平台呢还是写 Kotlin 跨平台。毕竟对于我的整体项目而言，确实是 Compose 跨平台开发，但是对于我这篇文章要说的东西，那其实也涉及不到多少 Compos...

99+

2023-08-20

android kotlin 数据库
构建实时数据仓库首选，云原生数据仓库AnalyticDB for MySQL技术解密

阿里云分析型数据库重磅推出基础版，极大降低了用户构建数据仓库门槛。高度兼容MySQL，极低的使用成本和极高的性能，使中小企业也可以轻松的搭建一套实时数据仓库，实现企业数据价值在线化。 AnalyticDB...

99+

2024-04-02
大数据时代的Python异步编程实践指南

在当今的大数据时代，数据量越来越大，数据处理的效率也越来越成为数据科学家和工程师们关注的焦点。Python作为一门高效的编程语言，越来越多的人开始使用它来处理大数据。而异步编程则是提高Python数据处理效率的重要方法之一。本文将介绍Py...

99+

2023-08-04

索引异步编程大数据
系统架构设计高级技能 · 大数据架构设计理论与实践

系列文章目录系统架构设计高级技能 · 软件架构概念、架构风格、ABSD、架构复用、DSSA（一）【系统架构设计师】系统架构设计高级技能 · 系统质量属性与架构评估（二）【系统架构设计师】系统架构设计高级技能 · 软件可靠性分析与设计（...

99+

2023-08-30

系统架构
阿里云数据库RDS优化大数据全面解析与实践

随着大数据时代的到来，数据量的增长和复杂性的提升对数据库性能提出了更高的要求。阿里云数据库RDS作为一款高效、稳定的云数据库服务，已经得到了广泛应用。然而，如何优化RDS以更好地处理大数据，是我们面临的重要问题。本文将从理论和实践两个角度，...

99+

2023-11-01

阿里数据库数据
MongoDB与大数据技术栈的结合实践与架构设计

MongoDB是一款非关系型数据库，具有高可扩展性、高性能和灵活的数据模型等特点，在大数据领域有着广泛的应用。本文将介绍MongoDB与大数据技术栈的结合实践与架构设计。一、MongoDB在大数据技术栈中的地位和作用在大数据技术栈中，Mon...

99+

2023-11-02

大数据实践 MongoDB 架构设计技术栈
构建数据库云管平台实现数据价值最大化

云和恩墨产品研发部总经理熊军大型企业环境下数据库PaaS落地实践的可行路径是什么当被问到这个问题的时候，云和恩墨产品研发部总经理熊军表示，一般在中小企业中，业务形态相对简单，一方面不需要复杂...

99+

2024-04-02
数据库容器化的黑科技：实现云原生架构的梦想

容器化带来的好处可移植性：容器使数据库应用程序可以轻松地在不同的云平台和操作系统之间移植，简化了应用程序的部署和管理。可扩展性和弹性：容器化允许轻松扩展数据库应用程序以满足不断变化的工作负载需求。容器还可以快速启动和停止，从而提高弹...

99+

2024-04-02
阿里云数据库多层次组成的强大生态系统

本文将介绍阿里云数据库的多层次组成结构，以及它在云计算领域中的重要性。阿里云数据库是阿里云提供的一系列云数据库服务，它由多个层次组成，包括底层基础架构、中间层管理和控制层以及上层应用开发和集成层。这些层次共同构成了一个强大而灵活的数据库生...

99+

2024-01-17

阿里多层次生态系统
【大数据实时数据同步】超级详细的生产环境OGG(GoldenGate)12.2实时异构同步Oracle数据部署方案(上)

系列文章目录【大数据实时数据同步】超级详细的生产环境OGG(GoldenGate)12.2实时异构同步Oracle数据部署方案(上) 【大数据实时数据同步】超级详细的生产环境OGG(GoldenGa...

99+

2023-10-03

GoldenGate异构 GoldenGate部署 GoldenGate数据同步 ogg12部署 hadoop
数据库实践如何解决互联网架构转型中的痛点

数据库实践如何解决互联网架构转型中的痛点，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。▍互联网数...

99+

2024-04-02
大数据时代必备技能：Python 中的 NumPy 和 UNIX 命令实践！

随着大数据时代的到来，数据分析和处理已经成为了各个行业中必不可少的一部分。在这个领域中，Python 语言和 UNIX 命令行工具已经成为了最为流行的工具之一。Python 中的 NumPy 库和 UNIX 命令行工具的实践已经成为了大数据...

99+

2023-10-03

大数据 numpy unix
大数据时代下，分布式架构是否成为Unix系统的主流？

随着数据量的不断增加，传统的单机架构已经无法满足大数据的处理需求。分布式架构作为一种解决方案，已经成为了大数据时代的主流之一。但是，分布式架构是否成为Unix系统的主流呢？我们来探讨一下。 Unix系统一直以来都是分布式架构的一个重要支持平...

99+

2023-07-26

大数据 unix 分布式
最佳实践 | 腾讯HTAP数据库TBase助力某省核心IT架构升级

数据存储和处理是一个古老而重要的技术，从远古时期的结绳记事到古人的文本记事，再到计算机诞生后的各种系统，直到E.F.Codd提出关系模型，人类终于有了一种相对高效而统一的数据处理系统——关系数据库。在传...

99+

2024-04-02
【腾讯云TDSQL-C Serverless 产品体验】新时代数据库大杀器

【腾讯云TDSQL-C Serverless 产品体验】新时代数据库大杀器文章目录【腾讯云TDSQL-C Serverless 产品体验】新时代数据库大杀器概要整体体验流程一、搭建项目环境...

99+

2023-09-22

数据库腾讯云 c语言
现代云架构中的AWS服务器群和数据库是怎么样的

这篇文章给大家介绍现代云架构中的AWS服务器群和数据库是怎么样的，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。当今云计算技术成了主流的架构和互联网基础服务架构之一。越来越多的企业、组织...

99+

2024-04-02
阿里云构建数据库的方法一种高效且可靠的实践

在互联网时代，数据库已经成为了各种应用程序的核心组件，而阿里云作为中国最大的云计算服务提供商，其构建数据库的方法在业界具有一定的代表性。本文将详细说明阿里云如何构建数据库，并探讨其方法的优势和局限性。一、阿里云数据库的构建方法阿里云构建数...

99+

2023-12-16

高效阿里可靠