如何理解分布式SQL大数据查询引擎的发展

2024-04-02 19:04:59 642人浏览薄情痞子

摘要

本篇内容主要讲解“如何理解分布式sql大数据查询引擎的发展”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何理解分布式SQL大数据查询引擎的发展”吧!介绍从高层

本篇内容主要讲解“如何理解分布式sql大数据查询引擎的发展”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何理解分布式SQL大数据查询引擎的发展”吧!

介绍

从高层的角度来看，许多数据和分析解决方案已经以相同的方式构建了许多年。简而言之，它由各种集成过程组成，可将所有数据加载到一个中央位置，这是即将到来的数据建模和分析用例的唯一事实来源。虽然在较早的日子里，这些中心位置大多是昂贵的且不灵活的紧密耦合的硬件/软件系统，但如今通常会利用云和分布式架构，包括计算和存储的分离。然而，尽管近年来取得了巨大的技术进步，但集中数据的整体方法仍然是最有效地利用其数据并进行适当的数据管理的最明显方法。

集权

那么，这种集中化方法有什么问题呢?首先它与分布式查询引擎有什么关系?

首先，没有什么可反对的。事实上，恰恰相反，在一个地方以清晰，新鲜的状态构建包含所有数据的海量数据仓库或数据湖通常是确保一致性的唯一方法，因此每个人使用相同的定义。在这方面，尤其是云数据湖服务，例如Microsoft的Azure Data Lake Storage或Amazon WEB Service的S3，通过启用集中化的更多优势而呈现出有趣的变化，这归因于其非常灵活且廉价的方式来存储大量任何类型的数据。

注意事项

但是，有很多原因使集中所有数据变得越来越困难。数据源的数量正在增长，满足依赖该数据的越来越多的不同业务领域所需的数据集的多功能性也在不断增长。通常，与静态预建数据集相反，业务用户越来越接近需要更高灵活性的数据。高级分析用例也是如此，通常需要对原始和未转换的数据应用方法。而且，在某些情况下，由于任何内部或外部法规，甚至禁止组织迁移数据。在其他情况下，在集中式数据之上仍然存在管道，可将其进一步加载到任何下游系统中，以满足所有分析要求。反过来，这甚至可能导致与传统本地系统相同的锁定。或集中数据不足以证明所涉及的工作合理的用例，或者数据太大而移动所需的时间太长的用例。依此类推…

那么在这种情况下该怎么办?

联邦

如今，在分析解决方案及其数据管理方面有很多选择。不仅包括其报价的不同提供商，而且种类繁多的技术都势不可挡，技术进步的步伐比以往更快。也没有一个明确的赢家，他们无疑将帮助将更多的数据卡路里转化为有用的东西，这毫无疑问。但是，基于SQL的分布式查询引擎确实确实存在明显的趋势，有助于应对数据爆炸。这也证实了现有数据和分析服务提供商的产品阵容及其最新发展。他们都试图无缝集成那些具有成本效益的云存储，并允许使用完全一样的查询引擎在其上进行交互式SQL查询。因此，它们可以填补上述缺失的空白，并允许成熟的企业通过保持核心事实，在保持组织和平台稳定性的同时实现扩展的大数据功能。

数据虚拟化

分布式查询引擎背后的基本思想无非就是数据虚拟化以及创建抽象层的尝试，该抽象层提供了跨不同数据源的数据访问。与传统的数据虚拟化软件(链接服务器，DBLink等)的区别在于，您可以横向扩展方式一起查询关系和非关系数据，以提高查询性能。因此，分布式一词不仅指查询本身，还指计算和存储。它们基本上是针对密集型OLAP查询而设计的，因此在性能方面并不是那么脆弱和不一致。

Hadoop上的SQL

用于此目的的技术最初或仍然经常被称为基于hadoop的SQL-on-Hadoop，它依赖于MPP(大规模并行处理)引擎。它允许使用熟悉的类似于SQL的语言查询和分析存储在hdfs(Hadoop分布式文件系统)上的数据，以隐藏mapReduce / Tez的复杂性，并使数据库开发人员更易于访问。 Hive可以说是Hadoop上的第一个SQL引擎，并且由于多年来的发展已被证明具有非常强大的功能，因此Hive仍被广泛用于批处理式数据处理。 Hive将SQL查询转换为多个阶段，并将中间结果存储到磁盘中。同时，在Hadoop生态系统中原生开发了其他专用工具，例如Impala，还支持将HBase用作数据源。与Hive相比，它利用了内存和缓存技术，与长期运行的批处理作业相比，它更适合用于交互式分析-此类别中的另一个示例是sparkSQL。所有这些都需要预先完成的元数据定义，也称为读取模式，例如视图或外部表。此定义存储在集中存储中，例如Hive metastore。

如何理解分布式SQL大数据查询引擎的发展

SQL-on-Anything

随着技术的发展，需要更多的开放性，并且不严格与Hadoop捆绑在一起，而是以松散耦合的方式支持许多其他种类的其他数据库。这样，查询引擎无需大量的先决条件和准备工作即可在大量数据上实现即插即用发现。此外，还提供了标准ANSI SQL作为接口，使数据分析人员和开发人员可以更轻松地访问它。同时，不再需要预先定义架构，某些引擎甚至可以通过下推查询(例如Drill)在原始存储层自动解析它。该领域的另一个开拓性工具是Presto，它甚至可以查询来自kafka和Redis的实时流数据。 Presto是Facebook专门为满足此需求而开发的一种内存中分布式SQL查询引擎，可在不同的数据集中进行交互式分析。对于Netflix，Twitter，airbnb或Uber等公司而言，这对于他们的日常业务至关重要，否则它们将无法处理和分析PB级的数据。 Presto可以与许多不同的BI工具一起使用，包括Power BI，Looker，Tableau，Superset或任何其他符合ODBC和JDBC的工具。在这种情况下，" SQL-on-Anything"这个名字终于首次被创造出来。

如何理解分布式SQL大数据查询引擎的发展

数据湖引擎

数据湖引擎的技术方法没有太大不同。毕竟，它仅仅是数据虚拟化和合并来自不同来源的数据。它们通常在提供更多有关数据建模，数据转换，数据行数和数据安全性的功能方面有所不同。通常，它们也更趋向于云，并且可能会认为它们同时具有丰富的用户界面，从而为非技术用户带来了一种数据自助服务理念。这种方法可以充分利用公共云中的数据集中性，并且由于云的价格弹性而可以以较低的成本进行交互式分析，而没有任何锁定风险。 Data Lake Engines也不一定支持更多的数据源，但是由于延迟到来，它们可以从头开始利用最新技术。例如，Databricks最近发布了SQL Analytics，该数据库由其Delta引擎提供支持，可直接查询数据湖上的Delta Lake表。此外，它为数据浏览提供了SQL本机接口，并且仪表板可以彼此共享。在这方面，另一个非常有前途的工具也是我最喜欢的工具之一是Dremio，它基本上是开源的，但是得到了同名公司的支持，该公司提供了具有一些附加功能的商业化企业版。

如何理解分布式SQL大数据查询引擎的发展

与传统的多层体系结构相反，Dremio正在BI工具和查询的数据源系统之间建立直接的桥梁。幕后使用的主要技术是Drill，Arrow，Calcite和parquet。这种组合提供了适用于各种数据源的无模式SQL，以及具有下推功能的柱状内存分析执行引擎，并且可以轻松实现查询以提高查询性能。顺便说一句，Arrow被视为内存分析的事实上的标准。

到此，相信大家对“如何理解分布式SQL大数据查询引擎的发展”有了更深的了解，不妨来实际操作一番吧！这里是编程网网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何理解分布式SQL大数据查询引擎的发展

本文链接: https://www.lsjlt.com/news/61951.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何理解分布式SQL大数据查询引擎的发展

本篇内容主要讲解“如何理解分布式SQL大数据查询引擎的发展”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何理解分布式SQL大数据查询引擎的发展”吧!介绍从高层...

99+

2024-04-02
分布式架构下如何处理大数据？

随着互联网技术的发展，数据量呈现爆炸式增长，单机处理大数据已经无法满足需求。分布式架构的出现为解决大数据处理提供了一种新的思路。本文将介绍分布式架构下如何处理大数据，并且通过演示代码来加深理解。一、分布式架构的优势分布式架构通过将大数...

99+

2023-09-15

大数据分布式 apache
ASP 分布式系统如何处理大数据？

ASP 是一种常用的分布式系统，它可以实现高效的大数据处理。在分布式系统中，数据被分割成多个部分，然后由不同的服务器进行处理。这种方式可以大大提高数据处理的速度和效率。下面，我们将介绍 ASP 分布式系统如何处理大数据。一、ASP 分布...

99+

2023-10-17

分布式大数据 npm
MySQL中如何处理大数据量的查询和分析

在MySQL中处理大数据量的查询和分析需要考虑以下几点：使用索引：确保表中涉及到的列都有合适的索引，这样可以加快查询速度。 ...

99+

2024-03-06

MySQL
如何通过索引优化PHP与MySQL的大规模数据查询和高并发查询？

概述：在PHP与MySQL开发中，大规模数据查询和高并发查询是常见的需求。为了提高查询性能，我们可以通过索引优化来减少数据库的查询时间，从而提高系统的响应速度。本文将介绍如何通过索引优化来达到目标，并提供一些具体的代码示例。索引的基本概念和...

99+

2023-10-21

PHP 索引优化 MySQL。
二维码如何帮助Java分布式索引系统提高数据查询效率？

随着互联网技术的不断发展，数据量呈现爆炸式增长，如何快速高效地查询数据成为了互联网公司必须面对的问题。Java分布式索引系统作为一种高效的数据查询方案，被广泛应用于各大互联网公司中。而二维码技术的应用，则可以进一步提高Java分布式索引系...

99+

2023-09-26

分布式索引二维码
如何使用 ASP 实现分布式大数据处理？

ASP.NET是一个强大的Web开发框架，它可以帮助开发人员构建高效、可扩展的Web应用程序。ASP.NET还提供了许多功能，例如分布式计算，可以帮助开发人员实现分布式大数据处理。在本文中，我们将介绍如何使用ASP.NET实现分布式大数据处...

99+

2023-10-17

分布式大数据 npm
GO语言如何支持分布式大数据处理？

随着数据量的不断增加和数据处理需求的不断提高，分布式大数据处理成为了当前互联网领域的一个热点问题。而GO语言作为一门高效、简洁、并发性强的编程语言，自然也能够很好地支持分布式大数据处理。 GO语言中的分布式大数据处理主要依靠其内置的gor...

99+

2023-07-18

分布式大数据 npm
PHP开发中如何处理大规模数据库查询

在PHP开发过程中，处理大规模数据库查询是一个常见的挑战。当应用程序需要查询的数据量大到无法一次性加载到内存中时，需要采取一些策略来提高查询效率，并且确保应用程序的性能不会受到过多的影响。下面将介绍几个处理大规模数据库查询的常用技巧和代码示...

99+

2023-10-21

数据库优化缓存处理分页查询
Couchbase如何处理大规模数据集的查询和分析

Couchbase 是一个高性能、分布式的 NoSQL 数据库，它可以处理大规模数据集的查询和分析。以下是 Couchbase 处理...

99+

2024-04-09

Couchbase
如何用ASP技术解决分布式大数据处理难题？

分布式大数据处理是当前互联网时代面临的一个重要问题。随着数据规模的逐渐增大，单机处理数据已经不能满足需求，因此分布式大数据处理技术成为了大势所趋。ASP技术作为一种高效的分布式大数据处理技术，近年来受到了越来越多的关注。本文将介绍如何用AS...

99+

2023-11-15

分布式大数据 leetcode
C++技术中的大数据处理：如何利用分布式系统处理大数据集？

c++++中利用分布式系统处理大数据的实战方法包括：通过apache spark等框架实现分布式处理。充分利用并行处理、负载均衡和高可用性等优势。利用flatmap()、maptopai...

99+

2024-05-12

大数据分布式系统 apache c++
分布式索引如何帮助Python数组处理海量数据？

在现代数据处理中，海量数据的处理已经成为了一项非常关键的任务。而Python语言作为一种广泛使用的编程语言，自然也需要一些高效的工具来处理大规模数据。这时候，分布式索引就成为了一个非常有用的工具。在本文中，我们将探讨分布式索引如何帮助P...

99+

2023-10-08

数组分布式索引
PHP开发中如何处理大量数据存储和查询

在实际的PHP开发中，处理大量数据存储和查询是一个常见的需求。无论是社交媒体网站还是电子商务平台，都会面临存储和查询大量数据的挑战。本文将介绍几种应对大量数据存储和查询的常用方法，并给出具体的代码示例。一、数据库设计和索引优化在处理大量数据...

99+

2023-10-21

数据存储 - 数据库优化数据查询 - 高效索引大数据处理 - 分布式计算
分布式系统中，PHP如何处理大数据类型？

随着互联网技术的不断发展，分布式系统已经成为了现代软件开发的一个重要方向。在分布式系统中，处理大数据类型是一项非常常见的任务。PHP作为一种流行的编程语言，也被广泛应用于分布式系统中。那么，在分布式系统中，PHP如何处理大数据类型呢？本文将...

99+

2023-11-06

分布式数据类型大数据
Python在大数据处理中的分布式响应能力如何？

Python是一种高级编程语言，其在数据科学和大数据处理领域中越来越受欢迎。Python的一个关键特性就是其能够支持分布式计算，这在大规模数据集处理过程中非常重要。那么，Python在大数据处理中的分布式响应能力如何呢？ Python在大数...

99+

2023-08-17

分布式响应大数据
GO语言如何优化分布式大数据处理的速度？

随着互联网和大数据时代的到来，越来越多的企业和组织开始面临大规模数据的处理和分析问题。为了提高效率和减少成本，许多组织和企业开始采用分布式计算和处理技术。而GO语言，作为一种高效、简洁、并发和可扩展性强的语言，成为了越来越多企业和组织选择...

99+

2023-07-18

分布式大数据 npm
GO语言在分布式大数据处理中的地位如何？

随着互联网技术的发展，大数据处理成为了不可避免的趋势。而在大数据处理中，分布式计算是一种非常重要的技术，因为它可以将数据分散在多个节点上进行处理，从而提高计算速度和效率。而GO语言作为一种高效、并发性能优秀的编程语言，近年来在分布式大数据...

99+

2023-07-18

分布式大数据 npm
你真的理解ASP、大数据和分布式的关系吗？

ASP、大数据和分布式是当前IT领域中非常热门的三个概念，它们之间的关系也引起了广泛的关注。在本文中，我们将深入探讨ASP、大数据和分布式的关系，帮助读者更好地理解这些概念。一、ASP ASP（Active Server Pages），即...

99+

2023-09-15

大数据分布式 apache
如何通过索引优化PHP与MySQL的复杂查询和大数据量查询？

引言：随着互联网的快速发展，数据量的爆炸式增长成为了一个普遍的问题。对于使用PHP和MySQL进行复杂查询和处理大数据量的项目来说，索引优化是提高查询性能和响应时间的重要手段之一。本文将介绍几种常见的索引优化技巧，以及详细的代码示例。一、了...

99+

2023-10-21

MySQL PHP 索引优化