广告
返回顶部
首页 > 资讯 > 数据库 >hive函数有什么用
  • 303
分享到

hive函数有什么用

2024-04-02 19:04:59 303人浏览 独家记忆
摘要

这篇文章将为大家详细讲解有关Hive函数有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特

这篇文章将为大家详细讲解有关Hive函数有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 

 1.hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为mapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

  2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

  要理解hive,必须先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。

  使用hive的命令行接口,感觉很像操作关系数据库,但是hive和关系数据库还是有很大的不同,下面我就比较下hive与关系数据库的区别,具体如下:

1.hive和关系数据库存储文件的系统不同,hive使用的是hadoop的hdfs(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;

2.hive使用的计算模型是mapreduce,而关系数据库则是自己设计的计算模型;

3.关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同;

4.Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。

  以上都是从宏观的角度比较hive和关系数据库的区别,hive和关系数据库的异同还有很多,我在文章的后面会一一描述。

  下面我来讲讲hive的技术架构,大家先看下面的架构图: 

hive函数有什么用

  由上图可知,hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),这些组件我可以分为两大类:服务端组件和客户端组件。

   首先讲讲服务端组件:

  Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架

  Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、Mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详细的讲解。

  Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。

  客户端组件:

  CLI:command line interface,命令行接口。

  Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。

  WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。

  下面我着重讲讲metastore组件,具体如下:

  Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。

  Hive的执行流程如下图所示:

hive函数有什么用

图描述的很清晰了,我这里就不在累述了。

下面我给大家展示一个简单的例子,看看hive是怎么操作的。

首先我们创建一个普通的文本文件,里面只有一行数据,该行也只存储一个字符串,命令如下:

echo ‘sharpxiajun' > /home/hadoop/test.txt

然后我们建一张hive的表:

hive –e “create table test (value string);

接下来加载数据:

Load data local inpath ‘home/hadoop/test.txt' overwrite into table test

最后我们查询下表:

hive –e ‘select * from test';

  大家看到了吧,hive十分简单,很好入门,操作和sql很像,下面我就要深入分析下hive与关系数据库的区别,这部分可能有些人看的不是很明白,但是很有必要提前提出,以后我的文章里将进一步讲述hive,那时不太明白的童鞋在看看这部分,很多问题就会清晰很多,具体如下:

1.关系数据库里,表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不同,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式”。在实际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。但是当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。

2.关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作,hive不支持对某个具体行的操作,hive对数据的操作只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,原因是hive的设计是海量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操作的效率是很差的,对于更新操作,hive是通过查询将原表的数据进行转化最后存储在新表里,这和传统数据库的更新操作有很大不同。

3.Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和HBase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句操作hbase数据库

关于“hive函数有什么用”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

您可能感兴趣的文档:

--结束END--

本文标题: hive函数有什么用

本文链接: https://www.lsjlt.com/news/57261.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • hive函数有什么用
    这篇文章将为大家详细讲解有关hive函数有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特...
    99+
    2022-10-18
  • hive内置函数有什么用
    小编给大家分享一下hive内置函数有什么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!hive内置函数:1、用户自定义函数对数据进行处理;2、用来解决输入一行输...
    99+
    2023-06-06
  • hive常用内部函数有哪些
    这篇文章主要介绍了hive常用内部函数有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1、随机函数rand()格式:rand([int seed])返回:dou...
    99+
    2023-06-02
  • Hive sql常用函数
    1.获取当前日期 如2020-13-22 current_date() 或者current_date 获取当前时间:from_unixtime(unix_timestamp()) -->返回格式:yyyy-MM-dd HH:mm...
    99+
    2016-12-22
    Hive sql常用函数
  • hive中decode函数怎么使用
    在Hive中,`decode`函数用于根据给定的条件和对应的值,将一个列的值转换为另一个值。`decode`函数的语法如下:```DECODE(col, condition1, value1, condition2, value2, ....
    99+
    2023-08-11
    hive decode
  • hive函数regexp_extract怎么样
    这篇文章将为大家详细讲解有关hive函数regexp_extract怎么样,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。函数描述:regexp_extract(str, regexp[, idx]) - ...
    99+
    2023-06-03
  • 大数据开发中hive有什么用
    这篇文章给大家分享的是有关大数据开发中hive有什么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。引语大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象...
    99+
    2023-06-02
  • Hive内部函数中聚合函数和分组函数有哪些
    这篇文章给大家分享的是有关Hive内部函数中聚合函数和分组函数有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。 常用的聚合函数:       max &nbs...
    99+
    2023-06-02
  • hive常见自定义函数有哪些
    这篇文章主要介绍了hive常见自定义函数有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1.1 为什么需要自定义函数hive的内置函数满足不了所有的业务需求。hive提供...
    99+
    2023-06-02
  • hive与hadoop有什么联系
    这篇文章主要讲解了“hive与hadoop有什么联系”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hive与hadoop有什么联系”吧!解析:提交sql 交给驱动2、驱动编译:解析相关的字段...
    99+
    2023-06-03
  • Hive中怎么添加自定义函数
    这篇文章主要讲解了“Hive中怎么添加自定义函数”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hive中怎么添加自定义函数”吧!环境介绍:CentOS7+hive-1.1.0-cdh6.7....
    99+
    2023-06-03
  • Hive-sql和sql有什么区别
    这篇文章给大家分享的是有关Hive-sql和sql有什么区别的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。区别:1、Hive-sql不支持等值连接,而sql支持;2、Hive-s...
    99+
    2022-10-18
  • 为什么要使用Hive
    这篇文章将为大家详细讲解有关为什么要使用Hive,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Ha...
    99+
    2023-06-02
  • PHP file_get_contents()函数有什么用
    PHP file_get_contents()函数用于将文件的内容读取到一个字符串中。它可以从本地文件系统、网络URL、流数据等读取...
    99+
    2023-10-10
    PHP
  • MySQL FROM_UNIXTIME() 函数有什么用
    MySQL的FROM_UNIXTIME()函数用于将Unix时间戳转换为日期和时间格式。Unix时间戳是从1970年1月1日00:0...
    99+
    2023-10-20
    MySQL
  • MySQL LAST_INSERT_ID() 函数有什么用?
    MySQL LAST_INSERT_ID() 函数用于通过 AUTO_INCRMENT 获取最近生成的序列号。示例在这个示例中,我们是创建一个名为“Student”的表,该表具有 AUTO_INCRMENT 列。我们在“Name”列中插入两...
    99+
    2023-10-22
  • MySQL TRUNCATE() 函数有什么用?
    MySQL TRUNCATE() 函数用于返回 X 截断至 D 位小数的值。如果D为0,则去除小数点。如果D为负数,则D个值的整数部分被截断。其语法如下 -语法TRUNCATE(X, D)此处X 是要截断的数字。D 是小数点后的数字。数字 ...
    99+
    2023-10-22
  • MySQL FROM_UNIXTIME() 函数有什么用?
    MySQL FROM_UNIXTIME() 函数用于从 Unix 时间戳版本返回日期/日期时间。返回值的格式可以是“YYYY-MM-DD HH:MM:SS”或“YYYYMMDDHHMMSS.uuuuuu”,具体取决于函数的上下文,即上下文是...
    99+
    2023-10-22
  • php函数chown有什么用
    这篇文章将为大家详细讲解有关php函数chown有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在php中,chown()函数可以设置指定文件的所有者,如果成功则返回TRUE,否则返回FALSE;语...
    99+
    2023-06-20
  • JavaScript中JSON.parse函数和JSON.stringify函数有什么用
    这篇文章主要为大家展示了“JavaScript中JSON.parse函数和JSON.stringify函数有什么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“...
    99+
    2022-10-19
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作