iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >Hadoop的生态系统是什么
  • 723
分享到

Hadoop的生态系统是什么

2023-06-02 01:06:20 723人浏览 独家记忆
摘要

这篇文章主要讲解了“hadoop的生态系统是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hadoop的生态系统是什么”吧!hadoop生态系统,意思就是以hadoop为平台的各种应用框

这篇文章主要讲解了“hadoop的生态系统是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hadoop的生态系统是什么”吧!

hadoop生态系统,意思就是以hadoop为平台的各种应用框架,相互兼容,组成了一个独立的应用体系,也可以称之为生态圈。

通过以下的图:

Hadoop的生态系统是什么

hadoop生态系统

我们可以可以总结如下常用的应用框架(图中没有的,我也列出了几个):

1,hdfs(hadoop分布式文件系统)

是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。

client:切分文件,访问HDFS,与那么弄得交互,获取文件位置信息,与Datanode交互,读取和写入数据。

namenode:master节点,在hadoop1.x中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户 端请求。

DataNode:slave节点,存储实际的数据,汇报存储信息给namenode。

secondary namenode:辅助namenode,分担其工作量:定期合并fsimage和fsedits,推送给namenode;紧急情况下和辅助恢复namenode,但其并非namenode的热备。

2,mapReduce(分布式计算框架)

mapreduce是一种计算模型,用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作,生成键-值对形式中间,reduce则对中间结果中相同的键的所有值进行规约,以得到最终结果。

jobtracker:master节点,只有一个,管理所有作业,任务/作业的监控,错误处理等,将任务分解成一系列任务,并分派给tasktracker。

tacktracker:slave节点,运行 map task和reducetask;并与jobtracker交互,汇报任务状态。

map task:解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入到本地磁盘(如果为map—only作业,则直接写入HDFS)。

reduce task:从map 它深刻地执行结果中,远程读取输入数据,对数据进行排序,将数据分组传递给用户编写的reduce函数执行。

3, Hive(基于hadoop的数据仓库

由Facebook开源,最初用于解决海量结构化的日志数据统计问题。

hive定于了一种类似sql的查询语言(hql)将sql转化为mapreduce任务在hadoop上执行。

4,HBase(分布式列存数据库

hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。和传统关系型数据库不同,hbase采用了bigtable的数据模型:增强了稀疏排序映射表(key/value)。其中,键由行关键字,列关键字和时间戳构成,hbase提供了对大规模数据的随机,实时读写访问,同时,hbase中保存的数据可以使用mapreduce来处理,它将数据存储和并行计算完美结合在一起。

5,ZooKeeper(分布式协作服务)

解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。

6,sqoop(数据同步工具

sqoop是sql-to-hadoop的缩写,主要用于传统数据库和hadoop之间传输数据。数据的导入和导出本质上是mapreduce程序,充分利用了MR的并行化和容错性。

7,pig(基于hadoop的数据流系统)

定义了一种数据流语言-pig latin,将脚本转换为mapreduce任务在hadoop上执行。通常用于离线分析。

8,mahout(数据挖掘算法库)

mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建只能应用程序。mahout现在已经包含了聚类,分类,推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是,mahout还包含了数据的输入/输出工具,与其他存储系统(如数据库,mongoDB或Cassandra)集成等数据挖掘支持架构

9,flume(日志收集工具)

cloudera开源的日志收集系统,具有分布式,高可靠,高容错,易于定制和扩展的特点。他将数据从产生,传输,处理并写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在flume中定制数据发送方,从而支持收集各种不同协议数据。

10,资源管理器的简单介绍(YARN和mesos)

随着互联网的高速发展,基于数据 密集型应用 的计算框架不断出现,从支持离线处理的mapreduce,到支持在线处理的stORM,从迭代式计算框架到 流式处理框架s4,...,在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方法如下:网页建索引采用mapreduce框架,自然语言处理/数据挖掘采用spark,对性能要求到的数据挖掘算法用mpi等。公司一般将所有的这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,这样便诞生了资源统一管理与调度平台,典型的代表是mesos和yarn。

11,其他的一些开源组件:

1)cloudrea impala:

一个开源的查询引擎。与hive相同的元数据,SQL语法,ODBC驱动程序和用户接口,可以直接在HDFS上提供快速,交互式SQL查询。impala不再使用缓慢的hive+mapreduce批处理,而是通过与商用并行关系数据库中类似的分布式查询引擎。可以直接从HDFS或者Hbase中用select,join和统计函数查询数据,从而大大降低延迟。

2)spark:

spark是个开源的数据 分析集群计算框架,最初由加州大学伯克利分校AMPLab,建立于HDFS之上。spark与hadoop一样,用于构建大规模,延迟低的数据分析应用。spark采用Scala语言实现,使用Scala作为应用框架。

spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。

与hadoop不同的是,spark与Scala紧密集成,Scala象管理本地collective对象那样管理分布式数据集。spark支持分布式数据集上的迭代式任务,实际上可以在hadoop文件系统上与hadoop一起运行(通过YARN,MESOS等实现)。

3)storm

storm是一个分布式的,容错的计算系统,storm属于流处理平台,多用于实时计算并更新数据库。storm也可被用于“连续计算”,对数据流做连续查询,在计算时将结果一流的形式输出给用户。他还可被用于“分布式rpc”,以并行的方式运行昂贵的运算。

4)kafka

kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息

感谢各位的阅读,以上就是“Hadoop的生态系统是什么”的内容了,经过本文的学习后,相信大家对Hadoop的生态系统是什么这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

--结束END--

本文标题: Hadoop的生态系统是什么

本文链接: https://www.lsjlt.com/news/228412.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Hadoop的生态系统是什么
    这篇文章主要讲解了“Hadoop的生态系统是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hadoop的生态系统是什么”吧!hadoop生态系统,意思就是以hadoop为平台的各种应用框...
    99+
    2023-06-02
  • Hadoop之生态系统
    Hadoop生态系统一、摘要            经过几年的快速发展,Hadoop现在已经发展...
    99+
    2022-10-18
  • 大数据Hadoop生态系统介绍
    目录一、概述1)Hadoop发行版本1、Apache Hadoop发行版2、DKhadoop发行版3、Cloudera发行版4、Hortonworks发行版5、华为hadoop发行版2)Hadoop1.x -》 Hadoop2.x的演变3...
    99+
    2014-12-24
    大数据Hadoop生态系统介绍
  • NoSQL生态系统指的是什么
    这篇文章主要为大家展示了“NoSQL生态系统指的是什么”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“NoSQL生态系统指的是什么”这篇文章吧。  NoSQL 其...
    99+
    2022-10-19
  • Spark 生态系统组件是什么
    这期内容当中小编将会给大家带来有关Spark 生态系统组件是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。 Spark 生态系统以Spark Core 为核心,能够读取传统文件(如文本文件)、HDFS...
    99+
    2023-06-04
  • Hadoop生态系统的存储格式CarbonData性能分析
    本篇内容主要讲解“Hadoop生态系统的存储格式CarbonData性能分析”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Hadoop生态系统的存储格式CarbonData性能分析”吧!&nbs...
    99+
    2023-06-02
  • 2018 JVM生态系统报告是怎么样的
    这篇文章将为大家详细讲解有关2018 JVM生态系统报告是怎么样的,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。JVM生态系统报告就是 Java 开发者工具使用情况的缩影。https://res.clou...
    99+
    2023-06-02
  • vue的生态是什么
    Vue.js是一种流行的JavaScript前端框架,已成为以Web前端开发为主的最佳选择之一。vue提供了非常完善的生态和工具,在vue的生态圈中已经有了很多优秀的支持库和服务,下面我们来仔细研究一下vue的生态系统。一、vue-cliV...
    99+
    2023-05-14
  • hadoop集群管理系统搭建规划是什么
    本篇文章给大家分享的是有关hadoop集群管理系统搭建规划是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因...
    99+
    2023-06-02
  • 一般地Hadoop系统的基础操作系统是Windows系统
    实际上,Hadoop系统的基础操作系统通常是Linux系统。Hadoop是一个开源的分布式计算框架,最初是为Linux系统设计和开发...
    99+
    2023-10-11
    hadoop
  • Hadoop的特点是什么
    本篇内容介绍了“Hadoop的特点是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  Hadoop出现的原因:现在的我们,生活在数据大爆...
    99+
    2023-06-02
  • hadoop中系统执行排序的过程叫什么
    这篇文章给大家分享的是有关hadoop中系统执行排序的过程叫什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。MapReduce确保每个reducer的输入都是按键排序的,系统执行排序的过程称为shuffle。s...
    99+
    2023-06-14
  • 自然语言处理在Java和Linux生态系统中的关键角色是什么?
    自然语言处理(NLP)是人工智能的一个重要分支,它涉及到对自然语言的理解和生成。在当今数字化世界中,NLP已经成为人们处理文本和语音数据的重要工具。Java和Linux生态系统中有很多NLP工具和库,它们在文本挖掘、情感分析、机器翻译、语...
    99+
    2023-08-02
    linux 自然语言处理 spring
  • hadoop和spark的区别是什么
    这篇文章主要讲解了“hadoop和spark的区别是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hadoop和spark的区别是什么”吧!主要是从四个方面对Hadoop和spark进行...
    99+
    2023-06-02
  • Linux中系统状态的检测命令是什么
    Linux中系统状态的检测命令是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。要想玩Linux,更快更好的了解Linux服务器,必须具备快速查看系统运行状态...
    99+
    2023-06-05
  • ERP生产管理系统是什么样的?对企业作用是什么?
    说到ERP生产管理系统哪个好?好用的ERP生产管理系统有哪些?相信很多ERP领域专家,或准备上ERP的生产企业,都会认为没有答案。因为就像买车,不同价位有不同品牌,不同品牌有不同优势,比如,有的很耐用,有的质感好,有的动力好,有的空间大……...
    99+
    2023-06-05
  • Linux系统下动态库的生成方式
    本篇内容介绍了“Linux系统下动态库的生成方式”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  什么是动态库?  动态库又称动态链接库英文...
    99+
    2023-06-13
  • java动态生成word的方法是什么
    在Java中,可以使用Apache POI库来动态生成Word文档。Apache POI是一个用于处理Microsoft文档格式的J...
    99+
    2023-09-16
    java word
  • golang动态生成struct的方法是什么
    在Go语言中,可以使用`reflect`包来动态生成struct。下面是一个示例代码:```gopackage mainimport...
    99+
    2023-08-08
    golang
  • linux搭建hadoop的步骤是什么
    搭建Hadoop集群的步骤如下:1. 安装Linux操作系统:选择一种Linux发行版,如CentOS、Ubuntu等,并进行安装。...
    99+
    2023-10-11
    linux hadoop
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作