iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >HDFS有什么用
  • 571
分享到

HDFS有什么用

2023-06-27 23:06:49 571人浏览 八月长安
摘要

这篇文章主要为大家展示了“hdfs有什么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“HDFS有什么用”这篇文章吧。一、 HDFS介绍HDFS(hadoop Distributed File

这篇文章主要为大家展示了“hdfs有什么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“HDFS有什么用”这篇文章吧。

一、 HDFS介绍

HDFS(hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是Hadoop中的的存储组件,在整个Hadoop中的地位非同一般,也是最基础的一部分,因为它涉及到数据存储,mapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。HDFS在最开始是作为Apache Nutch搜索引项目的基础架构开发的。HDFS是Apache Hadoop Core项目的一部分。

分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。

HDFS有什么用
详解HDFS入门详解HDFS入门

二、HDFS设计理念

硬件出现故障是常态,而HDFS由成百上千的服务器组成,每一个组成部分都有可能出现故障。因此故障的检测和自动快速恢复是HDFS的核心架构目标。与一般的应用不同,HDFS上的应用主要是以流式读取数据HDFS被设计成适合批量处理,而不是用户交互式的。相较于数据访问的反应时间,实际上更注重数据访问的高吞吐量。典型的 HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。

大部分 HDFS 应用对文件要求的是 write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。

移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此。将计算移动到数据附近,比之将数据移动到应用所在显然更好。

在异构的硬件和软件平台上的可移植性,这将推动需要大数据集的应用更广泛地采用 HDFS 作为平台。

HDFS有什么用
详解HDFS入门详解HDFS入门

三、概念介绍

以下有几个较为重要的概念需要介绍下:

(1)超大文件。目前的hadoop集群能够存储几百TB甚至PB级的数据。

(2)流式数据访问。HDFS的访问模式是:一次写入,多次读取,更加关注的是读取整个数据集的整体时间。

(3)商用硬件。HDFS集群的设备不需要多么昂贵和特殊,只要是一些日常使用的普通硬件即可,正因为如此,hdfs节点故障的可能性还是很高的,所以必须要有机制来处理这种单点故障,保证数据的可靠。

(4)不支持低时间延迟的数据访问。hdfs关心的是高数据吞吐量,不适合那些要求低时间延迟数据访问的应用。

(5)单用户写入,不支持任意修改。hdfs的数据以读为主,只支持单个写入者,并且写操作总是以添加的形式在文末追加,不支持在任意位置进行修改。

四、为什么我们需要HDFS?

数据量巨大,磁盘开始很纠结的处理我们需要的海量信息。所以需要文件系统有大规模数据分布存储能力。

读取一块磁盘的所有数据需要很长时间,写入更是需要更长时间(写入时间一般是读取时间的3倍)即使有文件为1ZB,或者小点10EB时,这样的磁盘也无法做到随读随取。所以需要文件系统有高并发访问能力。

当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上。

从概念图上看,分布化的文件系统会因为分布后的结构不完整,导致系统复杂度加大,并且引入的网络编程,同样导致分布式文件系统更加复杂。所以需要强大的容错能力。

HDFS解决以上方案是分片冗余,本地校验,需要数据块存储模式数据冗余式存储,直接将多份的分片文件交给分片后的存储服务器去校验。冗余后的分片文件还有个额外功能,只要冗余的分片文件中有一份是完整的,经过多次协同调整后,其他分片文件也将完整。

经过协调校验,无论是传输错误,I/O错误,还是个别服务器宕机,整个系统里的文件是完整的。

分布后的文件系统有个无法回避的问题,因为文件不在一个磁盘导致读取访问操作的延时,这个是HDFS现在遇到的主要问题。

现阶段,HDFS的配置是按照高数据吞吐量优化的,可能会以高时间延时为代价。但万幸的是,HDFS是具有很高弹性,可以针对具体应用再优化。

总结就是:可以实现负载均衡、提高响应效率,因为多个服务器可以同时服务,提高了效率。

以上是“HDFS有什么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网精选频道!

--结束END--

本文标题: HDFS有什么用

本文链接: https://www.lsjlt.com/news/314785.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • HDFS有什么用
    这篇文章主要为大家展示了“HDFS有什么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“HDFS有什么用”这篇文章吧。一、 HDFS介绍HDFS(Hadoop Distributed File ...
    99+
    2023-06-27
  • HDFS中DataNode有什么作用
    这篇文章主要介绍了HDFS中DataNode有什么作用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。三个进程1)NameNode (NN): 名称节点  --》cl...
    99+
    2023-06-02
  • hadoop中的hdfs有什么作用
    HDFS(Hadoop Distributed File System)是Hadoop中的分布式文件系统,其主要作用是存储和管理大规...
    99+
    2024-03-13
    hadoop
  • hadoop和hdfs之间有什么关系
    Hadoop是一个开源的分布式计算框架,用于处理大规模数据的存储和处理。而HDFS(Hadoop Distributed File ...
    99+
    2024-04-02
  • hdfs命令指的是什么
    这篇文章主要讲解了“hdfs命令指的是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hdfs命令指的是什么”吧! hdfs命...
    99+
    2023-03-15
    hdfs
  • Hadoop中HDFS适用于什么场景
    这篇文章给大家分享的是有关Hadoop中HDFS适用于什么场景的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Hadoop生态系统一直是大数据领域的热点,其中包括今天要聊的HDFS,和计划以后想聊的yarn, ma...
    99+
    2023-06-03
  • HDFS产生背景是什么
    小编给大家分享一下HDFS产生背景是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分...
    99+
    2023-06-03
  • hadoop中hdfs优缺点是什么
    这篇文章将为大家详细讲解有关hadoop中hdfs优缺点是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。// 下载FileSystem fs = FileSys...
    99+
    2023-06-02
  • HDFS有哪些常用命令
    这篇文章将为大家详细讲解有关HDFS有哪些常用命令,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。hadoop fs -ls /hadoop fs -mkdir /user/hadoophadoop fs ...
    99+
    2023-06-02
  • HDFS中有哪些常用命令
    这篇文章主要介绍了HDFS中有哪些常用命令,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distribut...
    99+
    2023-06-27
  • hdfs命令有哪些
    这篇文章将为大家详细讲解有关hdfs命令有哪些,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。hdfs常用命令:第一部分:hdfs文件系统命令第一类:文件路径增删改查系列:hdfs dfs -mkdir d...
    99+
    2023-06-03
  • HDFS的常用命令有哪些
    本文小编为大家详细介绍“HDFS的常用命令有哪些”,内容详细,步骤清晰,细节处理妥当,希望这篇“HDFS的常用命令有哪些”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。既然HDFS是存取数据的分布式文件系统,那么对...
    99+
    2023-06-27
  • HDFS的读写流程是什么
    今天小编给大家分享一下HDFS的读写流程是什么的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1.读文件的流程如图所示,读文件...
    99+
    2023-06-27
  • hadoop和hdfs的区别是什么
    Hadoop是一个开源的分布式计算框架,可以实现对大规模数据的存储和处理,而HDFS(Hadoop Distributed File...
    99+
    2024-03-14
    hadoop hdfs
  • HDFS的工作原理是什么
    这篇文章将为大家详细讲解有关HDFS的工作原理是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。HDFS的工作原理HDFS支持在计算节点之间快速传输数据。在开始阶段,它与MapReduce紧密耦合——M...
    99+
    2023-06-05
  • HADOOP HDFS有哪些优点
    本篇内容介绍了“HADOOP HDFS有哪些优点”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!以HADOOP 2.x为背景。一、库房(存储银...
    99+
    2023-06-02
  • HDFS中fs命令怎么用
    这篇文章主要介绍了HDFS中fs命令怎么用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。版本:Hadoop 2.7.4-- 查看hadoop fs帮助信息[root@hadp...
    99+
    2023-06-03
  • HDFS副本放置策略是什么
    这篇文章将为大家详细讲解有关HDFS副本放置策略是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1.每个文件一般分为三个副本,当现实情况需要(工作需求量较大的时候也会有分为5个,或者7个副本的情况)2...
    99+
    2023-06-02
  • hdfs文件上传步骤是什么
    HDFS(Hadoop Distributed File System)是Hadoop框架中用于存储大规模数据的分布式文件系统。要将...
    99+
    2024-04-03
    hdfs
  • hdfs怎么获取路径下所有文件
    要获取HDFS路径下的所有文件, 可以使用以下命令: hdfs dfs -ls /path/to/directory 这将列出指定...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作