hadoop参数调优的方法是什么

2023-06-03 01:06:29 824人浏览八月长安

摘要

这篇文章主要介绍“hadoop参数调优的方法是什么”，在日常操作中，相信很多人在hadoop参数调优的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”hadoop参数调优的方法是什么”的疑惑有所帮助！

这篇文章主要介绍“hadoop参数调优的方法是什么”，在日常操作中，相信很多人在hadoop参数调优的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”hadoop参数调优的方法是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

一、 hdfs-site.xml 配置文件

dfs.blocksize
参数：hadoop文件块大小
描述：新文件的默认块大小，以字节为单位，默认 134217728 字节。
可以使用以下后缀(大小写不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(exa)来指定大小(如128k、512m、1g等)，
或者以字节为单位提供完整的大小。

dfs.namenode.handler.count
参数：namenode的服务器线程数
描述：NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20，即20logN，N为集群大小。

dfs.datanode.balance.bandwidthPerSec
参数： datanode 平衡带宽
描述：指定每个datanode可以利用每秒字节数来平衡目标的最大带宽。

dfs.replication
参数：块副本数
描述：默认的块复制。可以在创建文件时指定复制的实际数量。如果在create time中没有指定复制，则使用默认值3。

dfs.datanode.max.transfer.threads
参数：datanode 最大传输线程数
描述：指定用于传输数据进出DN的最大线程数。集群中如果不一致，会造成数据分布不均。

二、 core-site.xml 配置文件

io.file.buffer.size
参数：文件的缓冲区大小
描述：用于顺序文件的缓冲区大小。这个缓冲区的大小应该是硬件页面大小的倍数(在Intel x86上是4096)，它决定了在读写操作中缓冲了多少数据。SequenceFiles 读取和写入操作的缓存区大小，还有map的输出都用到了这个缓冲区容量，可减少 I/O 次数。建议设定为 64KB 到 128KB

三、 yarn-site.xml 配置文件

yarn.nodemanager.resource.memory-mb
参数：该节点 nodemanager 资源池内存
描述：NodeManager节点上可使用的物理内存总量，默认是8192（MB），根据节点所能分配的最大的内存进行分配即可，注意为操作系统与其他服务预留资源。

yarn.nodemanager.resource.cpu-vcores
参数：该节点有多少cpu加入资源池，默认值为8
描述：表示该节点上YARN可使用的虚拟CPU个数，默认是8，注意，目前推荐将该值设值为与物理CPU核数数目相同。如果你的节点CPU核数不够8个，则需要调减小这个值，而YARN不会智能的探测节点的物理CPU总数。

到此，关于“hadoop参数调优的方法是什么”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: hadoop参数调优的方法是什么

本文链接: https://www.lsjlt.com/news/232035.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

C++ 生态系统中流行库和框架的贡献指南

作为 c++++ 开发人员，通过遵循以下步骤即可为流行库和框架做出贡献：选择一个项目并熟悉其代码库。在 issue 跟踪器中寻找适合初学者的问题。创建一个新分支，实现修复并添加测试。提交...

99+

2024-05-15

框架 c++ 流行库 git
C++ 生态系统中流行库和框架的社区支持情况

c++++生态系统中流行库和框架的社区支持情况：boost：活跃的社区提供广泛的文档、教程和讨论区，确保持续的维护和更新。qt：庞大的社区提供丰富的文档、示例和论坛，积极参与开发和维护。...

99+

2024-05-15

生态系统社区支持 c++ overflow 标准库
c++中if elseif使用规则

c++ 中 if-else if 语句的使用规则为：语法：if (条件1) { // 执行代码块 1} else if (条件 2) { // 执行代码块 2}// ...else ...

99+

2024-05-15

c++
c++中的继承怎么写

继承是一种允许类从现有类派生并访问其成员的强大机制。在 c++ 中，继承类型包括：单继承：一个子类从一个基类继承。多继承：一个子类从多个基类继承。层次继承：多个子类从同一个基类继承。多层...

99+

2024-05-15

c++
c++中如何使用类和对象掌握目标

在 c++ 中创建类和对象：使用 class 关键字定义类，包含数据成员和方法。使用对象名称和类名称创建对象。访问权限包括：公有、受保护和私有。数据成员是类的变量，每个对象拥有自己的副本...

99+

2024-05-15

c++
c++中优先级是什么意思

c++ 中的优先级规则：优先级高的操作符先执行，相同优先级的从左到右执行，括号可改变执行顺序。操作符优先级表包含从最高到最低的优先级列表，其中赋值运算符具有最低优先级。通过了解优先级，可...

99+

2024-05-15

c++
c++中a+是什么意思

c++ 中的 a+ 运算符表示自增运算符，用于将变量递增 1 并将结果存储在同一变量中。语法为 a++，用法包括循环和计数器。它可与后置递增运算符 ++a 交换使用，后者在表达式求值后递...

99+

2024-05-15

c++
c++中a.b什么意思

c++kquote>“a.b”表示对象“a”的成员“b”，用于访问对象成员，可用“对象名.成员名”的语法。它还可以用于访问嵌套成员，如“对象名.嵌套成员名.成员名”的语法。 c++...

99+

2024-05-15

c++
C++ 并发编程库的优缺点

c++++ 提供了多种并发编程库，满足不同场景下的需求。线程库 (std::thread) 易于使用但开销大；异步库 (std::async) 可异步执行任务，但 api 复杂；协程库 ...

99+

2024-05-15

c++ 并发编程
如何在 Golang 中备份数据库？

在 golang 中备份数据库对于保护数据至关重要。可以使用标准库中的 database/sql 包，或第三方包如 github.com/go-sql-driver/mysql。具体步骤...

99+

2024-05-15

golang 数据库备份 mysql git 标准库