iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > 其他教程 >spark大数据任务提交参数的优化记录分析
  • 551
分享到

spark大数据任务提交参数的优化记录分析

spark任务提交参数优化spark大数据参数优化 2023-05-20 05:05:57 551人浏览 八月长安
摘要

目录起因分析环境参数问题所在优化结果起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于

起因

新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。

分析

环境

spark 2.2.0 基于yarn集群

参数

spark任务提交参数中最重要的几个:

spark-submit --master yarn --driver-cores 1 --driver-memory 5G --executor-cores 2 --num-executors 16 --executor-memory 4G

driver-cores driver端核数 driver-memory driver端内存大小 executor-cores 每个执行器的核数 num-executors 此任务申请的执行器总数 executor-memory 每个执行器的内存大小

那么,该任务将申请多少资源呢?

申请的执行器总内存数大小=num-executor * (executor-memory +spark.yarn.executor.memoryOverhead) = 16 * (4 + 2) = 96 申请的总内存=执行器总内存+dirver端内存=101 申请的总核数=num-executor*executor-core + yarn.AM(默认为1)=33 运行的总容器(contanier) = num-executor + yarn.AM(默认为1) = 17

所以这里还有一个关键的参数 spark.yarn.executor.memoryOverhead

这个参数是什么意思呢? 堆外内存,每个executor归spark 计算的内存为executor-memory,每个executor是一个单独的JVM,这个JAVA虚拟机本向在的内存大小即为spark.yarn.executor.memoryOverhead,不归spark本身管理。在spark集群中配置。

也可在代码中指定 spark.set("spark.yarn.executor.memoryOverhead", 1)

这部份实际上是存放spark代码本身的究竟,在executor-memory内存不足的时候也能应应急顶上。

问题所在

假设一个节点16G的内存,每个executor-memory=4,理想情况下4x4=16,那么该节点可以分配出4个节点供spark任务计算所用。 1.但应考虑到spark.yarn.executor.memoryOverhead. 如果spark.yarn.executor.memoryOverhead=2,那么每个executor所需申请的资源为4+2=6G,那么该节点只能分配2个节点,剩余16-6x2=4G的内存,无法使用。

如果一个集群共100个节点,用户将在yarn集群主界面看到,集群内存剩余400G,但一直无法申请到资源。

2.core也是一样的道理。

很多同学容易忽略spark.yarn.executor.memoryOverhead此参数,然后陷入怀疑,怎么申请的资源对不上,也容易陷入优化的误区。

优化结果

最终优化结果,将spark.yarn.executor.memoryOverhead调小,并根据node节点资源合理优化executor-memory,executor-core大小,将之前经常1.6T的内存占比,降到1.1左右。并能较快申请到资源。

以上就是spark任务提交参数的优化记录分析的详细内容,更多关于spark任务提交参数优化的资料请关注编程网其它相关文章!

--结束END--

本文标题: spark大数据任务提交参数的优化记录分析

本文链接: https://www.lsjlt.com/news/213900.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • spark大数据任务提交参数的优化记录分析
    目录起因分析环境参数问题所在优化结果起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于...
    99+
    2023-05-20
    spark任务提交参数优化 spark大数据参数优化
  • 大数据交叉报表性能优化实例分析
    这篇文章主要为大家分析了大数据交叉报表性能优化实例分析的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随小编一起来看看,下面跟着小编一起深入学习“大数据交叉报表性能优化实例分析”的知识吧。软硬件环境OS...
    99+
    2023-06-04
  • 优化数据库质量:提升数据分析的精度
    1. 数据收集的质量控制 明确数据源:识别数据来源并评估其可靠性。 数据验证:使用数据类型检查、范围检查和格式验证来确保数据的完整性和一致性。 数据清洗:删除或更正不完整、不一致或无效的数据。 2. 数据存储的结构化 表设计:创建规...
    99+
    2024-04-02
  • mysql大数据查询优化的示例分析
    这篇文章给大家分享的是有关mysql大数据查询优化的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。mysql数据量少,优化没必要,数据量大,优化少不了,不优化一个查询10...
    99+
    2024-04-02
  • angularjs中$http提交数据的示例分析
    小编给大家分享一下angularjs中$http提交数据的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!前两天在搞自己的...
    99+
    2024-04-02
  • 怎么分析MySQL性能优化的参数
    怎么分析MySQL性能优化的参数,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。MySQL的优化我分为两个部分,一是服务器物理硬...
    99+
    2024-04-02
  • VUE 数据可视化:提升您的数据分析
    借助 Vue.js 的灵活性,Vue 数据可视化库赋能开发者创建交互式且吸睛的数据图表和仪表盘。通过以下指南,您将探索 Vue 数据可视化的强大功能,从而提升您的数据分析能力。 最常用的 Vue 数据可视化库 Vue-Chart.js...
    99+
    2024-03-06
    Vue、数据可视化、图表、仪表盘、分析
  • PHP引擎php.ini参数优化的示例分析
    这篇文章主要介绍PHP引擎php.ini参数优化的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!PHP引擎php.ini参数优化无论是apache还是nginx,php.ini都是适合的。而php-fpm.c...
    99+
    2023-06-14
  • Netdata是否提供历史数据记录和分析功能
    是的,Netdata提供历史数据记录和分析功能。它可以存储历史数据,以便用户可以查看过去一段时间内系统的性能数据。用户可以通过图表和...
    99+
    2024-04-02
  • 如何进行大数据发展趋势和Spark的分析
    本篇文章为大家展示了如何进行大数据发展趋势和Spark的分析,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。大数据发展趋势和Spark介绍大数据是随着计算机技术、通信技术、互联网技术的发展而产生的一种...
    99+
    2023-06-02
  • 如何通过Java日志记录实现大数据分析?
    在现代软件开发中,日志记录是一个不可或缺的部分。它可以帮助开发人员快速找到和修复软件中的问题,同时也可以为后续的数据分析提供有价值的信息。在本文中,我们将介绍如何通过Java日志记录实现大数据分析。 一、什么是Java日志记录? Java...
    99+
    2023-09-25
    日志 并发 大数据
  • 深入浅析Python数据分析的过程记录
    目录一、需求介绍二、以第1、个为例进行数据分析1、获取一天的数据2、开始一天的数据的分析3、循环日期进行多天的数据分析:4、将数据写入Excel表格中三、完整的代码展示:总结一、需求...
    99+
    2024-04-02
  • MariaDB中如何优化大型查询和数据分析
    在MariaDB中优化大型查询和数据分析的方法有很多,以下是一些建议: 索引优化:为经常被查询的字段添加索引,以加快查询速度。尽...
    99+
    2024-04-09
    MariaDB
  • MySQL千万级数据表的优化实战记录
    前言 这里先说明一下,网上很多人说阿里规定500w数据就要分库分表。实际上,这个500w并不是定义死的,而是与MySQL的配置以及机器的硬件有关。MySQL为了提升性能,会将表的索引...
    99+
    2024-04-02
  • 如何使用Python在存储大数据时优化日志记录?
    随着数据量的不断增加,如何高效地存储和管理数据成为了数据科学家和工程师们最关心的问题之一。而在数据存储中,日志记录是一个非常重要的环节,它可以帮助我们更好地了解数据存储的情况,以及定位问题。在本文中,我们将探讨如何使用Python在存储大...
    99+
    2023-06-19
    日志 存储 大数据
  • 大数据中Spark任务和集群启动流程是什么样的
    这篇文章将为大家详细讲解有关大数据中Spark任务和集群启动流程是什么样的,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。大数据分享Spark任务和集群启动流程大数据分享Spark任务和集群启...
    99+
    2023-06-02
  • PHP大数据开发技术:对象编程如何优化数据分析和可视化?
    PHP是一种广泛使用的编程语言,因其易学易用而备受推崇。随着数据量的不断增加,数据分析和可视化也变得越来越重要。在这方面,PHP提供了许多强大的工具和技术,其中对象编程是其中之一。 对象编程是一种编程范式,它将数据和操作封装到一个对象中。...
    99+
    2023-09-05
    大数据 开发技术 对象
  • Javascript中JSON数据分组优化的示例分析
    小编给大家分享一下Javascript中JSON数据分组优化的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!现有一堆数据...
    99+
    2024-04-02
  • MySQL数据库性能优化之SQL优化的示例分析
    这篇文章将为大家详细讲解有关MySQL数据库性能优化之SQL优化的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。  注:这篇文章是以 MySQL 为背景,很多内容...
    99+
    2024-04-02
  • mysql数据库中my.cnf配置文件重要参数优化配置的示例分析
    小编给大家分享一下mysql数据库中my.cnf配置文件重要参数优化配置的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作