广告
返回顶部
首页 > 资讯 > 数据库 >Spark调优应该怎么做
  • 948
分享到

Spark调优应该怎么做

2024-04-02 19:04:59 948人浏览 泡泡鱼
摘要

今天就跟大家聊聊有关spark调优应该怎么做,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。  死锁的问题通过分析死锁日志文件解决了,由于上面一块错误

今天就跟大家聊聊有关spark调优应该怎么做,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

  死的问题通过分析死锁日志文件解决了,由于上面一块错误的认识。一直认为两个非唯一索引可以命中单条记录,其实Mysql为了性能命中了多条。

  一个简单的update语句,update?whereid1=1andid2=2id1和id2都是非唯一索引,这时有的语句会对因为优化导致上锁其他索引周边的数据条目,这时他会等待内建唯一索引的锁,而同样的语句会对内建唯一索引加锁,等待id1或者id2的锁,出现同一条语句回环等待锁的释放,导致死锁发生。

  以后还是需要多看一些数据库方面的书籍,对原理性知识了解的更多一些。

Spark中主要进程的作用?

  Driver进程:负责任务的分发和结果的回收。

  Executor进程:负责具体任务的执行。

  Master进程:Spark资源管理的主进程,负责资源调度。

  Worker进程:Spark资源管理的从进程,woker节点主要运行Executor

如何选择一种最合适的持久化策略?

  默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大,可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避免了这部分的性能开销;对这个RDD的后续算子操作,都是基于纯内存中的数据的操作,不需要从磁盘文件中读取数据,性能也很高;而且不需要复制一份数据副本,并远程传送到其他节点上。但是这里必须要注意的是,在实际的生产环境中,恐怕能够直接用这种策略的场景还是有限的,如果RDD中数据比较多时(比如几十亿),直接用这种持久化级别,会导致JVM的OOM内存溢出异常。

  如果使用MEMORY_ONLY级别时发生了内存溢出,那么建议尝试使用MEMORY_ONLY_SER级别。该级别会将RDD数据序列化后再保存在内存中,此时每个partition仅仅是一个字节数组而已,大大减少了对象数量,并降低了内存占用。这种级别比MEMORY_ONLY多出来的性能开销,主要就是序列化与反序列化的开销。但是后续算子可以基于纯内存进行操作,因此性能总体还是比较高的。此外,可能发生的问题同上,如果RDD中的数据量过多的话,还是可能会导致OOM内存溢出的异常。

  如果纯内存的级别都无法使用,那么建议使用MEMORY_AND_DISK_SER策略,而不是MEMORY_AND_DISK策略。因为既然到了这一步,就说明RDD的数据量很大,内存无法完全放下。序列化后的数据比较少,可以节省内存和磁盘的空间开销。同时该策略会优先尽量尝试将数据缓存在内存中,内存缓存不下才会写入磁盘。

  通常不建议使用DISK_ONLY和后缀为_2的级别:因为完全基于磁盘文件进行数据的读写,会导致性能急剧降低,有时还不如重新计算一次所有RDD。后缀为_2的级别,必须将所有数据都复制一份副本,并发送到其他节点上,数据复制以及网络传输会导致较大的性能开销,除非是要求作业的高可用性,否则不建议使用。

看完上述内容,你们对Spark调优应该怎么做有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注编程网数据库频道,感谢大家的支持。

您可能感兴趣的文档:

--结束END--

本文标题: Spark调优应该怎么做

本文链接: https://www.lsjlt.com/news/61693.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Spark调优应该怎么做
    今天就跟大家聊聊有关Spark调优应该怎么做,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。  死锁的问题通过分析死锁日志文件解决了,由于上面一块错误...
    99+
    2022-10-18
  • 怎么进行Spark的性能调优
    怎么进行Spark的性能调优,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。0、背景集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机...
    99+
    2023-06-19
  • Spark的核心调优参数是什么
    Spark的核心调优参数是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Spark的核心调优参数到都有哪些  num-ex...
    99+
    2022-10-19
  • Spark内存调优的方法是什么
    这篇文章主要介绍“Spark内存调优的方法是什么”,在日常操作中,相信很多人在Spark内存调优的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spark内存调优的方法是什么”的疑惑有所帮助!接下来...
    99+
    2023-07-05
  • MySQL 数据库巡检,DBA应该怎么做?
    一套正常运行的系统是一个复杂的系统工程,牵涉到主机、操作系统、网络、数据库、中间件、底层存储,还有系统的核心:应用。任何层面的故障都可能造成系统的不可用。 今天聊一聊数据库层面的巡检问题。 数据库巡检的目的:保障数据库的正常运行,保证数据的...
    99+
    2023-09-03
    数据库 网络 中间件
  • nodejs作业该怎么做
    Node.js作业该怎么做作为一名学习Node.js的学生,你可能会面临着不同难度的作业问题。本文将介绍如何针对Node.js作业进行备课、实践和把握重点。备课在开始Node.js作业前,我们需要先做好备课工作。备课可以帮助我们了解到课程的...
    99+
    2023-05-16
  • 小白变身优秀Java程序员该怎么做?
    很多初学Java的伙伴都有这样一个问题:该如何学习才能成为一个合格的Java程序员呢?如何学习才不会学到放弃呢?下面陕西优就业小优给大家整理了过来人的建议,希望能给大家带来帮助:1、做学习计划并保持自律:在学习中,尽量减少干扰,把你的全部注...
    99+
    2023-06-02
  • Spark SQL中出现CROSS JOIN 问题该怎么解决
    这篇文章将为大家详细讲解有关Spark SQL中出现CROSS JOIN 问题该怎么解决,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。问题显示如下所示:    ...
    99+
    2023-06-04
  • 新手拿到vps后应该做什么
    新手拿到vps后应该做的事情:1、需要修改vps的SSH默认端口,使用“vi /etc/ssh/sshd_config”命令打开配置文件进行修改;2、需要禁用root登陆,添加新账户,使用“vi /etc/ssh/sshd_config”命...
    99+
    2022-10-18
  • 制定混合云中的HPC战略,应该怎么做?
      如今,云计算几乎已成为所有企业基本的IT基础设施战略。去年Gartner预测,基础设施即服务(IaaS)的需求将增加36.8%。另外一家咨询公司在2018年的云调查显示,95%的企业都制定了云策略,其中51%采用混合云策略。  然而,尽...
    99+
    2023-06-04
  • SQL该怎么优化
    这篇文章主要讲解了“SQL该怎么优化”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“SQL该怎么优化”吧!一、避免进行null判断。 应尽量避免在 wher&...
    99+
    2022-10-19
  • gitlab拉取代码后该怎么做
    在学习使用Git版本控制工具的过程中,Giltab是一个经常使用的平台。当我们从Gitlab上拉取代码之后,接下来的一些操作是非常重要的。在本文中,我们将讨论在Gitlab上拉取代码后需要进行的操作。一、克隆代码要在Gitlab上拉取代码,...
    99+
    2023-10-22
  • 电脑重做系统后病毒还在应该怎么解决
    电脑重做系统后病毒还在应该怎么办? 如果排除网络侵入和优盘传入以及系统(或者一键备份)安装文件的问体——一般来说,就是非系统盘里潜伏的病毒,侵入了系统。最容易出现的是文件夹病毒或者usp10.dl...
    99+
    2023-05-26
    电脑 病毒 系统
  • 数组应该怎么用?
    文章目录 前言一、数组是什么?二、数组的创建1.数组的创建:2.数组的初始化 三.数组的遍历1.逐个打印2.使用for循环四.二维数组1.语法:2.遍历 五.数组的一些常用方法1.数组转换字符串2.数组拷贝3.二分查找4.冒...
    99+
    2023-08-30
    java
  • 关于Spark Streaming感知kafka动态分区的问题该怎么理解
    关于Spark Streaming感知kafka动态分区的问题该怎么理解,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。小编主要是讲解Spark Streaming与kafk...
    99+
    2023-06-19
  • java8异步调用该怎么使用
    这篇文章跟大家分析一下“java8异步调用该怎么使用”。内容详细易懂,对“java8异步调用该怎么使用”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“java8异步调用该怎么使用”...
    99+
    2023-06-29
  • BIRT中文本与 JSON 关联该怎么做
    这篇文章给大家介绍BIRT中文本与 JSON 关联该怎么做,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。BIRT对于两个数据源的联合提供了Joint DataSet的解决方案,它具有图形化的操作界面,可以完成简单的内外...
    99+
    2023-06-03
  • 怎么用java提交一个Spark应用程序
    本篇内容介绍了“怎么用java提交一个Spark应用程序”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!第一种方式首先用vim打开一个文件,M...
    99+
    2023-06-19
  • IDEA WordCount jar包上传spark是怎么调试及排错的
    这篇文章给大家介绍IDEA WordCount jar包上传spark是怎么调试及排错的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。Based on:Mac osSpark 2.4.3(Spark running o...
    99+
    2023-06-02
  • 应该怎么样备份mysql
    本文主要给大家介绍应该怎么样备份mysql,文章内容都是笔者用心摘选和编辑的,具有一定的针对性,对大家的参考意义还是比较大的,下面跟笔者一起了解下应该怎么样备份mysql吧。    &n...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作