SparkSQL关于性能调优选项详解

Spark SQL性能调优 Spark性能调优 2023-02-01 12:02:52 442人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录spark_sql性能调优性能调优选项几种压缩选项的特点可选的调优选项代码示例Spark_SQL性能调优众所周知，正确的参数配置对提升Spark的使用效率具有极大助力，帮助相关

Spark_SQL性能调优

众所周知，正确的参数配置对提升Spark的使用效率具有极大助力，帮助相关数据开发、分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业。

性能调优选项

选型	默认值	用途
spark.sql.codegen	false	设为 true 时，Spark SQL 会把每条查询词语在运行时编译为 Java 二进制代码。这可以提高大型查询的性能，但在进行小规模查询时会变慢
spark.sql.inMemoryColumnarStorage.compressed	false	自动对内存中的列式存储进行压缩
spark.sql.inMemoryColumnarStorage.batchSize	1000	列示缓存时的每个批处理的大小。把这个值调大可能会导致内存不够的异常
spark.sql.parquet.compression.codec	snappy	使用哪种压缩编码器。可选的选项包括 uncompressed/snappy/gzip/lzo

几种压缩选项的特点

spark.sql.parquet.compressed.codec 默认值为snappy 这个参数代表使用哪种压缩编码器。可选的选项包括uncompressed/snappy/gzip/lzo

uncompressed这个顾名思义就是不用压缩的意思

格式	可分割	平均压缩速度	文本文件压缩效率	hadoop压缩编解码器	纯java实现	原生	备注
snappy	否	非常快	低	org.apache.hadoop.io.compress.SnappyCodec	否	是	Snapp有纯java的移植版，但是在Spark/Hadoop中不能用
gzip	否	快	高	org.apache.hadoop.io.compress.GzipCodec	是	是
lzo	否	非常快	中等	org.apache.hadoop.io.compress.LzoCodec	是	是	需要在每个节点上安装LZO

可选的调优选项

Property Name	Default	Meaning
spark.sql.files.maxPartitionBytes	128 MB	读取文件时打包到单个分区的最大字节数
spark.sql.files.openCostInBytes	4 MB	打开一个文件的估计成本，取决于有多少字节可以被同时扫描，当多个文件放入一个 partition 时使用此方法。最好时过度估计，这样带有小文件的 partition 就会比带有大文件的 partition 快
spark.sql.broadcastTimeout	300	广播连接中等待时的超时时间（以秒为单位）
spark.sql.autoBroadcastJoinThreshold	10 MB	配置一个表的最大大小，以便在执行连接向所有节点广播，将该值设置为 -1 的话广播将会被禁用
spark.sql.shuffle.partitions	200	配置 partition 的使用数量当 shuffle 数据或聚合数据时

代码示例

初始化设置Spark Application配置

构建SparkSession实例对象

import org.apache.commons.lang3.SystemUtils
import org.apache.spark.SparkConf
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{DataFrame, SparkSession}
object PerfORManceTuneDemo {
	def main(args: Array[String]): Unit = {
		// 构建SparkSession实例对象，设置相关属性参数值
		val sparkConf = new SparkConf()
    		.setAppName(this.getClass.getSimpleName.stripSuffix("$"))
			.set("spark.sql.session.timeZone", "Asia/Shanghai")
			.set("spark.sql.files.maxPartitionBytes", "134217728")
			.set("spark.sql.files.openCostInBytes", "134217728")
			.set("spark.sql.shuffle.partitions", "3")
			.set("spark.sql.autoBroadcastJoinThreshold", "67108864")
		// 构建SparkSession实例对象
		val spark: SparkSession = SparkSession.builder()
    		.config(sparkConf)
			.getOrCreate()
	}
}

到此这篇关于Spark SQL关于性能调优选项详解的文章就介绍到这了,更多相关Spark SQL性能调优内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: SparkSQL关于性能调优选项详解

本文链接: https://www.lsjlt.com/news/193827.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

SparkSQL关于性能调优选项详解

目录Spark_SQL性能调优性能调优选项几种压缩选项的特点可选的调优选项代码示例Spark_SQL性能调优众所周知，正确的参数配置对提升Spark的使用效率具有极大助力，帮助相关...

99+

2023-02-01

Spark SQL性能调优 Spark性能调优
关于redis状态监控和性能调优详解

前言对于任何应用服务和组件，都需要一套完善可靠谱监控方案。尤其redis这类敏感的纯内存、高并发和低延时的服务，一套完善的监控告警方案，是精细化运营的前提。本文主要给大家介绍了关于redis状态监控和...

99+

2022-06-04

详解状态性能
怎么解析SparkSQL+SequoiaDB 性能调优策略

这篇文章将为大家详细讲解有关怎么解析SparkSQL+SequoiaDB 性能调优策略，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。下面介绍 Sequoia...

99+

2022-10-19
性能调优之java服务器容器调优详解

目录1.为什么要进行项目性能调优2.服务容器的性能调优2.1对SpringBoot中切入式的Tomcat调优：优化最大线程数调优说明：调优设置2.2网络IO模型调优调优设置2.3容器...

99+

2023-05-16

Java性能调优 Java服务器 Java服务器容器调优
关于MySQL性能调优你必须了解的15个重要变量(小结)

前言: MYSQL 应该是最流行了 WEB 后端数据库。虽然 NOSQL 最近越来越多的被提到，但是相信大部分架构师还是会选择 MYSQL 来做数据存储。本文作者总结梳理MySQL性能调优的15个重要变量，...

99+

2022-10-18
React.memo React.useMemo对项目性能优化使用详解

目录React.memo示例介绍使用FAQReact.memo 二次优化小结useMemo示例介绍使用FAQ何时使用？示例示例小结扩展useCallbackReact.memo 这...

99+

2023-01-17

React.memo React.useMemo性能优化 React memo useMemo
Java多线程异步调用性能调优方法详解

目录概述同步调用和异步调用Future类图Future的不足代码代码地址TestPaymentServiceCheckServiceOrderService总结概述大型电商公司的支...

99+

2022-11-13
MySQL性能分析、及调优工具使用详解

本文汇总了MySQL DBA日常工作中用到的些工具，方便初学者，也便于自己查阅。先介绍下基础设施（CPU、IO、网络等）检查的工具：vmstat、sar（sysstat工具包）、mpstat、oprofil...

99+

2022-10-18
MySQL数据库性能监控与调优的项目经验解析

MySQL数据库性能监控与调优的项目经验解析摘要：随着互联网技术的发展，大数据时代的到来，数据库在应用中扮演着至关重要的角色。本文通过一个实际项目经验，分享了在MySQL数据库性能监控与调优上的一些经验与心得，并提出了一些实用的解决方案。主...

99+

2023-11-02

MySQL 调优性能监控
JVM性能调优监控工具有哪些及其使用详解

这篇文章将为大家详细讲解有关JVM性能调优监控工具有哪些及其使用详解，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。现实企业级Java开发中，有时候我们会碰到下面这些问题：OutO...

99+

2023-06-03
MySQL数据库备份与恢复性能调优的项目经验解析

MySQL数据库备份与恢复性能调优的项目经验解析在日常运维中，MySQL数据库备份与恢复的工作是不可或缺的。然而，面对数TB甚至PB级别的数据规模，备份恢复所需的时间和资源消耗往往成为制约数据库性能的关键因素。本文将通过一个大型互联网企业备...

99+

2023-11-04

性能调优数据库恢复 MySQL备份
JVM（Java虚拟机）详解（JVM 内存模型、堆、GC、直接内存、性能调优）

JVM（Java虚拟机） JVM 内存模型结构图 jdk1.8 结构图（极简） jdk1.8 结构图（简单） JVM（Java虚拟机）：是一个抽象的计算模型。如同一台真实的机器，它有自己的指令集和执行引擎，可以在运行时操控内存区域。...

99+

2023-08-30

jvm GC 堆直接内存 jvm性能调优