首页 > 资讯 > 精选 >怎么进行spark的基本算子使用和源码解析

633

分享到

怎么进行spark的基本算子使用和源码解析

2023-06-02 13:06:39 633人浏览薄情痞子

摘要

这篇文章将为大家详细讲解有关怎么进行spark的基本算子使用和源码解析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。一.coalesce1.coalesce源码2.coalesce解释是窄依

这篇文章将为大家详细讲解有关怎么进行spark的基本算子使用和源码解析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

一.coalesce

1.coalesce源码

怎么进行spark的基本算子使用和源码解析

2.coalesce解释

是窄依赖由多变少shuffer默认是false，要注意

3.coalesce应用场景

解决小文件，例如你如果开始有200个文件对应20分区，你极端情况下你过滤变长一个文件，你不能还用200个分区去装吧用coalesce解决，主要就是把前面的压缩一下，但是过滤完后你要用coalesce必须实现做预估

怎么进行spark的基本算子使用和源码解析

4.上述的极端情况

你如果是xxx.oalesce(1),从源头就是1，不会像mr可以设置reduce的数量

5.注意事项用coalesce 中RDD的不可变性

下图说述的分区的大小a.partitions.size  你之前没有用变量接收coalesce 的值，是不会变得值

怎么进行spark的基本算子使用和源码解析

6.你传一个参数要小于默认分区才会生效

怎么进行spark的基本算子使用和源码解析

7.coalesce设置的参数大于默认的分区数不会生效，前提是一个参数

怎么进行spark的基本算子使用和源码解析

8.coalesce设置的参数大于默认的分区数生效

怎么进行spark的基本算子使用和源码解析

9.此问题对应的源码：

note With shuffle = true, you can actually coalesce to a larger number一般数不需要第二个参数的

二.repartition

1.源码：

怎么进行spark的基本算子使用和源码解析

2.底层调用的是coalesce，但是传两个参数，允许shuffer

3.由少变多

4.repartition与coalesce区别：

就是repartition底层调用coalesce两个参数

三.map方法使用

1.源码

怎么进行spark的基本算子使用和源码解析

2.解释

每个函数操作的对象是每个元素

3.注意事项

千万不要用于操作数据库，否则一个元素要拿个connect,太耗费资源

四.mapPartitions

1.源码

怎么进行spark的基本算子使用和源码解析

2.解释

每个函数作用在每个分区上，多用于操纵数据库，一个分区一个connect

五.foreach 与 foreachPartition

1.源码

怎么进行spark的基本算子使用和源码解析

2.解释

一个是打印每个元素，一个是按分区打印，都是action

3.注意事项

foreachPartition多用于操作数据库，存储结果

五.collect

1.源码

怎么进行spark的基本算子使用和源码解析

2.解释与注意事项

源码 返回数组，数组里包含所有元数数据小用可以，因为数据都会被放到内存里，输出到driver端的超过内存会报oom

3.driver端的OOM调整一些方法

把driver 调大一些，有局限性RDD中元素太大，抽取回driver会报OOP不可以用collect可以用take

4.collect注意数据量

collectcollectByKeycollectByValuecollectAsMap  结果集出来后变成map这些要看数据量要悠着点用，都要数据量少广播变量必须数据量少才可以用

六.take

1.源码

怎么进行spark的基本算子使用和源码解析

2.解释

面试常问take是全部扫描还是部分扫描：部分扫描从源码有体现

3.collect 与 take 注意

不确定数据有多大你可以先count一下如果少的情况下捏可以用collect，如果太多可以用take这些知识测试用要全部结果你可以保存到文件系统上去saveas...

七.groupByKey 与 reduceByKey

1.源码reduceByKey

怎么进行spark的基本算子使用和源码解析

2.源码groupByKey

怎么进行spark的基本算子使用和源码解析

3.reduceByKey测试代码

怎么进行spark的基本算子使用和源码解析

4.测试WEBUI截图

怎么进行spark的基本算子使用和源码解析

5.groupByKey测试代码

怎么进行spark的基本算子使用和源码解析

6.测试WEBUI截图

怎么进行spark的基本算子使用和源码解析

7.groupByKey与reduceByKey比较

groupByKey  比reduceByKey  数据大小明显变大，不如reduceByKey  性能好

怎么进行spark的基本算子使用和源码解析

8.groupByKey与reduceByKey shuffer截图比较

groupByKey   所有元素都shuffer

怎么进行spark的基本算子使用和源码解析

reduceByKey  在map阶段有一个聚合

怎么进行spark的基本算子使用和源码解析

关于怎么进行spark的基本算子使用和源码解析就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 怎么进行spark的基本算子使用和源码解析

本文链接: https://www.lsjlt.com/news/230196.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

怎么进行spark的基本算子使用和源码解析

这篇文章将为大家详细讲解有关怎么进行spark的基本算子使用和源码解析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。一.coalesce1.coalesce源码2.coalesce解释是窄依...

99+

2023-06-02
怎么进行Spark in action on Kubernetes - Spark Operator的原理解析

怎么进行Spark in action on Kubernetes - Spark Operator的原理解析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。前言...

99+

2023-06-02
详解Spring @Profile注解的使用和源码解析

目录介绍使用通过Environment设置profile通过JVM参数设置SpringBoot通过yml进行配置源码解析BeanDefinition注册shouldSkip源码Pro...

99+

2023-05-15

Spring @Profile注解使用 Spring @Profile注解 Spring @Profile
使用Flutter怎么对JSON进行解析

本篇文章为大家展示了使用Flutter怎么对JSON进行解析，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。Dart实体类格式class CategoryMo { Str...

99+

2023-06-14
Spring注解之@Import注解的使用和源码分析

目录介绍@Import导入bean的三种方式普通类ImportSelector接口ImportBeanDefinitionRegistrar接口源码解析总结介绍今天主要介...

99+

2023-05-16

Spring注解@Import Spring注解 @Import注解的使用注解@Import源码
详解PyCharm使用pyQT5进行GUI开发的基本流程

目录一、环境安装1、安装Pycharm2、安装pyQT53、创建工程二、配置扩展工具 1、配置Qt Designer2、配置转换工具三、GUI设计1、打开Qt Design...

99+

2024-04-02
JS盒子模型的基本属性怎么使用

这篇“JS盒子模型的基本属性怎么使用”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“JS盒子...

99+

2024-04-02
Spring很常用的@Conditional注解的使用场景和源码解析

目录介绍文件服务场景编码实现文件上传接口具体文件系统实现MinioStorageCondition条件判断源码解析总结介绍今天要分享的是Spring的注解@Conditional，...

99+

2023-05-17

Spring注解@Conditional使用场景和源码 Spring注解@Conditional
利用java怎么对集合的子集进行求解

利用java怎么对集合的子集进行求解？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。 java求解集合的子集的实例方式1:我们知道子集个数 2的n次方比如a,b,c...

99+

2023-05-31

java ava
怎么用linux系统more基本命令的实现python源码

本篇内容主要讲解“怎么用linux系统more基本命令的实现python源码”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么用linux系统more基本命令的实现python源码”吧!实现li...

99+

2023-06-02
怎么使用SAP事务码SAT进行UI应用的性能分析

这篇文章给大家介绍怎么使用SAP事务码SAT进行UI应用的性能分析，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。在测试过程中，您是否注意到SAT中的这个按钮？我们可以用它来跟踪不是后端发起的交易。假设我想要在搜索结果中...

99+

2023-06-04
Java中的子文本怎么利用正则表达式进行获取

Java中的子文本怎么利用正则表达式进行获取？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。具体方法如下：package cn.mingyuan.regexp.singlec...

99+

2023-05-31

java 正则表达式 ava
CentOS7中怎么对系统进行基本的性能监控和优化

在CentOS7中，可以使用以下工具来进行基本的系统性能监控和优化：使用top命令监控系统性能：top命令可以实时查看系统的C...

99+

2024-03-04

CentOS7
使用canvas怎么将二维码和图片进行合成

这期内容当中小编将会给大家带来有关使用canvas怎么将二维码和图片进行合成，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。实现思路是这样的使用jr-qrcode将url生成data:base64供img使...

99+

2023-06-09
怎么在Android中利用RSA算法进行加密和解密

这期内容当中小编将会给大家带来有关怎么在Android中利用RSA算法进行加密和解密，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。一、公钥加密和私钥解密 pu...

99+

2023-05-30

android rsa
如何使用 GO 语言和 BASH 脚本进行高效的日志分析？

日志分析是一项非常重要的任务，它可以帮助我们了解网站或应用程序的行为、错误和性能瓶颈。在这篇文章中，我们将探讨如何使用 GO 语言和 BASH 脚本来进行高效的日志分析。 GO 语言是一种高性能的编程语言，它非常适合处理大量的数据。它有着...

99+

2023-07-09

自然语言处理 bash 日志
Android应用中的html怎么利用jsoup进行解析

Android应用中的html怎么利用jsoup进行解析？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1.jsoup介绍jsoup 是一款Java 的HTML解析器，可直接...

99+

2023-05-31

jsoup roi html
Vue怎么使用ElemenUI对table的指定列进行合算

这篇文章主要介绍“Vue怎么使用ElemenUI对table的指定列进行合算”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Vue怎么使用ElemenUI对table的指定列进行合算”文章能帮助大家解...

99+

2023-07-05
怎么在Ubuntu和Elementary OS上使用NaSC进行简单数学运算

这篇文章主要讲解了“怎么在Ubuntu和Elementary OS上使用NaSC进行简单数学运算”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么在Ubuntu和Elementary OS上...

99+

2023-06-16
Java中的excel文件怎么利用POI进行解析

这篇文章给大家介绍Java中的excel文件怎么利用POI进行解析，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。1.导入POI相关jar包org.apache.poi jar2.代码示例public List getA...

99+

2023-05-31

java poi excel