怎么解析spark的宽窄依赖和持久化

2023-06-02 13:06:30 200人浏览安东尼

摘要

本篇文章为大家展示了怎么解析spark的宽窄依赖和持久化，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。一.持久化官网1.官网位置截图2.cache 源码cache底层调用的是persisit&nbs

本篇文章为大家展示了怎么解析spark的宽窄依赖和持久化，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

一.持久化官网

1.官网位置截图

怎么解析spark的宽窄依赖和持久化

2.cache 源码

cache底层调用的是persisit  ，默认参数是StorageLevel.MEMORY_ONLYcache 用完最好手动干掉

怎么解析spark的宽窄依赖和持久化

3.StorageLevel源码

怎么解析spark的宽窄依赖和持久化

4.StorageLevel 解释

是否使用磁盘是否使用内存不管反序列化副本

5.persisit 可以传的参数

怎么解析spark的宽窄依赖和持久化

6.官网：怎么选择缓存？

怎么解析spark的宽窄依赖和持久化

7.上图解释

选择默认第一种MEMORY_ONLY 内存不够选怎序列化磁盘最好别选择不要用这个副本形式耗内存缓存选择：Spark’s storage levels are meant to provide different trade-offs （权衡）between memory usage and CPU efficiency.We recommend Going through the following process to select one: 选择方式    优先级从上到下    优先选择第一个MEMORY_ONLY ，内存实在不够就序列化    If your RDDs fit comfortably with the default storage level (MEMORY_ONLY), leave them that way 默认可以搞定就用默认的. This is the most CPU-efficient option, allowing operations on the RDDs to run as fast as possible.    不要选择java的序列化    If not, try using MEMORY_ONLY_SER and selecting a fast serialization library to make the objects much more space-efficient 空间很好, but still reasonably fast to access. (Java and Scala)    Don’t spill to disk 不要放到磁盘 unless the functions that computed your datasets are expensive, or they filter a large amount of the data. Otherwise, recomputing a partition may be as fast as reading it from disk.

二.宽窄依赖，血缘关系

1.总结

宽依赖用shufer宽窄依赖容错程度不一样一个shuffer产生两个stage，两个产生三个stage等等Lineage 血缘关系  用于容错很多都是记录的textfile =》 xx => yy描述的是一个RDD如何从父RDD过来的RDD作用一个函数就是对RDD里面的分区作用一个函数丢失了根据父RDD重新算一下dependence    宽依赖：一个父RDD的partition至多被子RDD的某个partition使用一次   没shuffer    pipline     丢一个就直接拿出来计算就可以    窄依赖：一个父RDD的parttiton会被子RDD的partitio使用多次    有shuffer    宽依赖挂掉了要从父RDD全部计算    有的时候解决数据倾斜需要shuffer    他们容错程度不一样的    有shuffer就会生成stage总结：老子被儿子用几次，多个孩子（宽）或单个孩子（窄）

2.driver

driver  就是main方法 中创建sparkcontextaction 产生job  ,shuffer 产生stage  ,stage 里是task

上述内容就是怎么解析spark的宽窄依赖和持久化，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程网精选频道。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 怎么解析spark的宽窄依赖和持久化

本文链接: https://www.lsjlt.com/news/230158.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

怎么解析spark的宽窄依赖和持久化

本篇文章为大家展示了怎么解析spark的宽窄依赖和持久化，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。一.持久化官网1.官网位置截图2.cache 源码cache底层调用的是persisit&nbs...

99+

2023-06-02
Spark中的窄依赖和宽依赖有什么区别

在Spark中，窄依赖和宽依赖是指不同的RDD之间的依赖关系。它们的区别在于如何执行操作和进行数据分区。窄依赖（Narrow ...

99+

2024-03-04

Spark
Spark中怎么实现数据缓存和持久化

在Spark中，可以通过使用RDD的persist()方法来实现数据缓存。persist()方法有多种级别，包括MEMORY_ONL...

99+

2024-03-14

Spark
MySQL持久化和回滚该怎么理解

这篇文章跟大家分析一下“MySQL持久化和回滚该怎么理解”。内容详细易懂，对“MySQL持久化和回滚该怎么理解”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下，希望阅读后能够对大家有所帮助。下面跟着小编一...

99+

2024-04-02
怎么进行spark的基本算子使用和源码解析

这篇文章将为大家详细讲解有关怎么进行spark的基本算子使用和源码解析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。一.coalesce1.coalesce源码2.coalesce解释是窄依...

99+

2023-06-02