首页 > 资讯 > 后端开发 > Python >【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

265

分享到

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

python 原力计划 2023-08-31 13:08:13 265人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

文章目录一、RDD#flatMap 方法1、RDD#flatMap 方法引入2、解除嵌套3、RDD#flatMap 语法说明二、代码示例 - RDD#flatMap 方法

一、RDD#flatMap 方法

1、RDD#flatMap 方法引入

RDD#map 方法 可以将 RDD 中的数据元素逐个进行处理 , 处理的逻辑需要用外部通过参数传入 map 函数 ;

RDD#flatMap 方法 是在 RDD#map 方法的基础上 , 增加了 " 解除嵌套 " 的作用 ;

RDD#flatMap 方法 也是接收一个函数作为参数 , 该函数被应用于 RDD 中的每个元素及元素嵌套的子元素 , 并返回一个新的 RDD 对象 ;

2、解除嵌套

解除嵌套含义 : 下面的的列表中 , 每个元素都是一个列表 ;

lst = [[1, 2], [3, 4, 5], [6, 7, 8]]

如果将上述列表解除嵌套 , 则新的列表如下 :

lst = [1, 2, 3, 4, 5, 6, 7, 8]

RDD#flatMap 方法先对 RDD 中的每个元素进行处理 , 然后再将计算结果展平放到一个新的 RDD 对象中 , 也就是解除嵌套 ;

这样原始 RDD 对象中的每个元素 , 都对应新 RDD 对象中的若干元素 ;

3、RDD#flatMap 语法说明

RDD#flatMap 语法说明 :

newRDD = oldRDD.flatMap(lambda x: [element1, element2, ...])

旧的 RDD 对象 oldRDD 中 , 每个元素应用一个 lambda 函数 , 该函数返回多个元素 , 返回的多个元素就会被展平放入新的 RDD 对象 newRDD 中 ;

代码示例 :

# 将 字符串列表 转为 RDD 对象rdd = sparkContext.parallelize(["Tom 18", "Jerry 12", "Jack 21"])# 应用 map 操作，将每个元素 按照空格 拆分rdd2 = rdd.flatMap(lambda element: element.split(" "))

二、代码示例 - RDD#flatMap 方法

代码示例 :

"""PySpark 数据处理"""# 导入 PySpark 相关包from pyspark import SparkConf, SparkContext# 为 PySpark 配置 python 解释器import osos.environ['PYSPARK_Python'] = "Y:/002_WorkSpace/PyCharmProjects/pythonProject/venv/Scripts/python.exe"# 创建 SparkConf 实例对象 , 该对象用于配置 Spark 任务# setMaster("local[*]") 表示在单机模式下 本机运行# setAppName("hello_spark") 是给 Spark 程序起一个名字sparkConf = SparkConf() \    .setMaster("local[*]") \    .setAppName("hello_spark")# 创建 PySpark 执行环境 入口对象sparkContext = SparkContext(conf=sparkConf)# 打印 PySpark 版本号print("PySpark 版本号 : ", sparkContext.version)# 将 字符串列表 转为 RDD 对象rdd = sparkContext.parallelize(["Tom 18", "Jerry 12", "Jack 21"])# 应用 map 操作，将每个元素 按照空格 拆分rdd2 = rdd.flatMap(lambda element: element.split(" "))# 打印新的 RDD 中的内容print(rdd2.collect())# 停止 PySpark 程序sparkContext.stop()

执行结果 :

Y:\002_WorkSpace\PycharmProjects\pythonProject\venv\Scripts\python.exe Y:/002_WorkSpace/PycharmProjects/HelloPython/hello.py23/07/31 23:02:58 WARN shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: hadoop_HOME and hadoop.home.dir are unset. -see https://wiki.apache.org/hadoop/windowsProblemsSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).23/07/31 23:02:59 WARN NativeCodeLoader: Unable to load native-hadoop library for your platfORM... using builtin-java classes where applicablePySpark 版本号 :  3.4.1['Tom', '18', 'Jerry', '12', 'Jack', '21']Process finished with exit code 0

在这里插入图片描述

来源地址：https://blog.csdn.net/han1202012/article/details/132030548

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

本文链接: https://www.lsjlt.com/news/385730.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

文章目录一、RDD#flatMap 方法1、RDD#flatMap 方法引入2、解除嵌套3、RDD#flatMap 语法说明二、代码示例 - RDD#flatMap 方法 ...

99+

2023-08-31

python 原力计划
【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

文章目录一、RDD#reduceByKey 方法1、RDD#reduceByKey 方法概念2、RDD#reduceByKey 方法工作流程3、RDD#reduceByKey 函数语法 ...

99+

2023-08-31

python Spark PySpark PyCharm reduceByKey 原力计划
【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

文章目录一、RDD#sortBy 方法1、RDD#sortBy 语法简介2、RDD#sortBy 传入的函数参数分析二、代码示例 - RDD#sortBy 示例1、需求分析2、代码示例...

99+

2023-08-30

python 开发语言 PySpark Spark PyCharm 原力计划
【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

文章目录一、RDD#map 方法1、RDD#map 方法引入2、RDD#map 语法3、RDD#map 用法4、代码示例 - RDD#map 数值计算 ( 传入普通函数 )5、代码示例 - ...

99+

2023-08-31

python PyCharm PySpark Spark map 原力计划
C语言线性代数算法实现矩阵示例代码

目录C语言实现矩阵特殊矩阵特殊矩阵验证C语言实现矩阵矩阵作为一个结构体而言，至少要包含行数、列数以及数据。 #include <stdio.h> #include ...

99+

2024-04-02
Java使用System.currentTimeMillis()方法计算程序运行时间的示例代码

Java 中提供的 System.currentTimeMillis() 方法用于获取当前的计算机时间，时间的表达格式为当前计算机时间和 GMT 时间（格林威治时间）1970年1月1...

99+

2024-04-02
SQLSERVER查看数据库日志方法与语句示例代码(已亲测)

目录首先需要查看日志大小：方法一方法二总结SQLSERVER查看数据库日志方法和语句示例，已亲测。首先需要查看日志大小： EXEC sys.sp_enumerrorlogs; 可以获取存档编号（0指实时的），日期，日志...

99+

2023-03-02

sql server 查看数据库日志 sqlserver日志 sql数据库日志如何查看
Python解析JSON数据的基本方法实例代码

目录一、JSON数据格式介绍二、Python处理JSON数据json.dumpsjson.loads 语法总结一、JSON数据格式介绍 JSON(JavaSc...

99+

2024-04-02
聊聊GO初始化数据结构的方法（附代码示例）

本篇文章给大家介绍有关GO语言初始化数据结构的方法，GO里面提供了2个关键字来进行初始化数据结构，下面一起看看怎么使用吧~希望对大家有所帮助。使用 golang 进行编码过程中，你们都是如何初始化数据结构的呢？GO 里面提供了 2 个关键字...

99+

2023-05-14

初始化 Go go语言
php数据流中第K大元素的计算方法及代码分析

设计一个找到数据流中第K大元素的类（class）。注意是排序后的第K大元素，不是第K个不同的元素。计算方法 1、直接使用最小堆，堆的大小为 k，这样保证空间占用最小，最小堆的根节点...

99+

2024-04-02
Mybatis-Plus中getOne方法获取最新一条数据的示例代码

目录Mybatis-Plus中getOne方法获取最新一条数据一、代码1、Controller2、Service3、效果Mybatis-Plus中getOne方法获取最新一条数据一...

99+

2023-05-19

Mybatis-Plus获取最新一条数据 Mybatis-Plus getOne
【编程实践】Python 语言程序设计指南手册 (基础语法、代码示例、注释说明)

【编程实践】Python 语言程序设计指南手册 (基础语法、代码示例、注释说明) 文章目录【编程实践】Python 语言程序设计指南手册 (基础语法、代码示例、注释说明) 一、Pyth...

99+

2023-10-05

python 数学建模开发语言
C语言实现各种排序算法实例代码(选择,冒泡,插入,归并,希尔,快排,堆排序,计数)

目录前言选择排序冒泡排序插入排序归并排序希尔排序快速排序堆排序计数排序总结前言平时用惯了高级语言高级工具高级算法，难免对一些基础算法感到生疏。但最基础的排序算法...

99+

2024-04-02