首页 > 资讯 > 后端开发 > Python >【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

933

分享到

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

python 开发语言 PySpark Spark PyCharm 原力计划 2023-08-30 23:08:57 933人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

文章目录一、RDD#sortBy 方法1、RDD#sortBy 语法简介2、RDD#sortBy 传入的函数参数分析二、代码示例 - RDD#sortBy 示例1、需求分析2、代码示例

文章目录

一、RDD#sortBy 方法
- 1、RDD#sortBy 语法简介
- 2、RDD#sortBy 传入的函数参数分析
二、代码示例 - RDD#sortBy 示例

一、RDD#sortBy 方法

1、RDD#sortBy 语法简介

RDD#sortBy 方法用于按照指定的键对 RDD 中的元素进行排序 , 该方法接受一个函数作为参数 , 该函数从 RDD 中的每个元素提取排序键 ;

根据传入 sortBy 方法的函数参数和其它参数 , 将 RDD 中的元素按升序或降序进行排序 , 同时还可以指定新的 RDD 对象的分区数 ;

RDD#sortBy 语法 :

sortBy(f: (T) ⇒ U, ascending: Boolean, numPartitions: Int): RDD[T]

参数说明 :
- f: (T) ⇒ U 参数 : 函数或 lambda 匿名函数 , 用于指定 RDD 中的每个元素的排序键 ;
- ascending: Boolean 参数 : 排序的升降设置 , True 生序排序 , False 降序排序 ;
- numPartitions: Int 参数 : 设置排序结果 ( 新的 RDD 对象 ) 中的分区数 ;
  - 当前没有接触到分布式 , 将该参数设置为 1 即可 , 排序完毕后是全局有序的 ;
返回值说明 : 返回一个新的 RDD 对象 , 其中的元素是按照指定的排序键进行排序的结果 ;

2、RDD#sortBy 传入的函数参数分析

RDD#sortBy 传入的函数参数类型为 :

(T) ⇒ U

T 是泛型 , 表示传入的参数类型可以是任意类型 ;

U 也是泛型 , 表示函数返回值的类型可以是任意类型 ;

T 类型的参数和 U 类型的返回值 , 可以是相同的类型 , 也可以是不同的类型 ;

二、代码示例 - RDD#sortBy 示例

1、需求分析

统计文本文件 Word.txt 中出现的每个单词的个数 , 并且为每个单词出现的次数进行排序 ;

Tom JerryTom Jerry TomJack Jerry Jack Tom

在这里插入图片描述

读取文件中的内容 , 统计文件中单词的个数并排序 ;

思路 :

先读取数据到 RDD 中 ,
然后按照空格分割开再展平 , 获取到每个单词 ,
根据上述单词列表 , 生成一个二元元组列表 , 列表中每个元素的键 Key 为单词 , 值 Value 为数字 1 ,
对上述二元元组列表进行聚合操作 , 相同的键 Key 对应的值 Value 进行相加 ;
将聚合后的结果的单词出现次数作为排序键进行排序 , 按照升序进行排序 ;

2、代码示例

对 RDD 数据进行排序的核心代码如下 :

# 对 rdd4 中的数据进行排序rdd5 = rdd4.sortBy(lambda element: element[1], ascending=True, numPartitions=1)

要排序的数据如下 :

[('Tom', 4), ('Jack', 2), ('Jerry', 3)]

按照上述二元元素的第二个元素进行排序 , 对应的 lambda 表达式为 :

lambda element: element[1]

ascending=True 表示升序排序 ,

numPartitions=1 表示分区个数为 1 ;

排序后的结果为 :

[('Jack', 2), ('Jerry', 3), ('Tom', 4)]

代码示例 :

"""Pyspark 数据处理"""# 导入 PySpark 相关包from pyspark import SparkConf, SparkContext# 为 PySpark 配置 python 解释器import osos.environ['PYSPARK_Python'] = "D:/001_Develop/022_Python/python39/python.exe"# 创建 SparkConf 实例对象 , 该对象用于配置 Spark 任务# setMaster("local[*]") 表示在单机模式下 本机运行# setAppName("hello_spark") 是给 Spark 程序起一个名字sparkConf = SparkConf() \    .setMaster("local[*]") \    .setAppName("hello_spark")# 创建 PySpark 执行环境 入口对象sparkContext = SparkContext(conf=sparkConf)# 打印 PySpark 版本号print("PySpark 版本号 : ", sparkContext.version)# 将 文件 转为 RDD 对象rdd = sparkContext.textFile("word.txt")print("查看文件内容 : ", rdd.collect())# 通过 flatMap 展平文件, 先按照 空格 切割每行数据为 字符串 列表#   然后展平数据解除嵌套rdd2 = rdd.flatMap(lambda element: element.split(" "))print("查看文件内容展平效果 : ", rdd2.collect())# 将 rdd 数据 的 列表中的元素 转为二元元组, 第二个元素设置为 1rdd3 = rdd2.map(lambda element: (element, 1))print("转为二元元组效果 : ", rdd3.collect())# 应用 reduceByKey 操作，#   将同一个 Key 下的 Value 相加, 也就是统计 键 Key 的个数rdd4 = rdd3.reduceByKey(lambda a, b: a + b)print("统计单词 : ", rdd4.collect())# 对 rdd4 中的数据进行排序rdd5 = rdd4.sortBy(lambda element: element[1], ascending=True, numPartitions=1)print("最终统计单词并排序 : ", rdd4.collect())# 停止 PySpark 程序sparkContext.stop()

3、执行结果

执行结果 :

D:\001_Develop\022_Python\Python39\python.exe D:/002_Project/011_Python/HelloPython/Client.py23/08/04 10:49:06 WARN shell: Did not find winutils.exe: java.io.FileNotFoundException: Could not locate hadoop executable: D:\001_Develop\052_Hadoop\hadoop-3.3.4\bin\winutils.exe -see https://wiki.apache.org/hadoop/windowsProblemsSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).PySpark 版本号 :  3.4.1查看文件内容 :  ['Tom Jerry', 'Tom Jerry Tom', 'Jack Jerry Jack Tom']查看文件内容展平效果 :  ['Tom', 'Jerry', 'Tom', 'Jerry', 'Tom', 'Jack', 'Jerry', 'Jack', 'Tom']转为二元元组效果 :  [('Tom', 1), ('Jerry', 1), ('Tom', 1), ('Jerry', 1), ('Tom', 1), ('Jack', 1), ('Jerry', 1), ('Jack', 1), ('Tom', 1)]D:\001_Develop\022_Python\Python39\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spillingD:\001_Develop\022_Python\Python39\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spillingD:\001_Develop\022_Python\Python39\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spillingD:\001_Develop\022_Python\Python39\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spilling统计单词 :  [('Tom', 4), ('Jack', 2), ('Jerry', 3)]D:\001_Develop\022_Python\Python39\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spillingD:\001_Develop\022_Python\Python39\Lib\site-packages\pyspark\python\lib\pyspark.zip\pyspark\shuffle.py:65: UserWarning: Please install psutil to have better support with spilling最终统计单词并排序 :  [('Jack', 2), ('Jerry', 3), ('Tom', 4)]Process finished with exit code 0

在这里插入图片描述

来源地址：https://blog.csdn.net/han1202012/article/details/132096941

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

本文链接: https://www.lsjlt.com/news/383833.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

【Python】PySpark 数据计算 ⑤ ( RDD#sortBy方法 - 排序 RDD 中的元素 )

文章目录一、RDD#sortBy 方法1、RDD#sortBy 语法简介2、RDD#sortBy 传入的函数参数分析二、代码示例 - RDD#sortBy 示例1、需求分析2、代码示例...

99+

2023-08-30

python 开发语言 PySpark Spark PyCharm 原力计划
【Python】PySpark 数据计算 ② ( RDD#flatMap 方法 | RDD#flatMap 语法 | 代码示例 )

文章目录一、RDD#flatMap 方法1、RDD#flatMap 方法引入2、解除嵌套3、RDD#flatMap 语法说明二、代码示例 - RDD#flatMap 方法 ...

99+

2023-08-31

python 原力计划
【Python】PySpark 数据计算 ③ ( RDD#reduceByKey 函数概念 | RDD#reduceByKey 方法工作流程 | RDD#reduceByKey 语法 | 代码示例 )

文章目录一、RDD#reduceByKey 方法1、RDD#reduceByKey 方法概念2、RDD#reduceByKey 方法工作流程3、RDD#reduceByKey 函数语法 ...

99+

2023-08-31

python Spark PySpark PyCharm reduceByKey 原力计划
【Python】PySpark 数据输入 ① ( RDD 简介 | RDD 中的数据存储与计算 | Python 容器数据转 RDD 对象 | 文件文件转 RDD 对象 )

文章目录一、RDD 简介1、RDD 概念2、RDD 中的数据存储与计算二、Python 容器数据转 RDD 对象1、RDD 转换2、转换 RDD 对象相关 API3、代码示例 - Py...

99+

2023-08-31

python 开发语言 Spark PySpark PyCharm 原力计划
【Python】PySpark 数据计算 ① ( RDD#map 方法 | RDD#map 语法 | 传入普通函数 | 传入 lambda 匿名函数 | 链式调用 )

文章目录一、RDD#map 方法1、RDD#map 方法引入2、RDD#map 语法3、RDD#map 用法4、代码示例 - RDD#map 数值计算 ( 传入普通函数 )5、代码示例 - ...

99+

2023-08-31

python PyCharm PySpark Spark map 原力计划
php数组元素排序的方法有哪些

这篇文章主要介绍php数组元素排序的方法有哪些，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！PHP中可使用array_multisort()、asort()、arsort()、krsort()、ksort()、nat...

99+

2023-06-15
php数据流中第K大元素的计算方式

本篇内容介绍了“php数据流中第K大元素的计算方式”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！设计一个找到数据流中第K大元素的类（clas...

99+

2023-06-20
php数据流中第K大元素的计算方法是什么

这篇文章主要介绍“php数据流中第K大元素的计算方法是什么”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“php数据流中第K大元素的计算方法是什么”文章能帮助大家解决...

99+

2024-04-02
javascript一维数组元素的和的计算方法

这篇文章将为大家详细讲解有关javascript一维数组元素的和的计算方法，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。方法：1、用“for(var i=0;i<数...

99+

2024-04-02
php数据流中第K大元素的计算方法及代码分析

设计一个找到数据流中第K大元素的类（class）。注意是排序后的第K大元素，不是第K个不同的元素。计算方法 1、直接使用最小堆，堆的大小为 k，这样保证空间占用最小，最小堆的根节点...

99+

2024-04-02
PHP计算数组元素乘积的方法有哪些

这篇文章主要介绍“PHP计算数组元素乘积的方法有哪些”，在日常操作中，相信很多人在PHP计算数组元素乘积的方法有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”PHP计算数组元素乘积的方法有哪些”的疑惑有所...

99+

2023-06-25
PHP怎么计算数据流中的第K大的元素

这篇文章主要讲解了“PHP怎么计算数据流中的第K大的元素”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“PHP怎么计算数据流中的第K大的元素”吧！利用最小堆的性质，该最小堆的根结点一定是所有结...

99+

2023-06-20
Pandas计算元素的数量和频率的方法(出现的次数)

目录pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表pandas.Series.value_counts():返回唯一元素的值及其在出...

99+

2023-02-22

Pandas计算元素数量 Pandas计算元素频率 Pandas计算元素
Python统计列表元素出现次数的方法示例

1. 引言在使用Python的时候，通常会出现如下场景： array = [1, 2, 3, 3, 2, 1, 0, 2] 获取array中元素的出现次数比如，上述...

99+

2024-04-02
python pandas 数据排序的几种常用方法

前言： pandas中排序的几种常用方法，主要包括sort_index和sort_values。基础数据： import pandas as pd import numpy as ...

99+

2024-04-02
Python数据分析Pandas Dataframe排序操作的方法

本文小编为大家详细介绍“Python数据分析Pandas Dataframe排序操作的方法”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python数据分析Pandas Dataframe排序操作的方法”文章能帮助大家...

99+

2023-06-30
PHP数组操作之计算数组所有元素和的方法是什么

这篇文章主要讲解了“PHP数组操作之计算数组所有元素和的方法是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“PHP数组操作之计算数组所有元素和的方法是什么”吧！通过for循环在我们之前的...

99+

2023-06-25
如何使用Python的count()函数计算列表中某个元素的数量

如何使用Python的count()函数计算列表中某个元素的数量，需要具体代码示例Python作为一种强大且易学的编程语言，提供了许多内置函数来处理不同的数据结构。其中之一就是count()函数，它可以用来计算列表中某个元素的数量。在本文中...

99+

2023-11-18

列表 Python 计算 count() 元素数量
MySQL中asc、desc数据排序的实现方法

这篇文章将为大家详细讲解有关MySQL中asc、desc数据排序的实现方法，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。数据排序 asc、desc1、单一字段排序orde...

99+

2024-04-02
C语言数据结构与算法排序的方法有哪些

这篇文章主要介绍“C语言数据结构与算法排序的方法有哪些”，在日常操作中，相信很多人在C语言数据结构与算法排序的方法有哪些问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”C语言数据结构与算法排序的方法有哪些”的疑...

99+

2023-06-22