Python 官方文档:入门教程 => 点击学习
文章目录 一、安装 PySpark1、使用 pip 安装 PySpark2、国内代理镜像3、PyCharm 中安装 PySpark 二、PySpark 数据处理步骤三、构建 PySpark
执行 windows + R , 运行 cmd 命令行提示符 ,
在命令行提示符终端中 , 执行
pip install pyspark
命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ;
安装完毕 :
命令行输出 :
C:\Users\octop>pip install pysparkCollecting pyspark Downloading pyspark-3.4.1.tar.gz (310.8 MB) |████████████████████████████████| 310.8 MB 126 kB/sCollecting py4j==0.10.9.7 WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProtocolError('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))': /packages/10/30/a58b32568f1623aaad7db22aa9eafc4c6c194b429ff35bdc55ca2726da47/py4j-0.10.9.7-py2.py3-none-any.whl Downloading py4j-0.10.9.7-py2.py3-none-any.whl (200 kB) |████████████████████████████████| 200 kB 1.1 MB/sUsing legacy setup.py install for pyspark, since package 'wheel' is not installed.Installing collected packages: py4j, pyspark Running setup.py install for pyspark ... doneSuccessfully installed py4j-0.10.9.7 pyspark-3.4.1WARNING: You are using pip version 20.1.1; however, version 23.2.1 is available.You should consider upgrading via the 'y:\001_developtools\015_python\python37\Python.exe -m pip install --upgrade pip' command.C:\Users\octop>
如果使用 官方的源 下载安装 PySpark 的速度太慢 ,
可以使用 国内的 镜像网站 https://pypi.tuna.tsinghua.edu.cn/simple/ ,
这是清华大学提供的源 ;
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
也可以参考 【Python】pyecharts 模块 ② ( 命令行安装 pyecharts 模块 | PyCharm 安装 pyecharts 模块 ) 博客 , 在 PyCharm 中 , 安装 PySpark ;
尝试导入 pyspack 模块中的类 , 如果报错 , 使用报错修复选项 , PyCharm 会自动安装 PySpark ;
PySpark 编程时 , 先要构建一个 PySpark 执行环境入口对象 , 然后开始执行数据处理操作 ;
数据处理的步骤如下 :
首先 , 要进行数据输入 , 需要读取要处理的原始数据 , 一般通过 SparkContext 执行环境入口对象 执行 数据读取操作 , 读取后得到 RDD 类实例对象 ;
然后 , 进行 数据处理计算 , 对 RDD 类实例对象 成员方法进行各种计算处理 ;
最后 , 输出 处理后的结果 , RDD 对象处理完毕后 , 写出文件 , 或者存储到内存中 ;
数据的初始形态 , 一般是 JSON 文件 , 文本文件 , 数据库文件 ;
通过 SparkContext 读取 原始文件 到 RDD 中 , 进行数据处理 ;
数据处理完毕后 , 存储到 内存 / 磁盘 / 数据库 中 ;
如果想要使用 PySpark 进行数据处理 , 必须构建一个 PySpark 执行环境入口对象 ;
PySpark 执行环境 入口对象 是 SparkContext 类实例对象 ;
首先 , 导入相关包 ;
# 导入 PySpark 相关包from pyspark import SparkConf, SparkContext
然后 , 创建 SparkConf 实例对象 , 该对象用于配置 Spark 任务 , 各种配置可以在链式调用中设置 ;
# 创建 SparkConf 实例对象 , 该对象用于配置 Spark 任务# setMaster("local[*]") 表示在单机模式下 本机运行# setAppName("hello_spark") 是给 Spark 程序起一个名字sparkConf = SparkConf()\ .setMaster("local[*]")\ .setAppName("hello_spark")
再后 , 创建 PySpark 执行环境 入口对象 ;
# 创建 PySpark 执行环境 入口对象sparkContext = SparkContext(conf=sparkConf)
最后 , 执行完 数据处理 任务后 , 调用 SparkContext#stop 方法 , 停止 Spark 程序 ;
# 停止 PySpark 程序sparkContext.stop()
代码示例 :
"""PySpark 数据处理"""# 导入 PySpark 相关包from pyspark import SparkConf, SparkContext# 创建 SparkConf 实例对象 , 该对象用于配置 Spark 任务# setMaster("local[*]") 表示在单机模式下 本机运行# setAppName("hello_spark") 是给 Spark 程序起一个名字sparkConf = SparkConf()\ .setMaster("local[*]")\ .setAppName("hello_spark")# 创建 PySpark 执行环境 入口对象sparkContext = SparkContext(conf=sparkConf)# 打印 PySpark 版本号print(sparkContext.version)# 停止 PySpark 程序sparkContext.stop()
执行结果 :
Y:\002_WorkSpace\PycharmProjects\pythonProject\venv\Scripts\python.exe Y:/002_WorkSpace/PycharmProjects/HelloPython/hello.py23/07/29 23:08:04 WARN shell: Did not find winutils.exe: java.io.FileNotFoundException: java.io.FileNotFoundException: hadoop_HOME and hadoop.home.dir are unset. -see Https://wiki.apache.org/hadoop/WindowsProblemsSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).23/07/29 23:08:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platfORM... using builtin-java classes where applicable3.4.1Process finished with exit code 0
来源地址:https://blog.csdn.net/han1202012/article/details/132000928
--结束END--
本文标题: 【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )
本文链接: https://www.lsjlt.com/news/424081.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
下载Word文档到电脑,方便收藏和打印~
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
一口价域名售卖能注册吗?域名是网站的标识,简短且易于记忆,为在线用户提供了访问我们网站的简单路径。一口价是在域名交易中一种常见的模式,而这种通常是针对已经被注册的域名转售给其他人的一种方式。
一口价域名买卖的过程通常包括以下几个步骤:
1.寻找:买家需要在域名售卖平台上找到心仪的一口价域名。平台通常会为每个可售的域名提供详细的描述,包括价格、年龄、流
443px" 443px) https://www.west.cn/docs/wp-content/uploads/2024/04/SEO图片294.jpg https://www.west.cn/docs/wp-content/uploads/2024/04/SEO图片294-768x413.jpg 域名售卖 域名一口价售卖 游戏音频 赋值/切片 框架优势 评估指南 项目规模
0