Pyspark如何读取parquet数据

2023-06-03 18:06:28 943人浏览独家记忆

摘要

这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。可以跳过不符合条件的数据，只读取需要的数据，降低io数据量；压缩编码可以降低磁盘存储

这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

可以跳过不符合条件的数据，只读取需要的数据，降低io数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：

那么我们怎么在pyspark中读取和使用parquet数据呢？我以local模式，linux下的PyCharm执行作说明。

首先，导入库文件和配置环境：

import osfrom pyspark import SparkContext, SparkConffrom pyspark.sql.session import SparkSession os.environ["PYSPARK_python"]="/usr/bin/python3" #多个Python版本时需要指定 conf = SparkConf().setAppName('test_parquet')sc = SparkContext('local', 'test', conf=conf)spark = SparkSession(sc)

然后，使用spark进行读取，得到DataFrame格式的数据：host:port 属于主机和端口号

parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"df = spark.read.parquet(parquetFile)

而，DataFrame格式数据有一些方法可以使用，例如：

df.first() ：显示第一条数据，Row格式

print(df.first())

Pyspark如何读取parquet数据

df.columns：列名

df.count()：数据量，数据条数

df.topandas()：从spark的DataFrame格式数据转到Pandas数据结构

df.show()：直接显示表数据；其中df.show(n) 表示只显示前n行信息

type(df)：显数据示格式

Pyspark如何读取parquet数据

上述就是小编为大家分享的Pyspark如何读取parquet数据了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注编程网精选频道。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Pyspark如何读取parquet数据

本文链接: https://www.lsjlt.com/news/235435.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Pyspark如何读取parquet数据

这期内容当中小编将会给大家带来有关Pyspark如何读取parquet数据，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储...

99+

2023-06-03
R语言中如何读取Parquet文件

在R语言中，可以使用arrow包来读取Parquet文件。首先需要安装arrow包，然后使用arrow::read_parquet(...

99+

2024-04-08

R语言
Ajax如何读取数据

这篇文章给大家分享的是有关Ajax如何读取数据的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。拿出来我们上次准备好的东...

99+

2024-04-02
mysql如何读取数据库数据

mysql 读取数据库数据有两种常用方法：select 语句，用于从表中提取数据，语法为：select [列名] from [表名] [条件] [分组] [条件] [排序] [...

99+

2024-04-14

mysql python
spark中如何读取impala的parquet并对String串的处理

这篇文章给大家分享的是有关spark中如何读取impala的parquet并对String串的处理的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。读取impala的parquet，...

99+

2024-04-02
mysql如何读取脏数据

mysql 读取脏数据的方法：将事务隔离级别设置为 read uncommitted。该隔离级别允许读取其他并发事务未提交的修改。风险包括：数据不一致幻读问题建议仅在数据一致性不重要且对...

99+

2024-04-14

mysql
pandas如何读取mysql数据

目录pandas读取mysql数据pandas读取mysql数据到DataFrame方法一方法二总结pandas读取mysql数据 def get_data(): conn = pymysql.connect(host...

99+

2022-12-17

pandas读取mysql数据 pandasmysql数据 mysql数据读取
python中如何读取数据

python 中读取数据的方法有：从文件读取（打开、读入、逐行读取）从文本流读取（创建、写入、重置指针、读取）从 csv 文件读取（创建读取器、逐行读取）从 json 文件读取（加载数据...

99+

2024-04-02
python如何读取mongodb数据

要在Python中读取MongoDB数据，您可以使用PyMongo库。以下是一个简单示例：首先，确保您已经安装了PyMongo库。您...

99+

2023-08-23

python mongodb
vb如何读取sql数据库数据

在VB中读取SQL数据库数据可以使用ADO.NET技术。以下是一个简单示例代码：引用System.Data.SqlClient命...

99+

2024-04-19

vb sql
php如何从数据库读取数据

在PHP中，可以使用MySQLi或PDO扩展来连接和操作数据库。使用MySQLi扩展从数据库读取数据的示例代码如下：```php//...

99+

2023-08-23

php 数据库
ajax中如何读取Json数据

这篇文章将为大家详细讲解有关ajax中如何读取Json数据，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。一、基础知识什么是json？JSON 指的是 Jav...

99+

2024-04-02
Linq如何随机读取数据

这篇文章主要介绍了Linq如何随机读取数据，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。Linq随机读取数据在系统自由生成的o/p mapping代码中添加这个方法，如果是用...

99+

2023-06-17
pytorch如何读取csv数据集

要使用PyTorch读取CSV数据集，可以使用Python的pandas库来加载CSV文件，并将其转换为PyTorch张量。下面是一...

99+

2023-10-09

pytorch
mvc如何从数据库里读取数据

在MVC架构中，可以使用以下步骤从数据库中读取数据：1. 在模型层（Model）中，创建一个数据访问对象（DAO）或者数据访问层（D...

99+

2023-08-18

数据库
pycharm如何读取文件数据

pycharm 提供强大的功能来读取文件中存储的数据：打开文件：通过菜单栏打开 "file" > "open..."。读取文件内容：使用 open() 函数或 pathlib 库读...

99+

2024-04-19

python pycharm
python如何读取串口数据

在Python中，可以使用第三方库pyserial来读取串口数据。首先需要安装pyserial库，可以使用pip安装： pip in...

99+

2024-04-02
如何使用ADO.NET读取数据

小编给大家分享一下如何使用ADO.NET读取数据，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！ADO.NET还是比较常用的，于是我研究了一下ADO.NET读取数据...

99+

2023-06-17
C#中如何读取BLOB数据

今天就跟大家聊聊有关C#中如何读取BLOB数据，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。什么是 BLOB？BLOB 是二进制大对象（binary large object）的首字...

99+

2023-06-17
java如何读取excel表数据

在Java中读取Excel表的数据，可以使用Apache POI库来实现。Apache POI是一个流行的Java库，用于读写Mic...

99+

2023-09-22

java excel