iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python Pandas的简单使用教程
  • 465
分享到

Python Pandas的简单使用教程

PythonPandas使用PythonPandas 2022-06-02 22:06:46 465人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

一、  pandas简介 python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型

一、  pandas简介

python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

数据结构

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。

Time- Series:以时间为索引的Series。

DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。

Panel :三维的数组,可以理解为DataFrame的容器。

Pandas 有两种自己独有的基本数据结构。读者应该注意的是,它固然有着两种数据结构,因为它依然是 Python 的一个库,所以,Python 中有的数据类型在这里依然适用,也同样还可以使用类自己定义数据类型。只不过,Pandas 里面又定义了两种数据类型:Series 和 DataFrame,它们让数据操作更简单了。

二、Python Pandas的使用

修改列数据:


df['price']=df['price'].str.replace('人均','') # 删除多余文字
df['price']=df['price'].str.split("¥").str[-1] # 分割文本串
df['price']=df['price'].str.replace('-','0') # 替换文本
df['price']=df['price'].astype(int) # 文本转整型

把pandas转换int型为str型的方法

切分列数据:


df['kw']=df['commentlist'].str.split().str[0].str.replace("口味",'')
df['hj']=df['commentlist'].str.split().str[1].str.replace("环境",'')
df['fw']=df['commentlist'].str.split().str[2].str.replace("服务",'')

注意:pandas中操作如果不明确指定参数,则不会修改原数据,而是返回一个新对象。

删除列数据:


del df['commentlist']

排序列数据:


df.sort_values(by=['kw','price'],axis=0,ascending=[False,True],inplace=True) 

注意:排序前先用astype转换正确的类型,如str、int或float

重新设置索引列标签顺序:


df.columns=['类型','店铺名称','点评数量','星级','人均消费','店铺地址','口味','环境','服务']

打印前几行数据:


print(df.loc[:,['店铺名称','口味','人均消费']].head(6))
# 或者 # print(df.iloc[0:6,[1,6,4]]) # 前6行(整数)
# 但不能是 # print(df.loc[0:6,['店铺名称','口味','人均消费']]) # 从索引0到索引6的行(对象)

https://www.jb51.net/article/155602.htm

综合示例:

图例:

结果:

要求:

(1)对该数据中的comment、price进行数据清洗整理,‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

(2)将commentlist数据拆分为“口味”、“环境”和“服务”三列后再进行数据清洗整理,‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

(3)去除commentlist列数据‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

(4)将此数据按“口味”降序、“人均消费”升序进行排序,‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬

(5)输出排序后前6条数据中的“店铺名称”、“口味”和“人均消费”三列数据。

代码:


import pandas as pd 
df=pd.read_csv('spdata.csv',encoding='gbk')  #读入文件,编码为gbk # 注意编码,重要

#对数据进行清洗
df['comment']=df['comment'].str.replace('条点评','')
df['price']=df['price'].str.replace('人均','')
df['price']=df['price'].str.split("¥").str[-1]
df['price']=df['price'].str.replace('-','0')
df['price']=df['price'].astype(int)
df['kw']=df['commentlist'].str.split().str[0].str.replace("口味",'')
df['hj']=df['commentlist'].str.split().str[1].str.replace("环境",'')
df['fw']=df['commentlist'].str.split().str[2].str.replace("服务",'')
del df['commentlist']

#按口味降序,人均消费升序进行排序
df.sort_values(by=['kw','price'],axis=0,ascending=[False,True],inplace=True) 
#重新设置列索引标签
df.columns=['类型','店铺名称','点评数量','星级','人均消费','店铺地址','口味','环境','服务']

print(df.loc[:,['店铺名称','口味','人均消费']].head(6))

方法二:


import pandas as pd
df=pd.read_csv('spdata.csv',encoding='gbk')

df['comment']=df['comment'].str.replace('条点评','')
df['price']=df['price'].str.replace('人均','').str.replace('¥','').str.replace('-','0').str.replace(' ','').astype(int)
df[['kw','hj','fw']]=df['commentlist'].str.replace('口味','').str.replace('环境','').str.replace('服务','').str.split(expand=True).astype(float) # expand将普通的列表转为DataFrame对象
del df['commentlist']

df.sort_values(by=['kw','price'],axis=0,ascending=[False,True],inplace=True) # 注意inplace=True
df.columns=['类型','店铺名称','点评数量','星级','人均消费','店铺地址','口味','环境','服务']

print(df[['店铺名称','口味','人均消费']].head(6))

注意:df.str.split是列表,加了expand=True之后才是DataFrame对象,或者用.str[x]提取某一列,注意不是df.str.split()[x]而是df.str.split().str[x],前者是对list(二维)操作,后者是对DataFrame操作(取某一列)

到此这篇关于Python Pandas的简单使用教程的文章就介绍到这了,更多相关Python Pandas使用内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python Pandas的简单使用教程

本文链接: https://www.lsjlt.com/news/11196.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python Pandas的简单使用教程
    一、  Pandas简介 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型...
    99+
    2022-06-02
    Python Pandas使用 Python Pandas
  • Python中的pandas库简介及其使用教程
    目录pandas模块SeriesDateFrame常用方法处理缺失数据数据过滤绘图功能pandas模块 pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供...
    99+
    2022-11-13
    Python pandas库 Python pandas库使用 pandas库用法
  • python-docx的简单使用示例教程
    python-docx的简单使用 ''' 设置表格所有单元格的四个边为0.5磅,黑色,实线 可以使用返回值,也可以不使用 ''' def 设置表格网格线为黑色实线(table_obj...
    99+
    2023-05-18
    python-docx使用 python-docx
  • python中turtle库的简单使用教程
    Turtle库是Python中的一个绘图库,它可以在画布上绘制各种形状和图案。下面是一个简单的使用教程:1. 导入turtle库:在...
    99+
    2023-08-17
    Python
  • python对RabbitMQ的简单入门使用教程
    目录(一)RabbitMQ的简介(二)RabbitMQ的安装(三)python操作RabbitMQ(四)RabbitMQ简单模式(五)RabbitMQ发布订阅模式(六)RabbitM...
    99+
    2022-11-13
  • python编程Flask框架简单使用教程
    目录基础知识使用框架的优点Flask常用扩展包基本格式拓展return重定向取网址参数content-typecookie\sessionflask路由request属性上下文注册路...
    99+
    2022-11-12
  • w3af简单使用教程
    w3af简单使用教程w3af是一个Web应用程序***和检查框架.该项目已超过130个插件,其中包括检查网站爬虫,SQL注入(SQL Injection),跨站(XSS),本地文件包含(LFI),远程文件包含(RFI)等.该项目的目标是要建...
    99+
    2023-01-31
    简单 教程 w3af
  • butterfly简单使用教程
    butterfly 可以让你在浏览器中显示日常终端,喜欢吗?一起来试试吧。安装butterfly...
    99+
    2023-06-05
  • MySQL使用简单教程
    本文通过演示如何使用MySQL客户机程序创建和使用一个简单的数据库,允许连接到MySQL服务器、运行查询和查看结果。 mysql也可以在批处理模式下使用:预先将查询放在文件中,然后告诉mysql执行文件的内容。 要查看mysql提供的选项列...
    99+
    2023-08-17
    mysql 服务器 数据库
  • python Tkinter的简单入门教程
    目录设计代码逐步解释我们将编写一个英尺和米的转换程序,通过这个程序,我们将会了解一个真正的实用程序该怎么设计和编写,我们也将会了解到 Tk 程序内部的基本样子。不必完全掌握里面的所有...
    99+
    2022-11-12
  • Docker swarm 简单使用教程
    swarm 三台虚拟机 132,133,134 1.初始化一个集群 并把自己加入集群中 # 初始化主节点 docker swarm init --advertise-addr 1...
    99+
    2022-11-12
  • C# Chart 简单使用教程
    Chart控件可以用来绘制波形图、柱状图、饼图、折线图等,用来进行数据表现是很不错的,现在简单说一下这个控件的使用方法 XAML: <Window x:Class="WpfA...
    99+
    2022-11-21
    C# Chart使用 C# Chart
  • .NET HttpClient简单使用教程
    创建一个名为HttpClientTest的Web API项目 新建Clients文件夹,用于存放自定义的HttpClient 在Clients下新建一个MyHttpClient类...
    99+
    2022-11-12
  • Navicat For MySQL的简单使用教程
    1.前提是必须先安装好MySQL数据库(Mac下安装MySQL数据库见前一篇) 2.安装Navicat 3.点击navicate左上角:连接->MySQL->先测链接下,如果提示连接成功,就可以...
    99+
    2022-10-18
  • UsbEAm Hosts Editor简单使用教程
    USBAM Hosts Editor是一个用于编辑Windows主机文件的工具。它可以帮助用户轻松地添加、编辑或删除主机文件中的条目...
    99+
    2023-09-21
    使用
  • python爱心代码简单教程
    python爱心代码简单教程操作方法 1 将以上代码保存为.py文件,假设保存的文件名为 love.py (不会保存?先保存为txt文本,然后将后缀改为.py) 2 在终端(cmd命令窗口)输入python 空格 love.py的路径 回...
    99+
    2023-09-25
    python 开发语言
  • python中PIL安装简单教程
    python 的PIL安装是一件很头疼的的事, 如果你要在python 中使用图型程序那怕只是将个图片从二进制流中存盘(例如使用Scrapy 爬网存图),那么都会使用到 PIL 这库,而这个库是出名的难安装...
    99+
    2022-06-04
    简单 教程 python
  • Qt Creator使用教程的简单说明
    目录Qt Creator 欢迎界面Qt Creator 新建项目1)左边栏2) 代码编辑器Qt Creator 编辑 UIQt Creator 生成和运行程序Qt 在很长的一段时间内...
    99+
    2022-11-12
  • Python  Pandas教程之使用 pandas.read_csv() 读取 csv
    前言: Python 是一种用于进行数据分析的出色语言,主要是因为以数据为中心的 Python 包的奇妙生态系统。Pandas 就是其中之一,它使导入和分析数据变得更加容易。 大多数...
    99+
    2022-11-11
  • 教你使用Python写一个简单的JSONParser
    目录引言JSON TokenizerJSON Parser引言 最近在学习 Python 的正则表达式内容,我看的是官方的文档,在文档的最后有一个例子,勾起了我的兴趣。它是用正则表达...
    99+
    2023-05-14
    Python JSONParser 简单 JSONParser
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作