iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >Pandas数据分析常用函数如何使用
  • 948
分享到

Pandas数据分析常用函数如何使用

2023-07-05 00:07:45 948人浏览 泡泡鱼
摘要

本篇内容介绍了“pandas数据分析常用函数如何使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Pandas是数据处理和分析过程中常用的p

本篇内容介绍了“pandas数据分析常用函数如何使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

Pandas是数据处理和分析过程中常用的python包,提供了大量能使我们快速便捷地处理数据的函数和方法,在此主要整理数据分析过程pandas包常用函数,以便查询。

一、数据导入导出

pandas提供了一些用于将表格型数据读取为DataFrame对象函数,如read_csv,read_table。输入pd.read后,按Tab键,系统将把以read开头的函数和模块都列出来,根据需要读取的文件类型选取。

#包的安装导入import pandas as pd#查询帮助文档pd.read_csv?#数据载入(仅罗列一部分常用参数)df = pd.read_csv(     filePath, #路径      sep=',',  #分隔符     encoding='UTF-8', #用于unicode的文本编码格式,如GBK,UTF-8     engine='Python',     header = None, #第一行不作为列名     names= [['col1','col2']], #字段名设置     index_col=None,      skiprows=None, #跳过行None     error_bad_lines=False #错误行忽略    )# 数据导出df.to_csv(filePath,           sep = ',',           index = False)

二、数据加工处理

1)重复值处理

# Pandas提供了duplicated、Index.duplicated、drop_duplicates函数来标记及删除重复记录#找出重复行位置dIndex = df.duplicated()#根据某些列找出重复位置dIndex = df.duplicated('id')dIndex = df.duplicated(['id', 'key'])#根据返回值提取重复数据df[dIndex]#删除重复行newdf = df.drop_duplicated()#去掉重复数据newdf = df.drop_duplicated(keep = False)#根据'key'字段去重,并保留重复key字段第一个##subset:指定的标签或标签序列,仅删除这些列重复值,默认情况为所有列##keep:确定要保留的重复值:first(保留第一次出现的重复值,默认)last(保留最后一次出现的重复值)False(删除所有重复值)newdf = df.drop_duplicated(subset = ['key'],keep = 'first')

2)缺失值处理

# 输出某列是否有为空值print(df.isnull().any(axis = 0))# 获取空值所在的行df[df.isnull().any(axis = 1)]# 空值填充df.fillna('未知')# 删除空值newDF = dropna(axis="columns",how="all",inplace=False) #how可选有any和all,any表示只要有空值出现就删除,all表示全部为空值才删除,inplace表示是否替换掉原本数据

3)空格处理

newName = df['name'].str.lstrip()newName = df['name'].str.rstrip()newName = df['name'].str.strip()

4)字段拆分

newDF = df['name'].str.split(' ', 1, True)

5)筛选数据

#单条件df[df.comments>10000]#多条件df[df.comments.between(1000, 10000)]#过滤空值所在行df[pandas.isnull(df.title)]#根据关键字过滤df[df.title.str.contains('台电', na=False)]#~为取反df[~df.title.str.contains('台电', na=False)]#组合逻辑条件df[(df.comments>=1000) & (df.comments<=10000)]

6)随机抽样

#设置随机种子numpy.random.seed(seed=2)#按照个数抽样data.sample(n=10)#按照百分比抽样data.sample(frac=0.02)#是否可放回抽样,#replace=True,可放回, #replace=False,不可放回data.sample(n=10, replace=True)

7)数据匹配

items = pandas.read_csv(    'D:\\PDA\\4.12\\data1.csv',     sep='|',     names=['id', 'comments', 'title'])prices = pandas.read_csv(    'D:\\PDA\\4.12\\data2.csv',     sep='|',     names=['id', 'oldPrice', 'nowPrice'])#默认只是保留连接上的部分itemPrices = pd.merge(    items,     prices,     left_on='id',     right_on='id',    how = 'left')#how:连接方式,有inner、left、right、outer,默认为inner;

8)数据合并

data = pd.concat([data1, data2, data3])

9)时间处理

data['时间'] = pandas.to_datetime(    data.注册时间,     fORMat='%Y/%m/%d')data['格式化时间'] = data.时间.dt.strftime('%Y-%m-%d')data['时间.年'] = data['时间'].dt.yeardata['时间.月'] = data['时间'].dt.monthdata['时间.周'] = data['时间'].dt.weekdaydata['时间.日'] = data['时间'].dt.daydata['时间.时'] = data['时间'].dt.hourdata['时间.分'] = data['时间'].dt.minutedata['时间.秒'] = data['时间'].dt.second

10)数据标准化

data['scale'] = round(    (        data.score-data.score.min()    )/(        data.score.max()-data.score.min()    )    , 2)

11)修改列名和索引

#将id列设为索引df = df.set_index('id')

12)排序

#选定列排序df.sort_values(by=['age', 'gender'], ascending=[False, True], inplace=True, ignore_index=True)

三、列表格式设置

pd.set_option('display.max_rows',xxx) # 最大行数pd.set_option('display.min_rows',xxx) # 最小显示行数pd.set_option('display.max_columns',xxx) # 最大显示列数pd.set_option ('display.max_colwidth',xxx) #最大列字符数pd.set_option( 'display.precision',2) # 浮点型精度pd.set_option('display.float_format','{:,}'.format) #逗号分隔数字pd.set_option('display.float_format',  '{:,.2f}'.format) #设置浮点精度pd.set_option('display.float_format', '{:.2f}%'.format) #百分号格式化pd.set_option('plotting.backend', 'altair') # 更改后端绘图方式pd.set_option('display.max_info_columns', 200) # info输出最大列数pd.set_option('display.max_info_rows', 5) # info计数null时的阈值pd.describe_option() #展示所有设置和描述pd.reset_option('all') #重置所有设置选项

“Pandas数据分析常用函数如何使用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: Pandas数据分析常用函数如何使用

本文链接: https://www.lsjlt.com/news/348534.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Pandas数据分析常用函数如何使用
    本篇内容介绍了“Pandas数据分析常用函数如何使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Pandas是数据处理和分析过程中常用的P...
    99+
    2023-07-05
  • Pandas数据分析常用函数的使用
    目录一、数据导入导出二、数据加工处理三、列表格式设置Pandas是数据处理和分析过程中常用的Python包,提供了大量能使我们快速便捷地处理数据的函数和方法,在此主要整理数据分析过程...
    99+
    2023-01-16
    Pandas数据分析 Pandas数据分析函数
  • pandas数据分析常用函数有哪些
    小编给大家分享一下pandas数据分析常用函数有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧! 导入模块import pandas as pd   ...
    99+
    2023-06-01
  • 如何使用pandas进行数据分析
    这篇文章主要介绍了如何使用pandas进行数据分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。(一)获取微信好友的数据为了获取微信好友的数据,需要使用一个工具,叫itcha...
    99+
    2023-06-19
  • Pandas数据透视的函数如何使用
    这篇文章主要介绍了Pandas数据透视的函数如何使用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Pandas数据透视的函数如何使用文章都会有所收获,下面我们一起来看看吧。pandas.melt()melt函数...
    99+
    2023-07-02
  • Pandas常用的数据结构和常用的数据分析技术
    目录DataFrame的应用窗口计算相关性判定Index的应用范围索引分类索引多级索引日期时间索引分组聚合数据透视表数据合并数据清洗数据可视化Pandas是一个强大的数据处理库,它提...
    99+
    2023-05-18
    Pandas数据结构 Pandas数据分析
  • 怎么在Python中使用pandas函数实现数据分析
    本篇文章给大家分享的是有关怎么在Python中使用pandas函数实现数据分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。python有哪些常用库python常用的库:1.r...
    99+
    2023-06-14
  • Python数据分析之NumPy常用函数使用详解
    目录文件读入1、保存或创建新文件 2、读取csv文件的函数loadtxt3、常见的函数4、股票的收益率等5、对数收益与波动率6、日期分析总结本篇我们将以分析历史股价为例,介...
    99+
    2024-04-02
  • 如何使用 PHP 函数进行数据分析?
    php 提供了广泛的函数,包括:数据聚合:计算数组元素总和(array_sum())数据排序:按升序/降序对数组进行排序(sort()/rsort())数据分组:根据键对数组进行分组(a...
    99+
    2024-05-04
    数据分析 php 数据排序
  • Pandas div()函数如何使用
    这篇“Pandas div()函数如何使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Pandas d...
    99+
    2023-07-05
  • Pandas数据操作及数据分析常用技术介绍
    目录DataFrame的应用数据分析统计描述缺失值处理异常值处理排序和Top-N分组聚合操作透视表和交叉表数据可视化Pandas是一个强大的数据分析工具,它提供了数据处理、清洗、转换...
    99+
    2023-05-18
    Pandas数据操作 Pandas数据分析
  • Python数据分析之pandas函数详解
    目录一、apply和applymap二、排序三、处理缺失数据一、apply和applymap 1. 可直接使用NumPy的函数 示例代码: # Numpy ufunc 函数 df...
    99+
    2024-04-02
  • Pandas数据分析之groupby函数用法实例详解
    目录正文一、了解groupby二、数据文件简介三、求各个商品购买量四、求各个商品转化率五、转化率最高的30个商品及其转化率小小の总结正文 今天本人在赶学校课程作业的时候突然发现gro...
    99+
    2024-04-02
  • pandas中如何使用join函数
    这篇文章主要介绍了pandas中如何使用join函数,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。joinjoin就有点想append之于concat,用于数据合并df.jo...
    99+
    2023-06-03
  • Python入门之使用pandas分析excel数据
    目录1.问题2.方案2.1.安装2.2.读写文件2.3.数据操作2.4.数据筛选2.5.数据写入2.6.数据删除3.讨论 总结1.问题 在python中,读写excel数据方法很多,...
    99+
    2024-04-02
  • Python怎么使用Pandas进行数据分析
    首先,确保您已经安装了Pandas库。如果没有,请使用以下命令安装:pip install pandas一. 导入Pandas库import pandas as pd二. 读取数据使用Pandas,可以方便地读取多种数据格式,包括CSV、E...
    99+
    2023-05-16
    Python Pandas
  • 如何利用 ASP 函数分析 numy 数据?
    ASP 函数是一种非常有用的工具,可以帮助我们在网页开发过程中快速处理数据和实现各种功能。在数据分析领域,我们经常需要对数据进行计算、筛选、排序等操作,而 numpy 是一个非常强大的 Python 库,可以帮助我们完成这些任务。本文将介绍...
    99+
    2023-07-25
    函数 大数据 numy
  • pandas函数如何在python中使用
    pandas函数如何在python中使用?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3...
    99+
    2023-06-14
  • merge()函数如何在Pandas中使用
    今天就跟大家聊聊有关merge()函数如何在Pandas中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。一、merge函数用途pandas中的merge()函数类似于SQL中jo...
    99+
    2023-06-14
  • Python实践之使用Pandas进行数据分析
    目录一. 导入Pandas库二. 读取数据三. 查看数据四. 选择数据五. 数据清洗六. 数据分析七. 数据可视化八. 导出数据九. 实战案例总结在数据分析领域,Python的Pan...
    99+
    2023-05-18
    Python Pandas数据分析 Pandas数据分析 Python Pandas
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作