广告
返回顶部
首页 > 资讯 > 后端开发 > Python >数据分析之pandas模块
  • 965
分享到

数据分析之pandas模块

模块数据pandas 2023-01-30 23:01:12 965人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

      一、Series   类似于一位数组的对象,第一个参数为数据,第二个参数为索引(索引可以不指定,就默认用隐式索引) Series(data=np.random.randint(1,50,(10,))) Series(data

 

 

  一、Series

  类似于一位数组的对象,第一个参数为数据,第二个参数为索引(索引可以不指定,就默认用隐式索引)

Series(data=np.random.randint(1,50,(10,)))
Series(data=[1,2,3],index=('a','b','c'))
dic={'math':88,'chinese':99,'english':50}
Series(data=dic)
对于data来说,可以是列表、np数组、字典,当用字典时,字典的key会成为行索引

  1,索引和切片

用中括号时,可以是显示索引,也可以是隐式索引
用句点符‘.’
用.loc[]时,只能有显示索引
用.iloc[]时,只能用隐式索引

  2,属性

  3,去重

  4,加法

  索引相同的加在一起,当索引不一致的项,就用NaN填充

  5,数据清洗

  主要用isnull()判断值是否为空,notnull()判断值是否不为空,返回的都是值为bool型的Series,然后把它作为索引,就可以把为False的值给删除。

  二、DataFrame

  DataFrame是一个表格型的数据结构,DataFrame由一定顺序排列的多列数据组成,设计初衷是将Series的使用场景从一维拓展到多维,DataFrame既有行索引index,也有列索引columns,值values。

  1,DataFrame的创建

  最常用的方法是传递一个字典,以字典的key为列索引,以每一个key对应的值作为对应列的数据,所以值应该是个列表。还可以指定行索引,但不可以指定列索引。

  2,索引和切片

  2.1 列索引

  2.2 行索引

  2.3 元素索引

  2.4 切片

  3,运算

  要保证行索引和列索引都一致才能运算,否则用NaN填充

  4,数据清洗

  4.1 用isnull(),notnull(),any(),all()搭配使用,得到一组bool值的Series,然后把它作为索引,就可以清洗为False的行

  4.2 还可以用drop(),drop系列的函数中,axis=1表示列,axis=0代表行,这和其他所有场景都是相反的

  4.3 上面两种清洗方法都是删除整行或者,整列,有时是不允许这样子删除。我也可以用fillna()来把空值给填上。当inplace参数设为Ture时,表示修改后的数据映射到原数据,相当于修改原数据。

  5,多层索引

  5.1 隐式构造,最常用的方法是给DataFrame构造函数的index或columns传递两个或多个数组。

  5.2 显式构造,用pd.MultiIndex.from_product

  5.3 索引和切片

  6,级联

pandas使用pd.concat(),与np.concatedate()类似,参数有些不同。
参数join:'outer'将所有的项进行级联(忽略匹配和不匹配),'inner'只会把匹配的项进行级联。

  由于在以后的级联的使用很多,因此有一个函数append专门用于在后面添加。

  7,合并

合并用merge().它和数据库中的链表差不多
merge和concat的区别在于,merge需要依据某一共同的列进行合并。
在使用merge时,会自动根据两者相同的columns,来合并
每一列元素不要求一致
参数:
how:out取并集,inner取交集
on:当两者有多列的名字相同时,我们想指定某一列进行合并,那我们就要把想指定列的名字赋给它
left_on和right_on:同时使用,当两者间没有共同的列名称时,可以分别指定

  8,删除重复元素

  使用duplicated()函数检测重复的行,返回元素为bool类型的Series对象,keep参数:指定保留哪一行重复的元素

  还可以使用drop_duplicates(),这也是drop系列函数。

  9 ,替换replace()

df.replace(to_replace=6,value='ww')   #把所有的6换成‘ww’
df.replace(to_replace={2:6},value='ww')  #把列索引为‘2’这列中‘6’换成‘ww’
df.replace(to_replace={2:6,3:9},value='ww')#把列索引为2中的6和列索引为3中的9换成‘ww’
df.replace(to_replace={6:'ww'})   #把所有的6换成‘ww’
df.replace(to_replace={6:'ww',1:'qq'})  #把所有的6换成‘ww’,把所有的1换成‘qq’

  10,映射

  10.1 用map()新建一列

  10.2 map()中还可以跟自定义函数

  11,排序

  使用take()函数排序,take接受一个索引列表,用数字表示,使得df会根据列表中索引的顺序进行排序

  还可以使用np.random.permutation()函数随机排序,它返回的是一个一维的随机数组,比如参数为10,就会产生0到9这10个数字,不重复的,顺序还是打乱的。

  当DataFrame规模足够大时,我们就可以借助它帮我们把数据打乱,然后用take函数实现随机抽样

values = df.take(np.random.permutation(1000),axis=0).take(np.random.permutation(3),axis=1).values
上面的代码是把1000行随机打乱,然后3列随机打乱 DataFrame(data=values)这就会映射会原数据,此时的原数据就是行和列都打乱的数据

  12,分类

   分类就是把数据分为几个组,然后我可以对每个组进行操作,这和数据库分类是一样的效果。使用的是groupby()函数,参数by是分类的依据,groups属性可以查看分组情况

  13,高级聚合

  在分组后可以用sum(),mean()等聚合函数,其次还可以跟transfORM和apply函数,再给这两个函数传一个自定义函数,就可以是聚合函数以外的功能。

--结束END--

本文标题: 数据分析之pandas模块

本文链接: https://www.lsjlt.com/news/181292.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 数据分析之pandas模块
          一、Series   类似于一位数组的对象,第一个参数为数据,第二个参数为索引(索引可以不指定,就默认用隐式索引) Series(data=np.random.randint(1,50,(10,))) Series(data...
    99+
    2023-01-30
    模块 数据 pandas
  • 数据分析之Pandas VS SQL!
    编辑:zone来源:数据管道作者:艾德宝器AbstractPandas是一个开源的Python数据分析库,结合 NumPy 和 Matplotlib 类库,可以在内存中进行高性能的数据清洗、转换、分析及可视化工作。对于数据开发工程师或分析师...
    99+
    2023-06-02
  • 数据分析利器之Pandas
    Pandas是一个python的开源库,它基于Numpy,提供了多种高性能且易于使用的数据结构。Pandas最初被用作金融数据分析工具而开发,由于它有着强大的功能,目前广泛应用于数据分析、机器学习以及量化投资等。下面来跟随作者一起认识下Pa...
    99+
    2023-06-02
  • Pandas数据分析之pandas文本处理
    目录前言文本数据类型字符操作文本格式文本对齐​文本计数和编码格式判断文本高级处理文本分割 文本切片选择 slice划分 partition文本替换指定位置替换重复替换文本连...
    99+
    2022-11-11
  • python数据分析之pandas数据选
      Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。   Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据...
    99+
    2023-01-30
    数据 python pandas
  • Python数据分析之pandas读取数据
    一、三种数据文件的读取 二、csv、tsv、txt 文件读取 1)CSV文件读取: 语法格式:pandas.read_csv(文件路径) CSV文件内容如下: import pandas as pd file...
    99+
    2022-06-02
    python pandas读取数据 pandas数据读取
  • Python数据分析库之pandas,你
    写这个系列背后的故事 咦,面试系列的把基础部分都写完啦,哈哈答,接下来要弄啥嘞~ pandas吧 外国人开发的 翻译成汉语叫 熊猫 厉害厉害,很接地气 一个基于numpy的库 干啥的? 做数据分析用的 而数据分析是python体系下一个...
    99+
    2023-01-31
    数据 Python pandas
  • Python Pandas模块实现数据的统计分析的方法
    一、groupby函数 Python中的groupby函数,它主要的作用是进行数据的分组以及分组之后的组内的运算,也可以用来探索各组之间的关系,首先我们导入我们需要用到的模块 import pandas as p...
    99+
    2022-06-02
    Pandas模块实现数据的统计分析 Python pandas
  • Pandas数据分析之pandas数据透视表和交叉表
    目录前言整理透视 pivot 聚合透视 Pivot Table 聚合透视高级操作交叉表crosstab()数据融合melt()数据堆叠 stack前言 panda...
    99+
    2022-11-11
  • Python数据分析之pandas函数详解
    目录一、apply和applymap二、排序三、处理缺失数据一、apply和applymap 1. 可直接使用NumPy的函数 示例代码: # Numpy ufunc 函数 df...
    99+
    2022-11-12
  • Python数据分析之pandas比较操作
    目录一、比较运算符和比较方法二、两个DataFrame比较三、两个Series比较四、与数字或字符串比较五、与array进行比较一、比较运算符和比较方法 比较运算符用于判断是否相等和比较大小,Python中的比较运算...
    99+
    2022-06-02
    Python pandas比较操作 python pandas比较运算符
  • Pandas数据分析之批量拆分/合并Excel
    目录前言一、假造数据二、程序演示 1、将一个大Excel等份拆成多个Excel2、合并多个小Excel到一个大Excel总结前言 笔者最近正在学习Pandas数据分析,将自...
    99+
    2022-11-12
  • 【数模之数据分析-1】
    数据分析之Numpy Array数组:相关程序运行如下: 索引与切片:与python大同小异,还是从0开始相关程序运行如下: 数值运算--array数组相关程序运行如下: 排序操作...
    99+
    2023-09-03
    数据分析 numpy python 程序人生6 数模
  • 【数模之数据分析-2】
    数据分析之Numpy 四则运算:相关程序运行如下: 随机模块:相关程序运行如下: 文件读写:相关程序运行如下: 数组保存:相关程序运行如下: Numpy练习题:1-打印当前Nu...
    99+
    2023-09-02
    数据分析 numpy python 程序人生6 数模
  • Python入门之使用pandas分析excel数据
    目录1.问题2.方案2.1.安装2.2.读写文件2.3.数据操作2.4.数据筛选2.5.数据写入2.6.数据删除3.讨论 总结1.问题 在python中,读写excel数据方法很多,...
    99+
    2022-11-12
  • Python大数据处理模块Pandas
    Pandas使用一个二维的数据结构DataFrame来表示表格式的数据,相比较于Numpy,Pandas可以存储混合的数据结构,同时使用NaN来表示缺失的数据,而不用像Numpy一样要手工处理缺失的数据,并且Pandas使用轴标签来表示行和...
    99+
    2023-01-31
    数据处理 模块 Python
  • Python中的pandas表格模块、文件模块和数据库模块
    目录一、Series数据结构1、Series的创建2、Series属性2、Series缺失数据处理二、DataFrame数据结构1、DataFrame的创建2、DataFrame属性...
    99+
    2022-11-11
  • Python高级数据分析之pandas和matplotlib绘图
    目录一、matplotlib 库二、Pandas绘图1.绘制简单的线型图1.1)简单的Series图表示例 .plot()1.2) 两个Series绘制的曲线可以叠加2.数据驱动的线...
    99+
    2022-11-13
  • Python数据分析之Pandas Dataframe如何自定义
    今天小编给大家分享一下Python数据分析之Pandas Dataframe如何自定义的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们...
    99+
    2023-06-30
  • Python数据分析之 Pandas Dataframe应用自定义
    目录前言:应用函数apply 方法applymap 方法前言: 在进行数据分析时,难免需要对数据集应用一些我们自定义的一些函数,或者其他库的函数,得到我们想要的数据,这种情况下,可能...
    99+
    2022-11-11
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作