首页 > 资讯 > 后端开发 > Python >python学习--DataFrame

667

分享到

python学习--DataFrame

python 开发语言 pandas 2023-10-02 05:10:49 667人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录一、DataFrame对象的创建 1、根据列表创建：情况1：由二维列表情况2：由元组tuple组成的列表情况3：由字典dict组成的列表情况4：由数组array组成的列表情况5：由序列series组成的列表 2、根据字典创

一、DataFrame对象的创建

1、根据列表创建：

行索引是index，列索引是columns

情况1：由二维列表

默认的 index 和 columns

import pandas as pddata = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]df = pd.DataFrame(data)print(df)

运行结果：

0 1 2
0 张三 23 男
1 李四 27 女
2 王二 26 女

指定索引ndex 和 columns值：

import pandas as pddata = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])print(df)

运行结果：

姓名年龄性别
a 张三 23 男
b 李四 27 女
c 王二 26 女

情况2：由元组tuple组成的列表

import pandas as pddata = [('张三', 23, '男'), ('李四', 27, '女'), ('王二', 26, '女')]df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])print(df)

运行结果：

姓名年龄性别
a 张三 23 男
b 李四 27 女
c 王二 26 女

情况3：由字典dict组成的列表

import pandas as pddata = [    {'姓名': '张三', '年龄': 23, '性别': '男'},     {'姓名': '李四', '年龄': 27, '性别': '男'},    {'姓名': '王二', '年龄': 26}]# 缺少的值自动添加NaNdf = pd.DataFrame(data)print(df)

运行结果：

姓名年龄性别
0 张三 23 男
1 李四 27 男
2 王二 26 NaN

情况4：由数组array组成的列表

import pandas as pdimport numpy as npdata = [    np.array(('张三', 23, '男')),    np.array(('李四', 27, '女')),    np.array(('王二', 26, '女'))]df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'])print(df)

运行结果：

姓名年龄性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

import pandas as pdimport numpy as npdata = [    np.array(('张三', '李四', '王二')),    np.array((23, 27, 26)),    np.array(('男', '女', '女'))]df = pd.DataFrame(data, index=['姓名', '年龄', '性别'])print(df)

运行结果：

0 1 2
姓名张三李四王二
年龄 23 27 26
性别男女女

情况5：由序列series组成的列表

import pandas as pddata = [    pd.Series(['张三', '李四', '王二'], index=['a', 'b', 'c']),    pd.Series([23, 27], index=['a', 'b']),    pd.Series(['男', '女', '女'], index=['a', 'b', 'c'])]# 序列里的index作为dataframe表的columns索引# 缺少值自动添加NaNdf = pd.DataFrame(data, index=['姓名', '年龄', '性别'])print(df)

运行结果：

a b c
姓名张三李四王二
年龄 23.0 27.0 NaN
性别男女女

2、根据字典创建：

该字典必须满足：每一个key对应的value长度都相同：

情况1：由元组tuple组成的字典

import pandas as pddata = {    '姓名': ('张三', '李四', '王二'),     '年龄': (23, 27, 26),     '性别': ('男', '女', '女')}df = pd.DataFrame(data)print(df)

运行结果：

姓名年龄性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

情况2：由列表list组成的字典

import pandas as pddata = {    '姓名': ['张三', '李四', '王二'],     '年龄': [23, 27, 26],    '性别': ['男', '女', '女']}df = pd.DataFrame(data)print(df)

运行结果：

姓名年龄性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

情况3：由字典dict组成的字典

import pandas as pddata = {'姓名': {'1': '张三', '2': '李四', '3': '王二'},        '年龄': {'1': 23, '2': 27, '3': 26},        '性别': {'1': '男', '2': '女', '3': '女'}        }# data.key 作为datafreme表的columns；# data.value中的key 作为dataframe表的indexdf = pd.DataFrame(data)print(df)

运行结果：

姓名年龄性别
1 张三 23 男
2 李四 27 女
3 王二 26 女

情况4：由数组array组成的字典

import pandas as pdimport numpy as npdata = {    '姓名': np.array(('张三', '李四', '王二')),     '年龄': np.array((23, 27, 26)),     '性别': np.array(('男', '女', '女'))}df = pd.DataFrame(data)print(df)

运行结果：

姓名年龄性别
0 张三 23 男
1 李四 27 女
2 王二 26 女

情况5：由序列series组成的字典

import pandas as pddata = {    '姓名': pd.Series(['张三', '李四', '王二'], index=['a', 'b', 'c']),     '年龄': pd.Series([23, 27], index=['a', 'b'])}  # 序列里的index作为dataframe表的index索引# 字典里的key作为dataframe表的columns索引df = pd.DataFrame(data)print(df)

运行结果：

姓名年龄
a 张三 23.0
b 李四 27.0
c 王二 NaN

情况6：由复合式的字典

import pandas as pddata = {'单位': '1', '姓名': ['张三', '李四', '王二'], '年龄': [23, 27, 26], '性别': ['男', '女', '女']}# 每行的单位列自动添加df = pd.DataFrame(data)print(df)

运行结果：

单位姓名年龄性别
0 1 张三 23 男
1 1 李四 27 女
2 1 王二 26 女

3、根据二维数组ndarray创建：

import pandas as pdimport numpy as nparray1 = np.array([['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']])df = pd.DataFrame(array1, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])print(df)

运行结果：

姓名年龄性别
a 张三 23 男
b 李四 27 女
c 王二 26 女

二、DataFrame常用属性

import pandas as pddata = {'姓名': ['张三', '李四', '王二'], '年龄': [23, 27, 26], '性别': ['男', '女', '女']}df = pd.DataFrame(data)# 返回对象数据形状 即：三行三列print(df.shape, '\n')# 返回序列的值print(df.values, '\n')# 返回行索引print(df.index, '\n')# 返回列索引print(df.columns, '\n')# 返回列标签(只针对dataframe数据结构)print(df.columns.tolist())# 返回元素数据类型print(df.dtypes, '\n')# 返回对象的维度print(df.ndim, '\n')# 返回对象的个数print(df.size, '\n')

三、DataFrame的访问

1、读取dataframe表中的行

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'])# df[row_index_start: row_index_end]  # # 左闭右开print(df1[0:1])  # 第1行print(df1[0:])  # 第1行及之后的行，df的全部数据print(df1[:2])  # 第3行之前的数据(不包含第3行)print(df1[1:3])  # 第2行到第3行（不含第4行）print(df1[-3:-1])  # 倒数第3行和倒数第2行,没有-0print(df1[-1:])  # 最后一行# # 左闭右闭print(df1['a':'a'])  # 第1行print(df1['a':'d'])  # 第1行及之后的行，df的全部数据print(df1[:'b'])  # 第3行之前的数据(不包含第3行)print(df1['b':'c'])  # 第2行到第3行（不含第4行）print(df1['d':])  # 最后一行# df[column_index][row_index]print(df1[['姓名', '年龄']][0:3])  #  第1列和第2列的第1行到第3行 数据# df.iloc[row_inde_位置, column_index_位置] print(df1.iloc[[1, 3], 0:2])   # 第2行和第4行，从第1列到第2列（左闭右开不包含第3列）的数据print(df1.iloc[1:3, [1, 2]])     # 第2行到第3行（不包含第1,4行），第2列和第3列的数据# df.loc[row_index, column_index]print(df1.loc[['b', 'd'], '姓名': '年龄'])  # 第2行和第4行，从第1列到第2列（左闭右开不包含第3列）的数据print(df1.loc['b': 'c', ['年龄', '性别']])   # 第2行到第3行（不包含第1,4行），第2列和第3列的数据

2、读取dataframe表中的列

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# df[[column_index_start, column_index_end]] print(df1['姓名'])  # 第1列print(df1[['姓名', '性别']])  # 第1列和第3列print(df1.loc[:, '姓名'])  # 第1列print(df1.iloc[:, 0])  # 第1列

3、读取dataframe表中的元素

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 读取第1行第2列 数据# df[column_index][row_index]print(df1['年龄'][0])  print(df1['年龄']['a'])  #  df.iloc[row_index_位置, column_index_位置] print(df1.iloc[0, 1]) # df.loc[row_index, column_index]print(df1.loc['a', '年龄'])  # df.iat[row_index, column_index]print(df1.iat[0, 1])# df.at[row_index, column_index]print(df1.at['a', '年龄'])

4、条件读取

df.loc[df['gender']=='m','name'] # 选取gender列是m，name列的数据
df.loc[df['gender']=='M',['name','age']] #选取gender列是m，name和age列的数据

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])  df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 读取姓名为‘李四’的‘性别’print(df1.loc[df1['姓名'] == '李四', '性别'])  # 读取性别是‘女’的 ‘姓名’和‘年龄’print(df1.loc[df1['性别'] == '女', ['姓名', '年龄']]) # 读取‘姓名’是‘张三’和‘王二’所在行的‘性别’print(df1.loc[(df1['姓名'] == '赵一') | (df1['姓名'] == '钱二'), '性别'])

注：df.iloc 和 df.loc 的区别

df.iloc[row_index位置, column_index位置]
df.loc[row_index, column_index]

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=[3, 2, 1, 0])print(df1.iloc[:3])  # 前3行数据print(df1.loc[:3])  # row_index = 3 那一行数据

运行结果：

df1.iloc[:3]：

姓名年龄性别
3 赵一 23 男
2 钱二 27 女
1 孙三 26 女

df1.loc[:3]：

姓名年龄性别
3 赵一 23 男

四、DataFrame数据修改

1、修改DataFrame表中的行

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 将第1行第2列改为 '19' 的四种方法df1['年龄'][0] = 19 df1['年龄']['a'] = 19df1.loc['a', '年龄'] = 19df1.iloc[0, 1] = 19  print(df1)

2、修改DataFrame表中的列

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']])df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 将第1行 改为 ['aa', 23, '女'] 的四种方法df1[0:1] = ['aa', 23, '女']df1['a':'a'] = ['aa', 23, '女']df1.loc['a'] = ['aa', 23, '女']df1.iloc[0, :] = ['aa', 23, '女']  print(df1)

3、修改DataFrame表中的元素

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 将第1列 改为[11, 12, 13, 14] 的三种方法df1['年龄'] = [11, 12, 13, 14]df1.loc[:, '年龄'] = [11, 12, 13, 14]df1.iloc[:, 1] = [11, 12, 13, 14]   print(df1)

五、遍历

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女'], ['孙三', 26, '女'], ['李四', 12, '男']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c', 'd'])# 读取‘姓名’列for i in df1.index:    print(df1['姓名'][i])# 读取第1行for j in df1.columns:    print(df1[j][0])# 读取每个元素for i in df1.index:    for j in df1.columns:        print(df1[j][i])

1、iterrows(): 按行遍历

iterrows(): 按行遍历，将DataFrame的每一行迭代为(index, Series)对，可以通过row[name]对元素进行访问。

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b'])for index, row in df1.iterrows():    print('index:', index)  # 输出每行的索引值    print('row:', row)  # 输出每行的值  row：    print('姓名年龄：', row['姓名'], row['年龄'])  # 输出每一行‘姓名’‘年龄’两列的值

运行结果：

index: a
row: 姓名赵一
        年龄 23
        性别男
        Name: a, dtype: object
姓名年龄：赵一 23
index: b
row: 姓名钱二
        年龄 27
        性别女
        Name: b, dtype: object
姓名年龄：钱二 27

2、itertuples(): 按行遍历

itertuples(): 按行遍历，将DataFrame的每一行迭代为元祖，可以通过row[name]对元素进行访问，比iterrows()效率高。

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b'])for row in df1.itertuples():    print(row)  # row：    print(getattr(row, '姓名'), getattr(row, '年龄'))   # 输出每一行‘姓名’‘年龄’两列的值

运行结果：

Pandas(Index='a', 姓名='赵一', 年龄='23', 性别='男') 赵一 23
Pandas(Index='b', 姓名='钱二', 年龄='27', 性别='女') 钱二 27

3、iteritems():按列遍历

iteritems():按列遍历，将DataFrame的每一列迭代为(列名, Series)对，可以通过row[index]对元素进行访问。

import pandas as pdimport numpy as nparr = np.array([['赵一', 23, '男'], ['钱二', 27, '女']]) df1 = pd.DataFrame(arr, columns=['姓名', '年龄', '性别'], index=['a', 'b'])for index, row in df1.iteritems():    print('列名:', index)  # 输出列名    print('每列的值:', row)  # row     print('每列的第1行的值：', row[0])  # 输出各列

运行结果：

列名: 姓名
每列的值: a 赵一
                b 钱二
                Name: 姓名, dtype: object
每列的第1行的值：赵一
列名: 年龄
每列的值: a 23
                b 27
                Name: 年龄, dtype: object
每列的第1行的值： 23
列名: 性别
每列的值: a 男
                b 女
                Name: 性别, dtype: object
每列的第1行的值：男

来源地址：https://blog.csdn.net/m0_60392490/article/details/121184960

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python学习--DataFrame

本文链接: https://www.lsjlt.com/news/422507.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python学习--DataFrame

目录一、DataFrame对象的创建 1、根据列表创建：情况1：由二维列表情况2：由元组tuple组成的列表情况3：由字典dict组成的列表情况4：由数组array组成的列表情况5：由序列series组成的列表 2、根据字典创...

99+

2023-10-02

python 开发语言 pandas
Python中的DataFrame模块学

　　本文是基于Windows系统环境，学习和测试DataFrame模块：　　Windows 10　　PyCharm 2018.3.5 for Windows (exe)　　python 3.6.8 Windows x86 executabl...

99+

2023-01-31

模块 Python DataFrame
Python学习

Python是创始人吉多•范罗苏姆（Guido van Rossum）在1989年圣诞节期间，在阿姆斯特丹，为了打发圣诞节的无趣，决心开发一个新的脚本解释程序，而在给自己新创造的计算机语言起名字的时候，由于其是，自于七十年代风靡全球的英国六...

99+

2023-01-31

Python
学习python

亲爱的朋友：欢迎你!很高兴能在这里见到你，你能来到这里说明你真的很喜欢python,很想把python给学好！我觉的你很幸运，开始我学python的时候比较少资料，学起来也比较头疼，现在随着python越来越流行，资料也越来越多，...

99+

2023-01-31

python
Python 学习

第一次学习python查阅的资料一，熟悉基本在正式介绍python之前，了解下面两个基本操作对后面的学习是有好处的：1）基本的输入输出可以在Python中使用+、-、*、/直接进行四则运算。11+3*3查看全部10（2）导入模块使用im...

99+

2023-01-31

Python
Python学习：Python form

从Python2.6 开始，新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。相对基本格式化输出采用‘%’的方法，format()功能更强大，该...

99+

2023-01-31

Python form
python学习笔记--趣学Python

由反弹球和球拍构成的游戏。球会在屏幕上飞过来，玩家要用球拍把它弹回去画布和画弹球引入模块 #Tkinter -- Python的标准GUI库，Tk 接口，是python 内置的安装包 from tkinter import * i...

99+

2023-01-31

学习笔记 python Python
python学习（day3）

1、集合的使用：#1、集合的操作： list_1 = [1,4,5,7,3,6,7,9] list_1 = set(list_1)#创建集合 list_2 = set([2,6,0,22,66,8,4]) print(list_1,typ...

99+

2023-01-31

python
Python学习day01

age = 23 count=0 while count<3: guess_age = int (input("My age:")) if age ==guess_age: print("n...

99+

2023-01-30

Python
python学习_18

字典字典是无序的字典的key只能是不可变对象，不能是list dict创建字典创建空字典，并赋值 d = {}d["name"] = "huhongqiang"d["sex"] = "M"d["height"] = 170d{'nam...

99+

2023-01-31

python
python学习（8）

退出双层循环：方式1：try--except try: for i in range(5): for j in range(5): if i==3 and j ==3: ...

99+

2023-01-31

python
Python学习-logging

Python的logging模块提供了通用的日志系统，可以方便第三方模块或者是应用使用。这个模块提供不同的日志级别，并可以采用不同的方式记录日志。logging的日志可以分为debug(),info(),warning(),error()和...

99+

2023-01-31

Python logging
python学习：Indentation

Python语言是一款对缩进非常敏感的语言，给很多初学者带来了困惑，即便是很有经验的Python程序员，也可能陷入陷阱当中。最常见的情况是tab和空格的混用会导致错误，或者缩进不对，而这是用肉眼无法分别的。在编译时会出现这样的错Indent...

99+

2023-01-31

python Indentation
Python学习（1）

一、基本语法: import 与 from...import 在 python中用import 或者from...import 来导入相应的模块。将整个模块(somemodule)导入，格式为：import somemodule 从...

99+

2023-01-30

Python
python学习（day4）

1、装饰器：''' 实现装饰器只是储备： 1、函数即“变量” 2、高阶函数 3、嵌套函数高阶函数+嵌套函数=》装饰器 ''' import time def timmer(func): def warpper(*args,**k...

99+

2023-01-31

python
Python学习教程（Python学习路线）：Python——SciPy精讲

Python学习教程（Python学习路线）：Python——SciPy精讲SciPy 是 Python 里处理科学计算 (scientific computing) 的包，使用它遇到问题可访问它的官网 (https://www.scipy...

99+

2023-06-02
python-flask学习

学习了一段时间python之后，因为一些现实要求和个人学习需要，所以开始对flask进行学习。找了一些博客和一本书《Flask Web开发》，书还没怎么仔细看，目前跟着博客学，还是有一些收获。下面将我觉得写的比较好的博客推荐一下。 duk...

99+

2023-01-30

python flask
python学习（二）

#浏览器GET请求，发送的参数有中文时，需要编码再拼接参数发送from urllib import requestimport urlliburl = r"http://www.baidu.com/s"#百度搜索浏览器userage...

99+

2023-01-31

python
python学习----------so

一、什么是socket？网络上的两个程序通过一个双向的通信连接实现的数据交换，这个连接的一端称为socket，socket通常也叫做"套接字"，用来描述ip地址和端口，是一个通信连的句柄，可以实现不同虚拟机和计算机之间的通信。一般在...

99+

2023-01-31

python
python学习(13)

random.uniform(a,b)随机生成a,b之间的一个浮点数 random.uniform(1,20)1.0130916166719703 习题1：生成[“z1”,”y2”,”x3”,”w4”,”v5”] #coding...

99+

2023-01-31

python