iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >PythonPandas处理CSV文件的常用技巧分享
  • 379
分享到

PythonPandas处理CSV文件的常用技巧分享

2024-04-02 19:04:59 379人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录读取pandas文件统计列值出现的次数筛选特定列值遍历数据行绘制直方图(柱状图)Pandas处理CSV文件,分为以下几步: 读取Pandas文件统计列值出现的次数筛选特定列值遍历

Pandas处理CSV文件,分为以下几步:

  • 读取Pandas文件
  • 统计列值出现的次数
  • 筛选特定列值
  • 遍历数据行
  • 绘制直方图(柱状图)

读取Pandas文件

df = pd.read_csv(file_path, encoding='GB2312')
print(df.info())

注意:Pandas的读取格式默认是UTF-8,在中文CSV中会报错:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 2: invalid continuation byte

修改编码为 GB2312 ,即可,或者忽略encode转义错误,如下:

df = pd.read_csv(file_path, encoding='GB2312')
df = pd.read_csv(file_path, encoding='unicode_escape')

df.info()显示df的基本信息,例如:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3840 entries, 0 to 3839
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   实验时间批次         3840 non-null   object 
 1   物镜倍数           3840 non-null   object 
 2   板子编号           3840 non-null   object 
 3   板子编号及物镜倍数      3840 non-null   object 
 4   图名称            3840 non-null   object 
 5   细胞类型           3840 non-null   object 
 6   板子孔位置          3840 non-null   object 
 7   孔拍摄位置          3840 non-null   int64  
 8   细胞培养基          3840 non-null   object 
 9   细胞培养时间(小时)     3840 non-null   int64  
 10  扰动类别           3840 non-null   object 
 11  扰动处理时间(小时)     3840 non-null   int64  
 12  扰动处理浓度(ug/ml)  3840 non-null   float64
 13  标注激活(1/0)      3840 non-null   int64  
 14  unique         3840 non-null   object 
 15  tvt            3840 non-null   int64  
dtypes: float64(1), int64(5), object(10)
memory usage: 480.1+ KB

统计列值出现的次数

df[列名].value_counts(),如df["扰动类别"].value_counts():

df["扰动类别"].value_counts()

输出:

coated OKT3                720
OKT3                       720
coated OKT3+anti-CD28      576
DMSO                       336
anti-CD28                  288
PBS                        288
Nivo                       288
Pemb                       288
empty                      192
coated OKT3 + anti-CD28    144
Name: 扰动类别, dtype: int64

直接绘制value_counts()的柱形图,参考Pandas - Chart Visualization:

import matplotlib.pyplot as plt
%matplotlib inline

plt.close("all")
plt.figure(figsize=(20, 8))
df["扰动类别"].value_counts().plot(kind="bar")
# plt.xticks(rotation='vertical', fontsize=10)
plt.show()

柱形图:

筛选特定列值

df.loc[筛选条件],筛选特定列值之后,重新赋值,只处理筛选值,也可以写入csv文件。

df_plate1 = df.loc[df["板子编号"] == "plate1"]
df_plate1.info()
# df.loc[df["板子编号"] == "plate1"].to_csv("batch3_iOStrain_klasses_utf8_plate1.csv")  # 存储CSV文件

注意:筛选的内外两个df需要相同,否则报错

pandas loc IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).

输出,数据量由3840下降为1280。

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1280 entries, 0 to 1279
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   实验时间批次         1280 non-null   object 
 1   物镜倍数           1280 non-null   object 
 2   板子编号           1280 non-null   object 
 3   板子编号及物镜倍数      1280 non-null   object 
 4   图名称            1280 non-null   object 
 5   细胞类型           1280 non-null   object 
 6   板子孔位置          1280 non-null   object 
 7   孔拍摄位置          1280 non-null   int64  
 8   细胞培养基          1280 non-null   object 
 9   细胞培养时间(小时)     1280 non-null   int64  
 10  扰动类别           1280 non-null   object 
 11  扰动处理时间(小时)     1280 non-null   int64  
 12  扰动处理浓度(ug/ml)  1280 non-null   float64
 13  标注激活(1/0)      1280 non-null   int64  
 14  unique         1280 non-null   object 
 15  tvt            1280 non-null   int64  
dtypes: float64(1), int64(5), object(10)
memory usage: 170.0+ KB

遍历数据行

for idx, row in df_plate1_lb0.iterrows():,通过row[“列名”],输出具体的值,如下:

for idx, row in df_plate1_lb0.iterrows():
    img_name = row["图名称"]
    img_ch_fORMat = img_format.format(img_name, "{}")
    for i in range(1, 7):
        img_path = os.path.join(plate1_img_folder, img_ch_format.format(i))
        img = cv2.imread(img_path)
        print('[Info] img shape: {}'.format(img.shape))
    break

输出:

[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)
[Info] img shape: (1080, 1080, 3)

绘制直方图(柱状图)

统计去除背景颜色的灰度图字典

# 去除背景颜色
pix_bkg = np.argmax(np.bincount(img_gray.ravel()))
img_gray = np.where(img_gray <= pix_bkg + 2, 0, img_gray)
img_gray = img_gray.astype(np.uint8)

# 生成数值数组
hist = cv2.calcHist([img_gray], [0], None, [256], [0, 256]) 
hist = hist.ravel()

# 数值字典
hist_dict = collections.defaultdict(int)
for i, v in enumerate(hist):
    hist_dict[i] += int(v)

# 去除背景颜色,已经都统计到0,所以0值非常大,删除0值,观察分布
hist_dict[0] = 0

绘制柱状图:

  • plt.subplots:设置多个子图,figsize背景尺寸,facecolor背景颜色
  • ax.set_title:设置标题
  • ax.bar:x轴的值,y轴的值
  • ax.set_xticks:x轴的显示间隔
  • plt.savefig:存储图像
  • plt.show:展示
fig, ax = plt.subplots(1, 1, figsize=(10, 8), facecolor='white')
ax.set_title('channel {}'.format(ci))
n_bins = 100
ax.bar(range(n_bins+1), [hist_dict.get(xtick, 0) for xtick in range(n_bins+1)])
ax.set_xticks(range(0, n_bins, 5))

plt.savefig(res_path)
plt.show()

效果:

到此这篇关于python Pandas处理CSV文件的常用技巧分享的文章就介绍到这了,更多相关Pandas处理CSV文件内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: PythonPandas处理CSV文件的常用技巧分享

本文链接: https://www.lsjlt.com/news/118617.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • PythonPandas处理CSV文件的常用技巧分享
    目录读取Pandas文件统计列值出现的次数筛选特定列值遍历数据行绘制直方图(柱状图)Pandas处理CSV文件,分为以下几步: 读取Pandas文件统计列值出现的次数筛选特定列值遍历...
    99+
    2024-04-02
  • CSS常用的技巧分享
    这篇文章主要讲解了“CSS常用的技巧分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“CSS常用的技巧分享”吧!Box-sizing尽管box-sizing...
    99+
    2024-04-02
  • Python处理CSV文件的高效方法与技巧
    python 提供了高效的 csv 模块来处理 csv 文件。可以通过以下步骤进行操作:安装 csv 模块。使用 csv.reader() 读取 csv 文件。逐行高效处理大文件。读写内...
    99+
    2024-04-03
    python csv csv文件
  • Python读取CSV数据的实用技巧分享
    python 中读取 csv 数据的方法分两种:内置 csv 模块,适用于小型 csv 文件,按行迭代数据;pandas 库,提供 read_csv() 函数,可轻松将 csv 数据加载...
    99+
    2024-04-04
    python csv
  • MyEclipse常用的使用技巧分享
    这篇文章主要介绍“MyEclipse常用的使用技巧分享”,在日常操作中,相信很多人在MyEclipse常用的使用技巧分享问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”MyEclipse常用的使用技巧分享”的疑...
    99+
    2023-06-17
  • linux系统常用的技巧分享
    这篇文章主要介绍“linux系统常用的技巧分享”,在日常操作中,相信很多人在linux系统常用的技巧分享问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”linux系统常用的技巧分享”的疑惑有所帮助!接下来,请跟...
    99+
    2023-06-13
  • 20个Python常用技巧分享
    目录1.字符串反转2.每个单词的第一个字母大写3. 字符串查找唯一元素4.重复打印字符串和列表n次5.列表生成6.变量交换7.字符串拆分为子字符串列表8.多个字符串组合为一...
    99+
    2023-05-14
    Python常用技巧分享 Python常用技巧 Python技巧
  • 常用的29个CSS小技巧分享
    本篇内容主要讲解“常用的29个CSS小技巧分享”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“常用的29个CSS小技巧分享”吧!1.清除图片下方出现几像素的空白间...
    99+
    2024-04-02
  • 分享常用的3个C++小技巧
    目录1、头文件是引用<iostream.h>还是<iostream>?2、逗号分割表达式3、在main函数之前运行代码1、头文件是引用<iostream...
    99+
    2024-04-02
  • 常用的JavaScript方法和技巧分享
    这篇文章主要讲解了“常用的JavaScript方法和技巧分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“常用的JavaScript方法和技巧分享”吧!常用...
    99+
    2024-04-02
  • Python轻松管理与操作文件的技巧分享
    目录一、读写文件二、遍历文件夹三、创建与删除文件夹四、文件路径操作五、总结一、读写文件 在 Python 中,我们可以使用 open() 函数打开文件,with 语句可以自动关闭文件...
    99+
    2023-05-19
    Python操作文件技巧 Python操作文件 Python 文件
  • 分享11个常用JavaScript小技巧
    目录1.通过条件判断向对象添加属性2.检查对象中是否存在某个属性3.解构赋值4.循环遍历一个对象的key和value5.使用可选链(Optionalchaining)避免访问对象属性...
    99+
    2024-04-02
  • 处理Oracle导入中文乱码问题的技巧分享
    处理Oracle导入中文乱码问题的技巧分享 在使用Oracle数据库进行数据导入的过程中,经常会遇到中文数据出现乱码的情况。这可能是由于字符集不匹配、数据源编码问题或者数据库配置错误等...
    99+
    2024-03-09
    字符集处理 编码规范 解码问题 sql语句
  • Python数据处理的三个实用技巧分享
    目录1 Pandas 移除某列2 统计标题单词数3 Genre 频次统计我使用的 Pandas 版本如下,顺便也导入 Pandas 库。 >>> import pa...
    99+
    2024-04-02
  • Python读取CSV文件的方法和技巧
    使用csv模块或pandas从csv文件中读取数据,csv模块提供基本接口,而pandas提供更高级的功能。技巧包括:使用sniffer确定分隔符,指定分隔符,处理缺失值,按块读取。实战...
    99+
    2024-04-03
    python csv文件 绘制图表
  • 分享ES6 20个经常使用技巧
    目录前言:1.打乱数组顺序2.删除数字之外的所有字符3.反转字符串或者单词4.将十进制转换为二进制文件或十六进制数5.合并多个对象6.=== 和 == ...
    99+
    2024-04-02
  • Python 异常处理技巧分享,让你成为代码高手
    : 错误处理: 错误处理是异常处理的基本环节。在Python中,使用try、except和finally来实现错误处理。try块包含要执行的代码,except块包含错误处理代码,finally块包含无论是否发生错误都执行的代码。例如:...
    99+
    2024-02-24
    :Python 异常处理 自定义异常 错误处理 日志记录
  • 十分钟教会你用Python处理CSV文件
    目录前言Python库:csv读取csv文件使用csv.reader读取数据使用csv.DictReader读取数据写入csv文件使用csv.writer写入数据使用csv.Dict...
    99+
    2024-04-02
  • 处理上传的 csv 文件
    编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天编程网就整理分享《处理上传的 csv 文件》,文章...
    99+
    2024-04-04
  • Pandas实用的技巧分享
    这篇文章主要讲解了“Pandas实用的技巧分享”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Pandas实用的技巧分享”吧!01 使用apply拆分文本Pandas 中 apply 函数,应...
    99+
    2023-06-15
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作