iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python 文件读写和数据清洗
  • 855
分享到

python 文件读写和数据清洗

2024-04-02 19:04:59 855人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、文件操作1.1 csv文件读写1.2 excel文件读写二、数据清洗2.1 删除空值2.2 删除不需要的列2.3 删除不需要的行2.4 重置索引2.5 统计缺失2.6 排序一

一、文件操作

  • pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL
  • 使用read_csv方法读取,结果为dataframe格式
  • 在读取csv文件时,文件名称尽量是英文
  • 读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
  • 使用to_csv方法快速保存

1.1 csv文件读写

#读取文件,以下两种方式:
#使用pandas读入需要处理的表格及sheet页
import pandas as pd
df = pd.read_csv("test.csv",sheet_name='sheet1') #默认是utf-8编码
#或者使用with关键字
with open("test.csv",encoding="utf-8")as df: 
    #按行遍历
    for row in df:
        #修正
        row = row.replace('阴性','0').replace('00.','0.')
        ...
        print(row)

#将处理后的结果写入新表
#建议用utf-8编码或者中文gbk编码,默认是utf-8编码,index=False表示不写出行索引
df.to_csv('df_new.csv',encoding='utf-8',index=False) 

1.2 excel文件读写

#读入需要处理的表格及sheet页
df = pd.read_excel('测试.xlsx',sheet_name='test')  
df = pd.read_excel(r'测试.xlsx') #默认读入第一个sheet

#将处理后的结果写入新表
df1.to_excel('处理后的数据.xlsx',index=False)

二、数据清洗

2.1 删除空值

# 删除空值行
# 使用索引
df.dropna(axis=0,how='all')#删除全部值为空的行
df_1 = df[df['价格'].notna()] #删除某一列值为空的行
df = df.dropna(axis=0,how='all',subset=['1','2','3','4','5'])# 这5列值均为空,删除整行
df = df.dropna(axis=0,how='any',subset=['1','2','3','4','5'])#这5列值任何出现一个空,即删除整行

2.2 删除不需要的列

# 使用del, 一次只能删除一列,不能一次删除多列 
del df['sample_1']  #修改源文件,且一次只能删除一个
del df[['sample_1', 'sample_2']]  #报错

#使用drop,有两种方法:
#使用列名
df = df.drop(['sample_1', 'sample_2'], axis=1) # axis=1 表示删除列
df.drop(['sample_1', 'sample_2'], axis=1, inplace=True) # inplace=True, 直接从内部删除
#使用索引
df.drop(df.columns[[0, 1, 2]], axis=1, inplace=True) # df.columns[ ] #直接使用索引查找列,删除前3列

2.3 删除不需要的行

#使用drop,有两种方法:
#使用行名
df = df.drop(['行名1', '行名2']) # 默认axis=0 表示删除行
df.drop(['行名1', '行名2'], inplace=True) # inplace=True, 直接从内部删除
#使用索引
df.drop(df.index[[1, 3, 5]]) # df.index[ ]直接使用索引查找行,删除1,3,5行
df = df[df.index % 2 == 0]#删除偶数行

2.4 重置索引

#在删除了行列数据后,造成索引混乱,可通过 reset_index重新生成连续索引
df.reset_index()#获得新的index,原来的index变成数据列,保留下来
df.reset_index(drop=True)#不想保留原来的index,使用参数 drop=True,默认 False
df.reset_index(drop=True,inplace=True)#修改源文件
#使用某一列作为索引
df.set_index('column_name').head()

2.5 统计缺失

#每列的缺失数量
df.isnull().sum()
#每列缺失占比
df3.isnull().sum()/df.shape[0]
#每行的缺失数量
df3.isnull().sum(axis=1)
#每行缺失占比
df3.isnull().sum(axis=1)/df.shape[1]

2.6 排序

#按每行缺失值进行降序排序
df3.isnull().sum(axis=1).sort_values(ascending=False)
#按每列缺失率进行降序排序
(df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)

到此这篇关于python 文件读写和数据清洗的文章就介绍到这了,更多相关Python数据处理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python 文件读写和数据清洗

本文链接: https://www.lsjlt.com/news/120123.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python 文件读写和数据清洗
    目录一、文件操作1.1 csv文件读写1.2 excel文件读写二、数据清洗2.1 删除空值2.2 删除不需要的列2.3 删除不需要的行2.4 重置索引2.5 统计缺失2.6 排序一...
    99+
    2022-11-11
  • 如何用python清洗文件中的数据
    目录简单版使用filter读取utf-8带bom的文件多文件清洗清洗数据同时记录订单号并排序清洗sql文件,将数据表名放入excel中总结简单版 直接打开日志文件,往另外一个文件中按照要过滤的要求进行过滤 im...
    99+
    2022-06-02
    python 数据清洗
  • Python数据读写之Python读写CSV文件
    目录1. 读取CSV文件 csv.reader()2. 写入CSV文件1. 读取CSV文件 csv.reader() 该方法的作用相当于就是通过 ',' 分割csv格...
    99+
    2022-11-11
  • python文件读写(open参数,文件
    1.基本方法 文件读写调用open函数打开一个文件描述符(描述符的个数在操作系统是定义好的) python3情况下读写文件: f = open('py3.txt','wt',encoding='utf-8') f.write(...
    99+
    2023-01-31
    文件 参数 python
  • 如何在Python中进行数据清洗和处理
    如何在Python中进行数据清洗和处理数据清洗和处理是数据分析和挖掘过程中非常重要的一步。清洗和处理数据可以帮助我们发现数据中的问题、缺失或异常,并且为后续的数据分析和建模提供准备。本文将介绍如何使用Python进行数据清洗和处理,并提供具...
    99+
    2023-10-22
    Python编程(Python programming) 数据清洗(Data Cleaning) 数据处理(Data P
  • Python如何实现Excel数据的探索和清洗
    这篇文章主要介绍了Python如何实现Excel数据的探索和清洗,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python是什么意思Python是一种跨平台的、具有解释性、编...
    99+
    2023-06-14
  • Python读取和写入文件
    #Read and Write from Files##coding=utf-8import codecsf = open("AccountList.txt","w")L = u"张三\n李四\n王五\n赵六"f.write(L)f.clo...
    99+
    2023-01-31
    文件 Python
  • Python文件读写open函数详解
    前言: open()函数的定义:def open(file, mode='r', buffering=None, encoding=None, errors=None...
    99+
    2022-11-11
  • Python中文件的读取和写入
    读取整个文件 这里假设在当前目录下有一个文件名为’pi_digits.txt’的文本文件,里面的数据如下: 3.1415926535 8979323846 2643383279 with open('pi_digits.txt'...
    99+
    2023-01-31
    文件 Python
  • python文件怎么读取和写入
    这篇文章主要介绍了python文件怎么读取和写入的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python文件怎么读取和写入文章都会有所收获,下面我们一起来看看吧。1、读取,read()方法返回文件中保存的字符...
    99+
    2023-06-30
  • 【Python】Numpy用fromfile和tofile读写文件
    文章目录 tofilefromfile fromfile和tofile既可以读写二进制文件,也可以读写文本文件,是非常灵活的文件读取函数。 tofile 考虑到大家手头没有合适的文件以...
    99+
    2023-09-01
    python numpy 开发语言 fromfile tofile
  • C++文件的数据写入和文件的数据读取怎么实现
    这篇文章主要介绍了C++文件的数据写入和文件的数据读取怎么实现的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇C++文件的数据写入和文件的数据读取怎么实现文章都会有所收获,下面我们一起来看看吧。一:没有数据,准备...
    99+
    2023-07-02
  • Java利用FileUtils读取数据和写入数据到文件
    目录一、添加FileUtils依赖二、读入文件内容三、写入数据前言:用一行代码实现读取文件内容 代码如下: 一、添加FileUtils依赖    <!-- FileU...
    99+
    2022-11-12
  • C++文件的数据写入和文件的数据读取的方法实现
    目录一:没有数据,准备数据,写入文件二:读文件操作一:没有数据,准备数据,写入文件 1.main.cpp #include<iostream> using namespa...
    99+
    2022-11-13
  • python用pandas读写和追加csv文件
    目录csv文件一、创建csv文件二、读写csv文件1.基础python2.pandas三、追加csv文件1.基础python2.pandas总结csv文件 CSV文件是最常用的一个文...
    99+
    2022-11-13
  • Python的open函数文件读写线程不
    工作中遇到的问题:如何在多线程的程序中同时记录日志? 最初图省事,使用了最原始的open函数来写日志,因为开始使用的写文件模式的是追加('a'),发现并没有线程不安全的现象,各个线程的的日志信息都写入到了日志文件中。 后来将写文件模式改成...
    99+
    2023-01-31
    线程 函数 文件
  • Java如何利用FileUtils读取数据和写入数据到文件
    这篇文章将为大家详细讲解有关Java如何利用FileUtils读取数据和写入数据到文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码如下:一、添加FileUtils依赖    &n...
    99+
    2023-06-22
  • python怎么读取数据文件
    使用python读取文件数据的方法:1.新建python项目;2.导入pandas模块;3.使用pd.read方法读取文件数据;具体步骤如下:首先,打开python,并新建一个python项目;python项目创建好后,在项目中使用impo...
    99+
    2022-10-14
  • python从txt文件读取数据
      (作为一个python初学者,记录一点学习期间的笔记,方便日后查阅,若有错误或者更加便捷的方法,望指出!)  1、读取TXT文件数据,并对其中部分数据进行划分。一部分作为训练集数据,一部分作为测试集数据: def loadData(...
    99+
    2023-01-30
    文件 数据 python
  • 如何在python中读取和写入文件
    这期内容当中小编将会给大家带来有关如何在python中读取和写入文件,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作