iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python数据处理pandas读写操作IO工具CSV怎么使用
  • 134
分享到

Python数据处理pandas读写操作IO工具CSV怎么使用

2023-07-02 13:07:30 134人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

这篇“python数据处理pandas读写操作io工具CSV怎么使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Pytho

这篇“python数据处理pandas读写操作io工具CSV怎么使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python数据处理pandas读写操作IO工具CSV怎么使用”文章吧。

    前言

    pandasIO api 是一组顶层的 reader 函数,比如 pandas.read_csv(),会返回一个 pandas 对象。

    而相应的 writer 函数是对象方法,如 DataFrame.to_csv()

    注意:后面会用到 StringIO,请确保导入

    python3from io import StringIO# python2from StringIO import StringIO

    1 CSV 和文本文件

    读取文本文件的主要函数是 read_csv()

    1 参数解析

    read_csv() 接受以下常用参数:

    1.1 基础

    filepath_or_buffer: 变量

    • 可以是文件路径、文件 URL 或任何带有 read() 函数的对象

    sep: str,默认 ,,对于 read_table\t

    • 文件分隔符,如果设置为 None,则 C 引擎无法自动检测分隔符,而 Python 引擎可以通过内置的嗅探器工具自动检测分隔符。

    • 此外,如果设置的字符长度大于 1,且不是 '\s+',那么该字符串会被解析为正则表达式,且强制使用 Python 解析引擎。

    • 例如 '\\r\\t',但是正则表达式容易忽略文本中的引用数据。

    delimiter: str, 默认为 None

    • sep 的替代参数,功能一致

    1.2 列、索引、名称

    header: intlist, 默认为 'infer'

    • 用作列名的行号,默认行为是对列名进行推断:

      • 如果未指定 names 参数其行为类似于 header=0,即从读取的第一行开始推断。

      • 如果设置了 names,则行为与 header=None 相同。

    • 也可以为 header 设置列表,表示多级列名。如 [0,1,3],未指定的行(这里是 2)将会被跳过,如果 skip_blank_lines=True,则会跳过空行和注释的行。因此 header=0 并不是代表文件的第一行

    names: array-like, 默认为 None

    • 需要设置的列名列表,如果文件中不包含标题行,则应显式传递 header=None,且此列表中不允许有重复值。

    index_col: int, str, sequence of int/str, False, 默认为 None

    • 用作 DataFrame 的索引的列,可以字符串名称或列索引的形式给出。如果指定了列表,则使用 MultiIndex

    • 注意:index_col=False 可用于强制 pandas 不要将第一列用作索引。例如,当您的文件是每行末尾都带有一个分隔符的错误文件时。

    usecols: 列表或函数, 默认为 None

    • 只读取指定的列。如果是列表,则所有元素都必须是位置(即文件列中的整数索引)或字符串,这些字符串必须与 names 参数提供的或从文档标题行推断出的列名相对应。

    • 列表中的顺序会被忽略,即 usecols=[0, 1] 等价于 [1, 0]

    • 如果是可调用函数,将会根据列名计算,返回可调用函数计算为 True 的名称

    In [1]: import pandas as pdIn [2]: from io import StringIOIn [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"In [4]: pd.read_csv(StringIO(data))Out[4]:   col1 col2  col30    a    b     11    a    b     22    c    d     3In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])Out[5]:   col1  col30    a     11    a     22    c     3

    使用此参数可以大大加快解析时间并降低内存使用

    squeeze: boolean, 默认为 False

    • 如果解析的数据只包含一列,那么返回一个 Series

    prefix: str, 默认为 None

    • 当没有标题时,添加到自动生成的列号的前缀,例如 'X' 表示 X0, X1...

    mangle_dupe_cols: boolean, 默认为 True

    • 重复的列将被指定为 'X','X.1'…'X.N',而不是 'X'... 。如果在列中有重复的名称,传递 False 将导致数据被覆盖

    1.3 常规解析配置

    dtype: 类型名或类型字典(column -> type), 默认为 None

    • 数据或列的数据类型。例如。 {'a':np.float64,'b':np.int32}

    engine: {'c', 'python'}

    • 要使用的解析器引擎。C 引擎更快,而 Python 引擎目前功能更完整

    converters: dict, 默认为 None

    • 用于在某些列中对值进行转换的函数字典。键可以是整数,也可以是列名

    true_values: list, 默认为 None

    • 数据值解析为 True

    false_values: list, 默认为 None

    • 数据值解析为 False

    skipinitialspace: boolean, 默认为 False

    • 跳过分隔符之后的空格

    skiprows: 整数或整数列表, 默认为 None

    • 在文件开头要跳过的行号(索引为 0)或要跳过的行数

    • 如果可调用函数,则对索引应用函数,如果返回 True,则应跳过该行,否则返回 False

    In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"In [7]: pd.read_csv(StringIO(data))Out[7]:   col1 col2  col30    a    b     11    a    b     22    c    d     3In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)Out[8]:   col1 col2  col30    a    b     2

    skipfooter: int, 默认为 0

    • 需要跳过文件末尾的行数(不支持 C 引擎)

    nrows: int, 默认为 None

    • 要读取的文件行数,对于读取大文件很有用

    memory_map: boolean, 默认为 False

    • 如果为 filepath_or_buffer 参数指定了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何 I/O 开销

    1.4 NA 和缺失数据处理

    na_values: Scalar, str, list-like, dict, 默认为 None

    • 需要转换为 NA 值的字符串

    keep_default_na: boolean, 默认为 True

    • 解析数据时是否包含默认的 NaN 值。根据是否传入 na_values,其行为如下

    • keep_default_na=True, 且指定了 na_values, na_values 将会与默认的 NaN 一起被解析

    • keep_default_na=True, 且未指定 na_values, 只解析默认的 NaN

    • keep_default_na=False, 且指定了 na_values, 只解析 na_values 指定的 NaN

    • keep_default_na=False, 且未指定 na_values, 字符串不会被解析为 NaN

    注意:如果 na_filter=False,那么 keep_default_nana_values 参数将被忽略

    na_filter: boolean, 默认为 True

    • 检测缺失值标记(空字符串和 na_values 的值)。在没有任何 NA 的数据中,设置 na_filter=False 可以提高读取大文件的性能

    skip_blank_lines: boolean, 默认为 True

    • 如果为 True,则跳过空行,而不是解释为 NaN

    1.5 日期时间处理

    parse_dates: 布尔值、列表或嵌套列表、字典, 默认为 False.

    • 如果为 True -> 尝试解析索引

    • 如果为 [1, 2, 3] -> 尝试将 1, 2, 3 列解析为分隔的日期

    • 如果为 [[1, 3]] -> 将 1, 3 列解析为单个日期列

    • 如果为 {'foo': [1, 3]} -> 将 1, 3 列作为日期并设置列名为 foo

    infer_datetime_fORMat: 布尔值, 默认为 False

    • 如果设置为 True 且设置了 parse_dates,则尝试推断 datetime 格式以加快处理速度

    date_parser: 函数, 默认为 None

    • 用于将字符串序列转换为日期时间实例数组的函数。默认使用 dateutil.parser.parser 进行转换,pandas 将尝试以三种不同的方式调用 date_parser

      • 传递一个或多个数组(parse_dates 定义的列)作为参数;

      • parse_dates 定义的列中的字符串值连接到单个数组中,并将其传递;

      • 使用一个或多个字符串(对应于 parse_dates 定义的列)作为参数,对每一行调用 date_parser 一次。

    dayfirst: 布尔值, 默认为 False

    • DD/MM 格式的日期

    cache_dates: 布尔值, 默认为 True

    • 如果为 True,则使用唯一的、经过转换的日期缓存来应用 datetime 转换。

    • 在解析重复的日期字符串,特别是带有时区偏移量的日期字符串时,可能会显著提高速度。

    1.6 迭代

    iterator: boolean, 默认为 False

    • 返回 TextFileReader 对象以进行迭代或使用 get_chunk() 来获取块

    1.7 引用、压缩和文件格式

    compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}, 默认为 'infer'

    • 用于对磁盘数据进行即时解压缩。如果为 "infer",则如果 filepath_or_buffer 是文件路径且以 ".gz"".bz2"".zip"".xz" 结尾,则分别使用 gzipbz2zipxz 解压,否则不进行解压缩。

    • 如果使用 "zip",则 ZIP 文件必须仅包含一个要读取的数据文件。设置为 None 表示不解压

    • 也可以使用字典的方式,键为 method 的值从 {'zip', 'gzip', 'bz2'} 中选择。例如

    compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}

    thousandsstr, 默认为 None

    • 数值在千位的分隔符

    decimal: str, 默认为 '.'

    • 小数点

    float_precision: string, 默认为 None

    • 指定 C 引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为 None,高精度转换器的选项为 high,双向转换器的选项为 round_trip

    quotechar: str (长度为 1)

    • 用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略

    comment: str, 默认为 None

    • 用于跳过该字符开头的行,例如,如果 comment='#',将会跳过 # 开头的行

    encoding: str, 默认为 None

    • 设置编码格式

    1.8 错误处理

    error_bad_linesboolean, 默认为 True

    • 默认情况下,字段太多的行(例如,带有太多逗号的 csv 文件)会引发异常,并且不会返回任何 DataFrame

    • 如果设置为 False,则这些坏行将会被删除

    warn_bad_linesboolean, 默认为 True

    • 如果 error_bad_lines=Falsewarn_bad_lines=True,每个坏行都会输出一个警告

    2. 指定数据列的类型

    您可以指示整个 DataFrame 或各列的数据类型

    In [9]: import numpy as npIn [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11"In [11]: print(data)a,b,c,d1,2,3,45,6,7,89,10,11In [12]: df = pd.read_csv(StringIO(data), dtype=object)In [13]: dfOut[13]:    a   b   c    d0  1   2   3    41  5   6   7    82  9  10  11  NaNIn [14]: df["a"][0]Out[14]: '1'In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"})In [16]: df.dtypesOut[16]: a      int64b     objectc    float64d      Int64dtype: object

    你可以使用 read_csv()converters 参数,统一某列的数据类型

    In [17]: data = "col_1\n1\n2\n'A'\n4.22"In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str})In [19]: dfOut[19]:   col_10     11     22   'A'3  4.22In [20]: df["col_1"].apply(type).value_counts()Out[20]: <class 'str'>    4Name: col_1, dtype: int64

    或者,您可以在读取数据后使用 to_numeric() 函数强制转换类型

    In [21]: df2 = pd.read_csv(StringIO(data))In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce")In [23]: df2Out[23]:    col_10   1.001   2.002    NaN3   4.22In [24]: df2["col_1"].apply(type).value_counts()Out[24]: <class 'float'>    4Name: col_1, dtype: int64

    它将所有有效的数值转换为浮点数,而将无效的解析为 NaN

    最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为 NaN,那么 to_numeric() 可能是您的最佳选择。

    然而,如果您想要强制转换所有数据,而无论类型如何,那么使用 read_csv()converters 参数会更好

    注意

    在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。

    如果您依赖 pandas 来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。

    In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000))In [26]: df = pd.DataFrame({"col_1": col_1})In [27]: df.to_csv("foo.csv")In [28]: mixed_df = pd.read_csv("foo.csv")In [29]: mixed_df["col_1"].apply(type).value_counts()Out[29]: <class 'int'>    737858<class 'str'>    262144Name: col_1, dtype: int64In [30]: mixed_df["col_1"].dtypeOut[30]: dtype('O')

    这就导致 mixed_df 对于列的某些块包含 int 类型,而对于其他块则包含 str,这是由于读取的数据是混合类型。

    以上就是关于“Python数据处理pandas读写操作IO工具CSV怎么使用”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网Python频道。

    --结束END--

    本文标题: Python数据处理pandas读写操作IO工具CSV怎么使用

    本文链接: https://www.lsjlt.com/news/342119.html(转载时请注明来源链接)

    有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

    本篇文章演示代码以及资料文档资料下载

    下载Word文档到电脑,方便收藏和打印~

    下载Word文档
    猜你喜欢
    • Python数据处理pandas读写操作IO工具CSV怎么使用
      这篇“Python数据处理pandas读写操作IO工具CSV怎么使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Pytho...
      99+
      2023-07-02
    • Python数据处理pandas读写操作IO工具CSV解析
      目录前言CSV 和文本文件1 参数解析1.1 基础1.2 列、索引、名称1.3 常规解析配置1.4 NA 和缺失数据处理1.5 日期时间处理1.6 迭代1.7 引用、压缩和文件格式1...
      99+
      2024-04-02
    • 怎么理解Python的数据操作库Pandas
      本篇内容主要讲解“怎么理解Python的数据操作库Pandas”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么理解Python的数据操作库Pandas”吧!了解Pandas要很好地理解pand...
      99+
      2023-06-16
    • C#中如何使用文件IO和流操作进行数据读写
      C#中如何使用文件IO和流操作进行数据读写,需要具体代码示例在C#编程中,文件IO和流操作是常用的技术,用于读取和写入文件的数据。无论是处理文本文件、二进制文件,还是读取网络流数据,我们都可以通过文件IO和流操作来实现。文件IO和流操作提供...
      99+
      2023-10-22
      C#文件IO操作 C#流操作 数据读写技术
    • 怎么用Python制作一个数据预处理小工具
      这篇文章主要讲解了“怎么用Python制作一个数据预处理小工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python制作一个数据预处理小工具”吧!在我们平常使用Python进行数据...
      99+
      2023-06-15
    • Python怎么使用Pandas处理测试数据
      这篇文章主要介绍“Python怎么使用Pandas处理测试数据”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python怎么使用Pandas处理测试数据”文章能帮助大家解决问题。Python自动化测...
      99+
      2023-07-05
    • 怎么在python中使用Pandas对MySQL数据库进行读写
      本篇文章给大家分享的是有关怎么在python中使用Pandas对MySQL数据库进行读写,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1、read_sql_query 读取 m...
      99+
      2023-06-14
    • Python Json读写操作之JsonPath怎么使用
      Python Json读写操作_JsonPath用法详解1. 介绍JSONPath是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括Javascript、Python、PHP和Java。JSONPath的安...
      99+
      2023-05-14
      Python JSON jsonpath
    • 怎么用python pandas库读取excel/csv中指定行或列数据
      本篇内容介绍了“怎么用python pandas库读取excel/csv中指定行或列数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所...
      99+
      2023-06-29
    • Python Pandas读取Excel日期数据的异常处理怎么办
      小编给大家分享一下Python Pandas读取Excel日期数据的异常处理怎么办,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!异常描述有时我们的Excel有一个调整过自定义格式的日期字段:当我们用pandas读...
      99+
      2023-06-29
    • C#中如何使用文件IO和流操作进行数据读写及解决方法
      C#中如何使用文件IO和流操作进行数据读写及解决方法在开发过程中,我们常常需要进行文件的读写操作。C#提供了丰富的文件IO和流操作,使得数据的读写变得更加灵活和高效。本文将探讨C#中如何使用文件IO和流操作进行数据读写,并提供具体的代码示例...
      99+
      2023-10-22
      文件IO:C#中的文件IO操作
    • SQLite5中怎么使用Python来读写数据库
      本篇内容介绍了“SQLite5中怎么使用Python来读写数据库”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!SQLite支持多种编程语言的...
      99+
      2023-06-22
    • 怎么使用Python操作Redis数据库
      本篇内容主要讲解“怎么使用Python操作Redis数据库”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么使用Python操作Redis数据库”吧!介绍Redis是一个开源的基于内存也可持久化...
      99+
      2023-07-02
    • 使用Python怎么操作MySQL数据库
      本篇文章给大家分享的是有关使用Python怎么操作MySQL数据库,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。MySQL 建表建表的时候,遇到一些坑,没有解决,如修改 MyS...
      99+
      2023-06-14
    • Python 中怎么利用Pandas处理复杂的Excel数据
      本篇文章为大家展示了Python 中怎么利用Pandas处理复杂的Excel数据,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。问题缘起pandas  read_excel函数在读取Exce...
      99+
      2023-06-16
    • Python数据库ORM工具sqlalchemy怎么安装使用
      今天就跟大家聊聊有关Python数据库ORM工具sqlalchemy怎么安装使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。SQLAlchemy是...
      99+
      2024-04-02
    • 怎么使用python3线程池ThreadPoolExecutor处理csv文件数据
      这篇文章主要介绍“怎么使用python3线程池ThreadPoolExecutor处理csv文件数据”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用python3线程池ThreadPoolEx...
      99+
      2023-07-02
    • python数据库操作之PyMysql怎么使用
      本文小编为大家详细介绍“python数据库操作之PyMysql怎么使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“python数据库操作之PyMysql怎么使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。P...
      99+
      2023-07-05
    • IDEA中怎么使用数据库工具窗口管理数据库
      在IDEA中,可以使用数据库工具窗口来管理数据库。以下是在IDEA中使用数据库工具窗口管理数据库的步骤: 打开数据库工具窗口:在...
      99+
      2024-04-03
      IDEA
    • 怎么用批处理对MySQL进行数据操作
      本篇内容主要讲解“怎么用批处理对MySQL进行数据操作”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么用批处理对MySQL进行数据操作”吧!批处理是一种非交互...
      99+
      2024-04-02
    软考高级职称资格查询
    编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
    • 官方手机版

    • 微信公众号

    • 商务合作