Pandas常用的读取和保存数据的函数使用(csv,mysql,json,excel)

2024-04-02 19:04:59 179人浏览八月长安

摘要

pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas的名

pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas的名称来自于面板数据（panel data）和python数据分析（data analysis）。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。
pandas的io工具支持非常多的数据输入输出方式。包括csv、JSON、excel、数据库等。

本文通过几个实例，介绍几种常用的数据加载方式，包括从csv文件、excel文件、关系型数据库如Mysql、api接口加载json数据，来初步体验一下pandas加载数据的便捷性。

涉及对象：

csv, mysql, json, excel

主要函数：

pd.read_csv()
data.to_csv()
pd.read_sql()
data.to_sql()
json.dump(）
json.loads()
pd.read_excel()
data.to_excel

做量化交易，总也离不开对数据的处理和分析，以下是我经常用到的一些读取和保存数据的函数。

特意抽时间整理了一下，分享给大家。

import pandas as pd

# 解决数据输出时列名不对齐的问题
pd.set_option("display.unicode.east_asian_width", True)
# 显示所有列，把行显示设置成最大
pd.set_option("display.max_columns", None)  # 显示所有列
# 显示所有行，把列显示设置成最大
pd.set_option("display.max_rows", False)  # 不显示所有行
pd.set_option('display.width', 200)  # 设置显示的宽度

# 是否保存
# ----------------------------------------------------------------------------------------
store = False

# 读取CSV文件
path = "O:/Database/futures_5m/ag8888_5m.csv"
data_csv = pd.read_csv(
    path,  # 字符串：文件路径或RRL链接
    header="infer",  # 指定作为列名的行。默认第一行。 不包含列名：header=None。
    names=None,  # 修改列的名称：参数为要使用的列名列表
    index_col=None,  # 指定列为索引列
    usecols=None,  # int、list  [0, 1, 2, 3, 4] ['类型', '数量', '成交价'] 或字符串。None:所有列；int：最后一列。
    dtype=None,  # 字典：列的数据类型。
    parse_dates=False,  # 把某列解析为日期类型
    nrows=None,  # 需要读取的行数,int, default None,
)

# 保存csv文件
# ----------------------------------------------------------------------------------------
path2 = "O:/Database/futures_5m/store_test.csv"
if store:
    data_csv.to_csv(
        path2,  # 绝对路径+文件名。或文件名
        float_fORMat="%.2f",  # 格式化浮点数
        columns=None,  # 列表，写入文件的列，默认为None
        header=True,  # 是否输出列名，默认True
        index=True,  # 是否输出索引，默认True
        index_label=None,  # 索引列的列名，列表，写入文件的列，默认为None
        chunksize=1000,  # 一次写入.csv文件的行数。数据很多时，必须分批写入。
        date_format=None,  # 日期输出格式
    )

# 数据库模块
import mysql.connector
from sqlalchemy import create_engine
# 创建MySQL数据库连接
""" connect = create_engine("数据库类型+数据库驱动://数据库用户名:数据库密码@IP地址:端口/数据库名称", 其他参数) """
# ----------------------------------------------------------------------------------------------------
connect = create_engine("mysql+mysqlconnector://root:@localhost:3306/test")

# 读取SQL文件
# ----------------------------------------------------------------------------------------

# 查询语句
sql_query = "SELECT * FROM data2"

data_sql = pd.read_sql(
    sql_query,  # SQL查询语句：字符串格式 或 SQLAlchemy
    con=connect,  # 创建的连接对象
    index_col="date",  # 索引列：字符串或字符串列表，可选，默认值：无
    coerce_float=True,  # 将值强制转为浮点数：布尔值，默认为True
    params=None,  # list、tuple或dict，可选，默认值：None。传递给execute方法的参数列表
    parse_dates=None,  # 解释为日期： 列的名称列表 或字典：{column_name: format string}
    columns=None,  # 要从sql表中选择的列，仅在读取表格时使用
    chunksize=None,  # 读取的行数
)

# 保存SQL文件
# ----------------------------------------------------------------------------------------

if store:
    data.to_sql(
        name="store_test",  # SQL输出的表名
        con=connection,  # 与read_sql中相同，数据库链接
        index=False,  # 是否将index作为单独的一列
        index_label=None,  # 指定列作为index输出，此时index为True
        chunksize=None,  # 设置整数，如20000，一次写入数据时的数据行数量，当数据量很大时，需要设置，否则会链接超时写入失败
        dtype=None,  # 指定列的输出到数据库中的数据类型。字典形式储存：{column_name: sql_dtype}。 当不设置时，to_sql生成表时会自动兼容最大的类型
        if_exists="append",
    )  # Fail 抛出错误； append 插入； replace 替换
    # ----------------------------------------------------------------------------------------------------------------------

# 保存为json文件
# ----------------------------------------------------------------------------------------
import json
# 把字典保存为json格式的文件
if store:
    with open('O:/我的回测/回测系统 重写数据模块/回测结果保存/把字典保存为json格式的文件.json', 'w') as f:
        # 存在中文必须设置ensure_ascii=False
        results = {
            "合约": "bu8888",
            "频率": "1m",
            "周期": 60,
            "本金": 50000,
            "收益": "-3506",
            "年化": "-44.51%",
            "期望": "-0.4R",
            "赔率": 0.82,
            "胜率": "33%",
            "次数": "6",
            "天数": 30,
        }
        # 将python中的对象转化成json储存到文件中
        """ -----------------------------------------------------------------------------------
        json.dump(obj=python对象,fp=write()方法的文件对象,indent=缩进等级,
                  sort_keys=以键的顺序排序,ensure_ascii=True：False输出中文)
        -----------------------------------------------------------------------------------   """
        json.dump(results, f, sort_keys=False, indent=4, ensure_ascii=False)

# 读取json格式的文件
# ----------------------------------------------------------------------------------------
with open('O:/我的回测/回测系统 重写数据模块/回测结果保存/把字典保存为json格式的文件.json', 'r') as f1:
    # 直接读取，返回字符串
    da = f1.read()  # 此时数值仍是字符串，需要进一步转换
    # 转为字典格式
    result = json.loads(da)  # 转为字典格式

# 读取Excel文件
# ----------------------------------------------------------------------------------------
""" 注意坑：excel文件处于打开或编辑状态时，会读取出错和失败！！ """
data_excel = pd.read_excel(
    'H:/交易资料/Python文件/K线测试数据.xlsx',  # 文件名或路径
    sheet_name=0,  # 字符串或整型（或两者的列表），表的名称
    header=0,  # 整型或整型列表，或None，默认为0，None代表无列名。
    names=None,  # 字符串列表，自定义列名，默认为None。
    index_col=None,  # 整型或者整型列表
    usecols=None,  # 表示要读取的列号或列名（列表）。None表示全部读取。当为str时可以为“A,D,F:H”表示读取A,D,F,G,H列。
    engine=None,  # 读取excel时用到的引擎类型。
)

#  保存Excel文件
#  ----------------------------------------------------------------------------------------
if store:
    data_excel.to_excel(
        'H:/交易资料/Python文件/test.xlsx',  #  路径或文件名
        sheet_name='K线测试数据',  #  表的名称
        index=False,  #  是否保存索引

到此这篇关于Pandas常用的读取和保存数据的函数使用(csv,mysql,json,excel)的文章就介绍到这了,更多相关Pandas读取和保存数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Pandas常用的读取和保存数据的函数使用(csv,mysql,json,excel)

本文链接: https://www.lsjlt.com/news/163368.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

oracle怎么查询当前用户所有的表

要查询当前用户拥有的所有表，可以使用以下 sql 命令：select * from user_tables; 如何查询当前用户拥有的所有表要查询当前用户拥有的所有表，可以使...

99+

2024-05-15

oracle
oracle怎么备份表中数据

oracle 表数据备份的方法包括：导出数据 (exp)：将表数据导出到外部文件。导入数据 (imp)：将导出文件中的数据导入表中。用户管理的备份 (umr)：允许用户控制备份和恢复过程...

99+

2024-05-15

oracle
oracle怎么做到数据实时备份

oracle 实时备份通过持续保持数据库和事务日志的副本来实现数据保护，提供快速恢复。实现机制主要包括归档重做日志和 asm 卷管理系统。它最小化数据丢失、加快恢复时间、消除手动备份任务...

99+

2024-05-15

oracle 数据丢失
oracle怎么查询所有的表空间

要查询 oracle 中的所有表空间，可以使用 sql 语句 "select tablespace_name from dba_tablespaces"，其中 dba_tabl...

99+

2024-05-15

oracle
oracle怎么创建新用户并赋予权限设置

答案：要创建 oracle 新用户，请执行以下步骤：以具有 create user 权限的用户身份登录；在 sql*plus 窗口中输入 create user identified ...

99+

2024-05-15

oracle
oracle怎么建立新用户

在 oracle 数据库中创建用户的方法：使用 sql*plus 连接数据库；使用 create user 语法创建新用户；根据用户需要授予权限；注销并重新登录以使更改生效。如何在 ...

99+

2024-05-15

oracle
oracle怎么创建新用户并赋予权限密码

本教程详细介绍了如何使用 oracle 创建一个新用户并授予其权限：创建新用户并设置密码。授予对特定表的读写权限。授予创建序列的权限。根据需要授予其他权限。如何使用 Oracle 创...

99+

2024-05-15

oracle
oracle怎么查询时间段内的数据记录表

在 oracle 数据库中查询指定时间段内的数据记录表，可以使用 between 操作符，用于比较日期或时间的范围。语法：select * from table_name wh...

99+

2024-05-15

oracle
oracle怎么查看表的分区

问题：如何查看 oracle 表的分区？步骤：查询数据字典视图 all_tab_partitions，指定表名。结果显示分区名称、上边界值和下边界值。如何查看 Oracle 表的分区...

99+

2024-05-15

oracle
oracle怎么导入dump文件

要导入 dump 文件，请先停止 oracle 服务，然后使用 impdp 命令。步骤包括：停止 oracle 数据库服务。导航到 oracle 数据泵工具目录。使用 impdp 命令导...

99+

2024-05-15

oracle