iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python用list或dict字段模式读取文件的方法
  • 523
分享到

Python用list或dict字段模式读取文件的方法

字段模式文件 2022-06-04 18:06:01 523人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

前言 python用于处理文本数据绝对是个利器,极为简单的读取、分割、过滤、转换支持,使得开发者不需要考虑繁杂的流文件处理过程(相对于JAVA来说的,嘻嘻)。博主自己工作中,一些复杂的文本数据处理计算,包括

前言

python用于处理文本数据绝对是个利器,极为简单的读取、分割、过滤、转换支持,使得开发者不需要考虑繁杂的流文件处理过程(相对于JAVA来说的,嘻嘻)。博主自己工作中,一些复杂的文本数据处理计算,包括在hadoop上编写Streaming程序,均是用Python完成。

而在文本处理的过程中,将文件加载内存中是第一步,这就涉及到怎样将文件中的某一列映射到具体的变量的过程,最最愚笨的方法,就是按照字段的下标进行引用,比如这样子:


# fields是读取了一行,并且按照分隔符分割之后的列表
user_id = fields[0]
user_name = fields[1]
user_type = fields[2]

如果按照这种方式读取,一旦文件有顺序、增减列的变动,代码的维护是个噩梦,这种代码一定要杜绝。

本文推荐两种优雅的方式来读取数据,都是先配置字段模式,然后按照模式读取,而模式则有字典模式和列表模式两种形式;

读取文件,按照分隔符分割成字段数据列表

首先读取文件,按照分隔符分割每一行的数据,返回字段列表,以便后续处理。

代码如下:


def read_file_data(filepath):
 '''根据路径按行读取文件, 参数filepath:文件的绝对路径
 @param filepath: 读取文件的路径
 @return: 按t分割后的每行的数据列表
 '''
 fin = open(filepath, 'r')
 for line in fin:
  try:
   line = line[:-1]
   if not line: continue
  except:
   continue
  
  try:
   fields = line.split("t")
  except:
   continue
  # 抛出当前行的分割列表
  yield fields
 fin.close()

使用yield关键字,每次抛出单个行的分割数据,这样在调度程序中可以用for fields in read_file_data(fpath)的方式读取每一行。

映射到模型之方法1:使用配置好的字典模式,装配读取的数据列表

这种方法配置一个{“字段名”: 字段位置}的字典作为数据模式,然后按照该模式装配读取的列表数据,最后实现用字典的方式访问数据。

所使用的函数:


@staticmethod
def map_fields_dict_schema(fields, dict_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照t分割得到
 @param dict_schema: 一个词典,key是字段名称,value是字段的位置;
 @return: 词典,key是字段名称,value是字段值
 """
 pdict = {}
 for fstr, findex in dict_schema.iteritems():
  pdict[fstr] = str(fields[int(findex)])
 return pdict

有了该方法和之前的方法,可以用以下的方式读取数据:


# coding:utf8
"""
@author: www.crazyant.net
测试使用字典模式加载数据列表
优点:对于多列文件,只通过配置需要读取的字段,就能读取对应列的数据
缺点:如果字段较多,每个字段的位置配置,较为麻烦
"""
import file_util
import pprint
 
# 配置好的要读取的字典模式,可以只配置自己关心的列的位置
dict_schema = {"userid":0, "username":1, "usertype":2}
for fields in file_util.FileUtil.read_file_data("userfile.txt"):
 # 将字段列表,按照字典模式进行映射
 dict_fields = file_util.FileUtil.map_fields_dict_schema(fields, dict_schema)
 pprint.pprint(dict_fields)

输出结果:


{'userid': '1', 'username': 'name1', 'usertype': '0'}
{'userid': '2', 'username': 'name2', 'usertype': '1'}
{'userid': '3', 'username': 'name3', 'usertype': '2'}
{'userid': '4', 'username': 'name4', 'usertype': '3'}
{'userid': '5', 'username': 'name5', 'usertype': '4'}
{'userid': '6', 'username': 'name6', 'usertype': '5'}
{'userid': '7', 'username': 'name7', 'usertype': '6'}
{'userid': '8', 'username': 'name8', 'usertype': '7'}
{'userid': '9', 'username': 'name9', 'usertype': '8'}
{'userid': '10', 'username': 'name10', 'usertype': '9'}
{'userid': '11', 'username': 'name11', 'usertype': '10'}
{'userid': '12', 'username': 'name12', 'usertype': '11'}

映射到模型之方法2:使用配置好的列表模式,装配读取的数据列表

如果需要读取文件所有列,或者前面的一些列,那么配置字典模式优点复杂,因为需要给每个字段配置索引位置,并且这些位置是从0开始完后数的,属于低级劳动,需要消灭。

列表模式应命运而生,先将配置好的列表模式转换成字典模式,然后按字典加载就可以实现。

转换模式,以及用按列表模式读取的代码:


@staticmethod
def transfORM_list_to_dict(para_list):
 """把['a', 'b']转换成{'a':0, 'b':1}的形式
 @param para_list: 列表,里面是每个列对应的字段名
 @return: 字典,里面是字段名和位置的映射
 """
 res_dict = {}
 idx = 0
 while idx < len(para_list):
  res_dict[str(para_list[idx]).strip()] = idx
  idx += 1
 return res_dict
 
@staticmethod
def map_fields_list_schema(fields, list_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name', 'age'},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照t分割得到
 @param list_schema: 列名称的列表list
 @return: 词典,key是字段名称,value是字段值
 """
 dict_schema = FileUtil.transform_list_to_dict(list_schema)
 return FileUtil.map_fields_dict_schema(fields, dict_schema)

使用的时候,可以用列表的形式配置模式,不需要配置索引更加简洁:


# coding:utf8
"""
@author: www.crazyant.net
测试使用列表模式加载数据列表
优点:如果读取所有列,用列表模式只需要按顺序写出各个列的字段名就可以
缺点:不能够只读取关心的字段,需要全部读取
"""
import file_util
import pprint
 
# 配置好的要读取的列表模式,只能配置前面的列,或者所有咧
list_schema = ["userid", "username", "usertype"]
for fields in file_util.FileUtil.read_file_data("userfile.txt"):
 # 将字段列表,按照字典模式进行映射
 dict_fields = file_util.FileUtil.map_fields_list_schema(fields, list_schema)
 pprint.pprint(dict_fields) 

运行结果和字典模式的完全一样。

file_util.py全部代码

以下是file_util.py中的全部代码,可以放在自己的公用类库中使用


# -*- encoding:utf8 -*-
'''
@author: www.crazyant.net
@version: 2014-12-5
'''
 
class FileUtil(object):
 '''文件、路径常用操作方法
 '''
 @staticmethod
 def read_file_data(filepath):
  '''根据路径按行读取文件, 参数filepath:文件的绝对路径
  @param filepath: 读取文件的路径
  @return: 按t分割后的每行的数据列表
  '''
  fin = open(filepath, 'r')
  for line in fin:
   try:
    line = line[:-1]
    if not line: continue
   except:
    continue
   
   try:
    fields = line.split("t")
   except:
    continue
   # 抛出当前行的分割列表
   yield fields
  fin.close()
 
 @staticmethod
 def transform_list_to_dict(para_list):
  """把['a', 'b']转换成{'a':0, 'b':1}的形式
  @param para_list: 列表,里面是每个列对应的字段名
  @return: 字典,里面是字段名和位置的映射
  """
  res_dict = {}
  idx = 0
  while idx < len(para_list):
   res_dict[str(para_list[idx]).strip()] = idx
   idx += 1
  return res_dict
 
 @staticmethod
 def map_fields_list_schema(fields, list_schema):
  """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name', 'age'},那么就返回{'name':'a','age':'b'}
  @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照t分割得到
  @param list_schema: 列名称的列表list
  @return: 词典,key是字段名称,value是字段值
  """
  dict_schema = FileUtil.transform_list_to_dict(list_schema)
  return FileUtil.map_fields_dict_schema(fields, dict_schema)
 
@staticmethod
def map_fields_dict_schema(fields, dict_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照t分割得到
 @param dict_schema: 一个词典,key是字段名称,value是字段的位置;
 @return: 词典,key是字段名称,value是字段值
 """
 pdict = {}
 for fstr, findex in dict_schema.iteritems():
  pdict[fstr] = str(fields[int(findex)])
 return pdict

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用python能有一定的帮助,如果有疑问大家可以留言交流。

--结束END--

本文标题: Python用list或dict字段模式读取文件的方法

本文链接: https://www.lsjlt.com/news/13834.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python读取文件的多种方式
    在Python编程中,读取文件是非常常见的操作。Python提供了多种读取文件的方式,本文将介绍其中的几种方式。 1. 使用open函数读取文件 使用Python内置函数open()可以打开一个文件,并返回一个文件对象。在文件对象上可以调用...
    99+
    2023-09-02
    python pandas 数据分析
  • python读取.mtx文件的方法
    小编给大家分享一下python读取.mtx文件的方法,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游...
    99+
    2023-06-14
  • 利用Python将list列表写入文件并读取的方法汇总
    目录1.writelines()直接写入2.str转化为字符串写入3.for循环写入4.使用.join函数修改列表读取数据附:还有写csv文件和excel文件的方式总结1.write...
    99+
    2024-04-02
  • js利用FileReader读取本地文件或者blob方式
    目录FileReader读取本地文件或blob一、FileReader的使用二、FileReader的方法三、FileReader的属性四、FileReader的事件使用FileRe...
    99+
    2024-04-02
  • python使用pandas读取csv文件的方法
    目录pandas读取csv文件的操作1. 读取csv文件在这里记录一下,python使用pandas读取文件的方法用到pandas库的read_csv函数 # -*- coding:...
    99+
    2022-12-23
    python 读取csv文件 pandas读取csv文件
  • Python读取CSV文件的几种方法
    话不多说,开干!!! 目录 1. 使用 csv 模块 2.使用 numpy 库 3.使用pandas库 4.使用标准库中的 csv 模块 5.注意事项 1. 使用 csv 模块 (1)项目目录如下图所示: (2)代码如下: impor...
    99+
    2023-08-31
    python 开发语言 pandas numpy
  • 教你用Python读取CSV文件的5种方式
    目录第一招:简单的读取第二招:用nametuple第三招:用tuple类型转换第四招:用DictReader第五招:用字典转换在python里面,读取或写入csv文件时,首先要imp...
    99+
    2024-04-02
  • Python读取.py文件的方法详解
    python读取.py文件的方法有三种:通过open()函数、pathlib模块以及importlib模块导入模块。这些方法允许读取.py文件的内容并将其用于各种目的,如执行模块或使用其...
    99+
    2024-04-03
    python 读取.py文件
  • Python读取.txt,.md等文本文件的方法
    这篇文章将为大家详细讲解有关Python读取.txt,.md等文本文件的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码如下# example.md1 2 34&nbs...
    99+
    2023-06-15
  • python读取txt文件的方法是什么
    在Python中,我们可以使用open()函数来打开一个txt文件并读取其中的内容。以下是一个简单的示例: # 打开文件 file ...
    99+
    2024-03-14
    python
  • Python读取CSV文件的方法和技巧
    使用csv模块或pandas从csv文件中读取数据,csv模块提供基本接口,而pandas提供更高级的功能。技巧包括:使用sniffer确定分隔符,指定分隔符,处理缺失值,按块读取。实战...
    99+
    2024-04-03
    python csv文件 绘制图表
  • python open读取文件内容时的mode模式解析
    Python可以使用open函数来实现文件的打开,关闭,读写操作; Python3中的open函数定义为:open(file, mode='r', buffering...
    99+
    2024-04-02
  • Python实现读取文件的方法总结
    目录序言1、方法介绍2、 默认读取3、处理一个文件4、处理批量文件5、读取与备份6、重定向替换7、进阶总结序言 哈喽兄弟们,今天咱们来了解一下 fileinput 。 说到filei...
    99+
    2024-04-02
  • Python读取和存储yaml文件的方法
             YAML 是 "YAML Ain't a Markup Language"...
    99+
    2024-04-02
  • Python之读取TXT文件的三种方法
    参考了https://blog.csdn.net/shandong_chu/article/details/70173952 import sys 方法一:#read txt method one f = open("./image...
    99+
    2023-01-31
    三种 文件 方法
  • python用pd.read_csv()方法来读取csv文件的实现
    csv文件是一种用,和换行符区分数据记录和字段的一种文件结构,可以用excel表格编辑,也可以用记事本编辑,是一种类excel的数据存储文件,也可以看成是一种数据库。pandas提供...
    99+
    2024-04-02
  • C#读取文本文件时字符编码的处理方式
    本篇内容介绍了“C#读取文本文件时字符编码的处理方式”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!字符编码的问题是经常会碰到的,那么在C#读...
    99+
    2023-06-18
  • python逐行读取文件的方法是什么
    Python提供了多种方法来逐行读取文件。以下是其中几种常见的方法: 使用readline()方法:该方法逐行读取文件,并返回一个...
    99+
    2024-02-29
    python
  • python读取远程文件的方法是什么
    这篇文章主要介绍“python读取远程文件的方法是什么”,在日常操作中,相信很多人在python读取远程文件的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python读取远程文件的方法是什么”的疑...
    99+
    2023-06-04
  • python循环读取文件的方法是什么
    Python循环读取文件的方法可以使用`for`循环或`while`循环,具体取决于你想如何处理文件中的每一行。下面是使用`for`...
    99+
    2023-08-12
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作