iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >怎么使用Python处理文本数据
  • 110
分享到

怎么使用Python处理文本数据

2023-07-02 11:07:51 110人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

本篇内容介绍了“怎么使用python处理文本数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!用Python处理文本数据实验目的熟悉pyth

本篇内容介绍了“怎么使用python处理文本数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

Python处理文本数据

实验目的

熟悉python的基本数据结构,以及文件的输入与输出。

实验数据

利用xxxx年xx机器学习会议的评测数据和评测任务,数据包括训练集和测试集,评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。

数据描述如下,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集。

事件人物1人物2标题关系(0 or 1)训练集

测试集描述如下图,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。

关系人物1人物2事件

实验内容

对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。

在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。

测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,即相同关系类型的数据放到一个文本文件中,同样生成19个类别的测试文件,格式仍旧和测试文件保持一致。存放在exp1_test文件夹下,每个类别的文件仍旧命名为1_test.txt,2_test.txt…同时对每个样本在原测试集中出现的位置进行记录,和19个测试文件一一对应起来。比如第一类“传闻不和”的每个样本在原文中处于第几行,在索引文件中进行记录,保存在文件index1.txt,index2.txt….

解题思路

第一题是考察我们文件操作与列表的知识,主要考察的难点是对new文件的读取,根据要求处理后在生成一个txt文件,让我们看一下具体的代码实现:

import os# 创建一个列表用来存储新的内容list = []                                     with open("task1.trainSentence.new", "r",encoding='xxx') as file_input: # 打开.new文件,xxx根据自己的编码格式填写    with open("exp1_1.txt", "w", encoding='xxx') as file_output:        # 打开exp1_1.txt,xxx根据自己的编码格式填写文件如果没有就创建一个         for Line in file_input:                                         # 遍历每一行的文件            arr = Line.split('\t')                                      # 以\t为分隔符读取            if arr[0] not in list:                                      # if the Word is not in the list                list.append(arr[0])                                     # add the word to the list            file_output.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\n")  # write the line to the filefile_input.close()                                                      #关闭.new文件file_output.close()                                                     #关闭创建的txt文件

第二题依旧考察了文件操作,在题目一生成的文件基础上,按照同一类型的事件对事件进行分类,是否能高效的分组需要利用循环条件来解决,我们来看看具体的

代码实现

import osfile_1 = open("exp1_1.txt", encoding='xxx')             # 打开文件,xxx根据自己的编码格式填写os.mkdir("exp1_train")                                  # 创建目录os.chdir("exp1_train")                                  # 修改进程的工作目录(使用该目录)a = file.readline()                                     # 按行读取exp1_1.txt文件arr = a.split("\t")                                     # 按\t间隔符作为分割b = 1                                                   #设置分组文件的序列file_2 = open("{}.txt".fORMat(b), "w", encoding="xxx")  # 打开文件,xxx根据自己的编码格式填写for line in file_1:                                     # 按行读取文件    arr_1 = line.split("\t")                            # 按\t间隔符作为分割    if arr[0] != arr_1[0]:                              # 如果读取文件的第一列内容与存入新文件的第一列类型不同        file_2.close()                                  # 关掉该文件        b += 1                                          # 文件序列加一        f_2 = open("{}.txt".format(b), "w", encoding="xxx") # 创建新文件,以另一种类型分类,xxx根据自己的编码格式填写    arr = line.split("\t")                              # 按\t间隔符作为分割    f_2.write(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"t"+arr[4]+"\t""\n") # 将相同类型的文件写入f_1.close()                                             # 关闭题目一创建的exp1_1.txt文件f_2.close()                                             # 关闭创建的最后一个类型的文件

将训练集的19个类别按照人物的关系进行进一步的分类,我们可以通过字典对数据进行遍历,查找关系,把关系相同的内容放到一个文件夹中,不同则新建一个。

import oswith open("exp1_1.txt", encoding='xxx') as file_in1: # 打开文件,xxx根据自己的编码格式填写    i = 1                                            # 类型序列    arr2 = {}                                        # 创建字典    for line in file_in1:                            # 按行遍历        arr3 = line[0:2]                             # 读取关系        if arr3 not in arr2.keys():            arr2[arr3] = i                                       i += 1                                   # 类型+1    file_in = open("task1.test.new")                 # 打开文件task1.test.new    os.mkdir("exp1_test")                            # 创建目录    os.chdir("exp1_test")                            # 修改进程的工作目录(使用该目录)    for line in file_in:        arr = line[0:2]        with open("{}_test.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:            arr = line.split('\t')            file_out.write(line)    i = 1    file_in.seek(0)    os.mkdir("exp1_index")    os.chdir("exp1_index")    for line in file_in:        arr = line[0:2]        with open("index{}.txt".format(arr2[arr]), "a", encoding='xxx') as file_out:            arr = line.split('\t')            line = line[0:-1]            file_out.write(line + '\t' + "{}".format(i) + "\n")        i += 1

用python处理数值型数据

实验目的

熟悉python的基本数据结构,以及文件的输入与输出。

实验数据

xxxx年xx天池大赛,也是中国高校第x届大数据挑战赛的数据。数据包括两个表,分别是用户行为表mars_tianchi_user_actions.csv和歌曲艺人表mars_tianchi_songs.csv。大赛开放抽样的歌曲艺人数据,以及和这些艺人相关的6个月内(20150301-20150831)的用户行为历史记录。选手需要预测艺人随后2个月,即60天(20150901-20151030)的播放数据。

怎么使用Python处理文本数据

怎么使用Python处理文本数据

怎么使用Python处理文本数据

实验内容

  • 对歌曲艺人数据mars_tianchi_songs进行处理,统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2_1.csv,第一列为艺人的ID,第二列为该艺人的歌曲数目。最后一行输出艺人的个数。

  • 将用户行为表和歌曲艺人表以歌曲song_id作为关联,合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致,第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2_2.csv。

  • 按照艺人统计每个艺人每天所有歌曲的播放量,输出文件为exp2_3.csv,各个列名为艺人id,日期Ds,歌曲播放总量。注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。

解题思路:(利用pandas库)

(1)利用.drop_duplicates() 删除重复值

(2)利用.loc[:,‘artist_id’].value_counts() 求出歌手重复次数,即每个歌手的歌曲数目

(3)利用.loc[:,‘songs_id’].value_counts() 求出歌曲没有重复

import pandas as pddata = pd.read_csv(r"C:\mars_tianchi_songs.csv")       # 读取数据Newdata = data.drop_duplicates(subset=['artist_id'])   # 删除重复值artist_sum = Newdata['artist_id'].count()              #artistChongFu_count = data.duplicated(subset=['artist_id']).count() artistChongFu_count = data.loc[:,'artist_id'].value_counts() 重复次数,即每个歌手的歌曲数目sonGChongFu_count = data.loc[:,'songs_id'].value_counts()  # 没有重复(歌手)artistChongFu_count.loc['artist_sum'] = artist_sum         # 没有重复(歌曲)artistChongFu_count.to_csv('exp2_1.csv')                   # 输出文件格式为exp2_1.csv

利用merge()合并两个表

import pandas as pd import osdata = pd.read_csv(r"C:\mars_tianchi_songs.csv")data_two = pd.read_csv(r"C:\mars_tianchi_user_actions.csv")num=pd.merge(data_two, data) num.to_csv('exp2_2.csv')

利用groupby()[].sum()进行重复性相加

import pandas as pddata =pd.read_csv('exp2_2.csv')DataCHongfu = data.groupby(['artist_id','Ds'])['gmt_create'].sum()#重复项相加DataCHongfu.to_csv('exp2_3.csv')

“怎么使用Python处理文本数据”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

--结束END--

本文标题: 怎么使用Python处理文本数据

本文链接: https://www.lsjlt.com/news/341403.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 怎么使用Python处理文本数据
    本篇内容介绍了“怎么使用Python处理文本数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!用python处理文本数据实验目的熟悉pyth...
    99+
    2023-07-02
  • Caffe中怎么处理文本数据
    在Caffe中处理文本数据通常需要进行以下步骤: 数据预处理:将文本数据转换成适合Caffe处理的格式,一般是将文本数据转换成图...
    99+
    2024-03-07
    Caffe
  • SQL中怎么处理文本数据
    SQL中怎么处理文本数据,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。导入数据  为了简单,我们用一个只有三行(三个文档)的文本文件(a....
    99+
    2024-04-02
  • Python中怎么清理文本数据
    Python中怎么清理文本数据,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1.文本小写在我们开始处理文本之前,最好先将所有字符都小写。我们这样做的原因是为了避...
    99+
    2023-06-16
  • CNTK怎么处理文本数据和图像数据
    CNTK(Microsoft Cognitive Toolkit)是一个深度学习框架,可以用来处理文本数据和图像数据。以下是CNTK...
    99+
    2024-04-02
  • Chainer怎么处理文本数据和图像数据
    Chainer可以处理文本数据和图像数据并进行相应的预处理操作。以下是Chainer处理文本数据和图像数据的一般步骤: 处理文本数据...
    99+
    2024-04-02
  • shell 文本数据处理
    文章目录 重定向管道`grep` 模式搜索`sed` 匹配替换`awk` 复杂业务编程(TODO)参考   在 linux shell 中,不同工具、程序间通过文本进行数据交互,即以文本作为输入、输出标准格式。文本成为公共的...
    99+
    2023-08-24
    linux 服务器 运维
  • python中怎么处理文本
    这篇文章给大家介绍python中怎么处理文本,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。python处理文本使用方法我们的目的是把记录中包含January的名字列出来,符合“名字 -- 描述”格式的行为有效行。编写p...
    99+
    2023-06-17
  • Python数据处理之pd.Series()函数的基本使用
    目录1.Series介绍2.Series创建1.pd.Series([list],index=[list])2.pd.Series(np.arange())3 Series基本属性4...
    99+
    2024-04-02
  • 使用Python处理文本,整理信息
    任务目标 通过Python将上述的命令输出从一整个文件中取出来,并转换成表格。否则,我需要分别打开每一个文件,找到对应的输出,拷贝到Ecxel,再进行数据分列动作,操作繁琐而且重复性很大,因此考虑用Python尝试自动化完成此项工作。 ...
    99+
    2023-01-31
    文本 信息 Python
  • Fastai怎么实现文本数据预处理
    Fastai是一个用于深度学习的开源库,它提供了一种简单而高效的方法来进行文本数据预处理。下面是一些Fastai中常用的文本数据预处...
    99+
    2024-04-02
  • Python数据处理之pd.Series()函数怎么使用
    本文小编为大家详细介绍“Python数据处理之pd.Series()函数怎么使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python数据处理之pd.Series()函数怎么使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一...
    99+
    2023-07-02
  • Python怎么使用Pandas处理测试数据
    这篇文章主要介绍“Python怎么使用Pandas处理测试数据”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python怎么使用Pandas处理测试数据”文章能帮助大家解决问题。Python自动化测...
    99+
    2023-07-05
  • Python处理文本数据的方法详解
    目录前言用python处理文本数据用python处理数值型数据前言 HI,好久不见,今天是关闭朋友圈的第60天,我是野蛮成长的AC-Asteroid。 人生苦短,我用Python,通...
    99+
    2024-04-02
  • 使用Shell脚本怎么逐行处理文本文件
    使用Shell脚本怎么逐行处理文本文件?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。通过read命令完成.read 命令从标准输入中读取一行,并把输入行的每个字...
    99+
    2023-06-14
  • java中怎样使用Files.readLines()处理文本中行数据方式
    java中怎样使用Files.readLines()处理文本中行数据方式,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。使用Files.readLines()处理...
    99+
    2023-06-22
  • java中使用Files.readLines()处理文本中行数据方式
    目录使用Files.readLines()处理文本中行数据被readLine()折腾了一把发数据读数据readLine()的实质(下面是从JDK源码摘出来的)小结,使用readLin...
    99+
    2024-04-02
  • Torch如何处理文本数据
    Torch是一个用于机器学习和深度学习的开源机器学习库。在处理文本数据时,Torch可以使用其内置的文本处理模块来进行文本预处理和特...
    99+
    2024-03-08
    Torch
  • PyTorch中怎么处理文本数据序列任务
    在PyTorch中处理文本数据序列任务通常需要进行以下步骤: 数据准备:将文本数据转换成数值形式,通常是将单词转换成对应的索引。...
    99+
    2024-03-05
    PyTorch
  • 怎么用python处理大量数据
    处理大量数据,可以使用一些Python库和技术来优化效率和提高处理速度。以下是一些常用的方法:1. 使用适当的数据结构:使用适当的数...
    99+
    2023-09-01
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作