广告
返回顶部
首页 > 资讯 > 后端开发 > Python >使用torchtext导入NLP数据集的操作
  • 735
分享到

使用torchtext导入NLP数据集的操作

2024-04-02 19:04:59 735人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

如果你是PyTorch的用户,可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。 从torchtext这个名字我们也能大概猜到该库是pytorch圈

如果你是PyTorch的用户,可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。

从torchtext这个名字我们也能大概猜到该库是pytorch圈中用来预处理文本数据集的库,但这方面的教程网络上比较少,今天我就讲讲这个特别有用的文本分析库。

简介

torchtext在文本数据预处理方面特别强大,但我们要知道ta能做什么、不能做什么,并如何将我们的需求用torchtext实现。虽然torchtext是为pytorch而设计的,但是也可以与keras、Tensorflow等结合使用。

官方文档地址 https://torchtext.readthedocs.io/en/latest/index.html


# 安装	
!pip3 install torchtext

自然语言处理预处理的工作流程:

1、Train/Validation/Test数据集分割

2、文件数据导入(File Loading)

3、分词(Tokenization) 文本字符串切分为词语列表

4、构建词典(Vocab) 根据训练的预料数据集构建词典

5、数字映射(Numericalize/Indexify) 根据词典,将数据从词语映射成数字,方便机器学习

6、导入预训练好的词向量(Word vector)

7、分批(Batch) 数据集太大的话,不能一次性让机器读取,否则机器会内存崩溃。解决办法就是将大的数据集分成更小份的数据集,分批处理

8、向量映射(Embedding Lookup) 根据预处理好的词向量数据集,将5的结果中每个词语对应的索引值变成 词语向量

上面8个步骤,torchtext实现了2-7。第一步需要我们自己diy,好在这一步没什么难度


"The quick fox jumped over a lazy dog."	
# 分词	
["The", "quick", "fox", "jumped", "over", "a", "lazy", "dog", "."]	
# 构建词典	
{"The" -> 0, 	
"quick"-> 1, 	
"fox" -> 2,	
...}	
# 数字映射(将每个词根据词典映射为对应的索引值)	
[0, 1, 2, ...]	
# 向量映射(按照导入的预训练好的词向量数据集,把词语映射成向量)	
[	
  [0.3, 0.2, 0.5],	
  [0.6, 0., 0.1],	
  [0.8, 01., 0.4],	
  ...	
]

一、数据集分割

一般我们做机器学习会将数据分为训练集和测试集,而在深度学习中,需要多轮训练学习,每次的学习过程都包括训练和验证,最后再进行测试。所以需要将数据分成训练、验证和测试数据。


import pandas as pd	
import numpy as np	
def split_csv(infile, trainfile, valtestfile, seed=999, ratio=0.2):	
    df = pd.read_csv(infile)	
    df["text"] = df.text.str.replace("\n", " ")	
    idxs = np.arange(df.shape[0])	
    np.random.seed(seed)	
    np.random.shuffle(idxs)	
    val_size = int(len(idxs) * ratio)	
    df.iloc[idxs[:val_size], :].to_csv(valtestfile, index=False)	
    df.iloc[idxs[val_size:], :].to_csv(trainfile, index=False)	
#先将sms_spam.csv数据分为train.csv和test.csv	
split_csv(infile='data/sms_spam.csv', 	
          trainfile='data/train.csv', 	
          valtestfile='data/test.csv', 	
          seed=999, 	
          ratio=0.2)	
#再将train.csv分为dataset_train.csv和dataset_valid.csv	
split_csv(infile='data/train.csv', 	
          trainfile='data/dataset_train.csv', 	
          valtestfile='data/dataset_valid.csv', 	
          seed=999, 	
          ratio=0.2)

1.1 参数解读


split_csv(infile, trainfile, valtestfile, seed, ratio)

infile:待分割的csv文件

trainfile:分割出的训练cs文件

valtestfile:分割出的测试或验证csv文件

seed:随机种子,保证每次的随机分割随机性一致

ratio:测试(验证)集占数据的比例

经过上面的操作,我们已经构建出实验所需的数据:

训练数据(这里说的是dataset_train.csv而不是train.csv)

验证数据(dataset_train.csv)

测试数据(test.csv)。

二、分词

导入的数据是字符串形式的文本,我们需要将其分词成词语列表。英文最精准的分词器如下:


import re	
import spacy	
import jieba	
	
#英文的分词器	
NLP = spacy.load('en_core_WEB_sm')	
MAX_CHARS = 20000  #为了降低处理的数据规模,可以设置最大文本长度,超过的部分忽略,	
def tokenize1(text):	
    text = re.sub(r"\s", " ", text)	
    if (len(text) > MAX_CHARS):	
        text = text[:MAX_CHARS]	
    return [	
        x.text for x in NLP.tokenizer(text) if x.text != " " and len(x.text)>1]	
#有的同学tokenize1用不了,可以使用tokenize2。	
def tokenize2(text):	
    text = re.sub(r"\s", " ", text)	
    if (len(text) > MAX_CHARS):	
        text = text[:MAX_CHARS]	
    return [w for w in text.split(' ') if len(w)>1]	
#中文的分类器比较简单	
def tokenize3(text):	
    if (len(text) > MAX_CHARS):	
        text = text[:MAX_CHARS]	
    return [w for w in jieba.lcut(text) if len(w)>1]	
	
print(tokenize1('python is powerful and beautiful!'))	
print(tokenize2('Python is powerful and beautiful!'))	
print(tokenize3('Python强大而美丽!'))

Run


['Python', 'is', 'powerful', 'and', 'beautiful']	
['Python', 'is', 'powerful', 'and', 'beautiful!']	
['Python', '强大', '美丽']

三、 导入数据

torchtext中使用torchtext.data.TabularDataset来导入自己的数据集,并且我们需要先定义字段的数据类型才能导入。要按照csv中的字段顺序来定义字段的数据类型,我们的csv文件中有两个字段(label、text)


import pandas as pd	
df = pd.read_csv('data/train.csv')	
df.head()


import torch	
import torchtext	
from torchtext import data	
import logging	
LABEL = data.LabelField(dtype = torch.float)	
TEXT = data.Field(tokenize = tokenize1, 	
                      lower=True,	
                      fix_length=100,	
                      stop_words=None)	
train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹	
                                                train='dataset_train.csv', 	
                                                validation='dataset_valid.csv',	
                                                test = 'test.csv',	
                                                fORMat='csv', 	
                                                skip_header=True,	
                                                fields = [('label', LABEL),('text', TEXT)])	
train

Run


<torchtext.data.dataset.TabularDataset at 0x120d8ab38>

四、构建词典

根据训练(上面得到的train)的预料数据集构建词典。这两有两种构建方式,一种是常规的不使用词向量,而另一种是使用向量的。

区别仅仅在于vectors是否传入参数


vects =  torchtext.vocab.Vectors(name = 'glove.6B.100d.txt', 	
                                 cache = 'data/')	
TEXT.build_vocab(train,	
                 max_size=2000, 	
                 min_freq=50,   	
                 vectors=vects,  #vects替换为None则不使用词向量	
                 unk_init = torch.Tensor.normal_)

4.1 TEXT是Field对象,该对象的方法有


print(type(TEXT)) 
print(type(TEXT.vocab))

Run


<class 'torchtext.data.field.Field'> 
<class 'torchtext.vocab.Vocab'>

词典-词语列表形式,这里只显示前20个


TEXT.vocab.itos[:20]

['<unk>', 
 '<pad>', 
 'to', 
 'you', 
 'the', 
 '...', 
 'and', 
 'is', 
 'in', 
 'me', 
 'it', 
 'my', 
 'for', 
 'your', 
 '..', 
 'do', 
 'of', 
 'have', 
 'that', 
 'call']

词典-字典形式


TEXT.vocab.stoi

defaultdict(<bound method Vocab._default_unk_index of <torchtext.vocab.Vocab object at 0x1214b1e48>>, 
            {'<unk>': 0, 
             '<pad>': 1, 
             'to': 2, 
             'you': 3, 
             'the': 4, 
             '...': 5, 
             'and': 6, 
             'is': 7, 
             'in': 8, 
             .... 
             'mother': 0, 
             'english': 0, 
             'son': 0, 
             'gradfather': 0, 
             'father': 0, 
             'german': 0)

4.2 注意

train数据中生成的词典,里面有,这里有两个要注意:

是指不认识的词语都编码为

german、father等都编码为0,这是因为我们要求词典中出现的词语词频必须大于50,小于50的都统一分配一个索引值。

词语you对应的词向量


TEXT.vocab.vectors[3]

tensor([-0.4989,  0.7660,  0.8975, -0.7855, -0.6855,  0.6261, -0.3965,  0.3491,	
         0.3333, -0.4523,  0.6122,  0.0759,  0.2253,  0.1637,  0.2810, -0.2476,	
         0.0099,  0.7111, -0.7586,  0.8742,  0.0031,  0.3580, -0.3523, -0.6650,	
         0.3845,  0.6268, -0.5154, -0.9665,  0.6152, -0.7545, -0.0124,  1.1188,	
         0.3572,  0.0072,  0.2025,  0.5011, -0.4405,  0.1066,  0.7939, -0.8095,	
        -0.0156, -0.2289, -0.3420, -1.0065, -0.8763,  0.1516, -0.0853, -0.6465,	
        -0.1673, -1.4499, -0.0066,  0.0048, -0.0124,  1.0474, -0.1938, -2.5991,	
         0.4053,  0.4380,  1.9332,  0.4581, -0.0488,  1.4308, -0.7864, -0.2079,	
         1.0900,  0.2482,  1.1487,  0.5148, -0.2183, -0.4572,  0.1389, -0.2637,	
         0.1365, -0.6054,  0.0996,  0.2334,  0.1365, -0.1846, -0.0477, -0.1839,	
         0.5272, -0.2885, -1.0742, -0.0467, -1.8302, -0.2120,  0.0298, -0.3096,	
        -0.4339, -0.3646, -0.3274, -0.0093,  0.4721, -0.5169, -0.5918, -0.3234,	
         0.2005, -0.4118,  0.4054,  0.7850])

4.3 计算词语的相似性

得用词向量构建特征工程时能保留更多的信息量(词语之间的关系)

这样可以看出词语的向量方向

是同义还是反义

距离远近。

而这里我们粗糙的用余弦定理计算词语之间的关系,没有近义反义关系,只能体现出距离远近(相似性)。


from sklearn.metrics.pairwise import cosine_similarity 
import numpy as np 
def simalarity(word1, word2): 
    word_vec1 = TEXT.vocab.vectors[TEXT.vocab.stoi[word1]].tolist() 
    word_vec2 = TEXT.vocab.vectors[TEXT.vocab.stoi[word2]].tolist() 
    vectors = np.array([word_vec1, word_vec2]) 
    return cosine_similarity(vectors) 
print(simalarity('you', 'your'))

Run


[[1.         0.83483314] 
 [0.83483314 1.        ]]

五、get_dataset函数

相似的功能合并成模块,可以增加代码的可读性。这里我们把阶段性合并三四的成果get_dataset函数


from torchtext import data	
import torchtext	
import torch	
import logging	
LOGGER = logging.getLogger("导入数据")	
def get_dataset(stop_words=None):	
    #定义字段的数据类型	
    LABEL = data.LabelField(dtype = torch.float)	
    TEXT = data.Field(tokenize = tokenize1, 	
                      lower=True,	
                      fix_length=100,	
                      stop_words=stop_words)	
    LOGGER.debug("准备读取csv数据...")	
    train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹	
                                         train='dataset_train.csv', 	
                                         validation='dataset_valid.csv',	
                                         test = 'test.csv',	
                                         format='csv', 	
                                         skip_header=True,	
                                         fields = [('label', LABEL),('text', TEXT)])	
    LOGGER.debug("准备导入词向量...")	
    vectors = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt', 	
                                      cache = 'data/')	
    LOGGER.debug("准备构建词典...")	
    TEXT.build_vocab(	
        train,	
        max_size=2000, 	
        min_freq=50,   	
        vectors=vectors,	
        unk_init = torch.Tensor.normal_)	
    LOGGER.debug("完成数据导入!")	
    return train,valid, test, TEXT

get_dataset函数内部参数解读

data.Field(tokenize,fix_length)定义字段

tokenize=tokenize1 使用英文的分词器tokenize1函数。

fix_length=100 让每个文本分词后的长度均为100个词;不足100的,可以填充为100。超过100的,只保留100

data.TabularDataset.splits(train, validation,test, format,skip_header,fields)读取训练验证数据,可以一次性读取多个文件

train/validation/test 训练验证测试对应的csv文件名

skip_header=True 如果csv有抬头,设置为True可以避免pytorch将抬头当成一条记录

fields = [('label', LABEL), ('text', TEXT)] 定义字段的类型,注意fields要按照csv抬头中字段的顺序设置

torchtext.vocab.Vectors(name, cache)导入词向量数据文件

name= 'glove.6B.100d.txt' 从网上下载预训练好的词向量glove.6B.100d.txt文件(该文件有6B个词,每个词向量长度为100)

cache = 'data/' 文件夹位置。glove文件存放在data文件夹内

TEXT.buildvocab(maxsize,minfreq,unkinit) 构建词典,其中

max_size=2000 设定了词典最大词语数

min_freq=50设定了词典中的词语保证最少出现50次

unkinit=torch.Tensor.normal 词典中没有的词语对应的向量统一用torch.Tensor.normal_填充

六、分批次

数据集太大的话,一次性让机器读取容易导致内存崩溃。解决办法就是将大的数据集分成更小份的数据集,分批处理


def split2batches(batch_size=32, device='cpu'):	
    train, valid, test, TEXT = get_dataset() #datasets按顺序包含train、valid、test三部分	
    LOGGER.debug("准备数据分批次...")	
    train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits((train, valid, test), 	
                                                                               batch_size = batch_size,	
                                                                               sort = False,	
                                                                               device = device)	
    LOGGER.debug("完成数据分批次!")	
    return train_iterator, valid_iterator, test_iterator, TEXT

6.1参数解读


split2batches(batch_size=32, device=0)

batch_size 每批次最多加入多少条评论

device device='cpu'在CPU中运行,device='gpu' 在GPU中运行。普通电脑都只有CPU的 该函数返回的是BucketIterator对象


train_iterator, valid_iterator, test_iterator, TEXT = split2batches() 
train_iterator

Run


<torchtext.data.iterator.BucketIterator at 0x12b0c7898>

查看train_iterator数据类型


type(train_iterator)
torchtext.data.iterator.BucketIterator

6.2BucketIterator对象

这里以trainiterator为例(validiterator, test_iterator都是相同的对象)。因为本例中数据有两个字段label和text,所以

获取train_iterator的dataset


train_iterator.dataset
<torchtext.data.dataset.TabularDataset at 0x12e9c57b8>

获取train_iterator中的第8个对象


train_iterator.dataset.examples[7]
<torchtext.data.example.Example at 0x12a82dcf8>

获取train_iterator中的第8个对象的lebel字段的内容


train_iterator.dataset.examples[7].label
'ham'

获取train_iterator中的第8个对象的text字段的内容


train_iterator.dataset.examples[7].text
['were', 'trying', 'to', 'find', 'chinese', 'food', 'place', 'around', 'here']

总结

到这里我们已经学习了torchtext的常用知识。使用本代码要注意:

我们假设数据集是csv文件,torchtext可以还可以处理tsv、JSON。但如果你想使用本代码,请先转为csv

本教程的csv文件只有两个字段,label和text。如果你的数据有更多的字段,记得再代码中增加字段定义

本教程默认场景是英文,且使用词向量。所以记得对应位置下载本教程的glove.6B.100d.txt。

glove下载地址Https://nlp.stanford.edu/projects/glove/

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。

--结束END--

本文标题: 使用torchtext导入NLP数据集的操作

本文链接: https://www.lsjlt.com/news/126141.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 使用torchtext导入NLP数据集的操作
    如果你是pytorch的用户,可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。 从torchtext这个名字我们也能大概猜到该库是pytorch圈...
    99+
    2022-11-12
  • MySQL 表数据的导入导出操作示例
    本文实例讲述了MySQL 表数据的导入导出操作。分享给大家供大家参考,具体如下: 数据导出   使用 SELECT ...INTO OUTFILE ...命令来导出数据,具体语法如...
    99+
    2022-05-11
    MySQL 表数据 导入导出
  • PHPOffice/PhpSpreadsheet的导入导出操作基本使用
    phpspreadsheet 引入 由于PHPExcel早就停止更新维护,所以适用phpspreadsheet。不知道如何通过composer拉取项目包的同学,可以查看Composer学习一文。引入方...
    99+
    2023-09-08
    php
  • navicat导入本地数据库的操作方法
    这篇文章主要介绍了navicat导入本地数据库的操作方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1、首先我们打开软件,并且连接上本地数...
    99+
    2022-10-18
  • Oracle rac环境的数据库导入操作步骤
    目录oracle rac环境的数据库导入操作以下应是规范的操作步骤:1. 创建表空间前,先查看表空间所在目录2. 创建用户表空间、用户及密码3. 如果表空间不足,需创建足够的表空间文件4. 如果上述创建的表空间存在问题,...
    99+
    2023-06-10
    Oracle rac数据库导入 Oracle rac数据库
  • navicat导入sql数据库文件的简单操作步骤
    目录 前言必读 一、概念 二、操作步骤 (一)新建连接  (二)新建数据库 (三)数据库导入sql文件 前言必读 读者手册(必读)_云边的快乐猫的博客-CSDN博客 一、概念 在很多项目当中都有sql文件导入到MySQL数据库的需...
    99+
    2023-09-07
    数据库 数据库导入 sql导入 MySQL mysql导入
  • 使用T-SQL语句操作数据表-插入数据
    插入数据(insert)语法:insert [into] <表名> [列名] values <值列表>解释:insert :是语法名,插入的意思into:是选填的,可以省...
    99+
    2022-10-18
  • python3 使用openpyxl将mysql数据写入xlsx的操作
    编程的生活愈发不容易了,工作越来越难找,说多了都是泪还是给大家贡献些代码比较实际。 python3 链接数据库需要下载名为pymysql的第三方库 python3 读写xlsx需要下载名为openpyxl的第三方库 ...
    99+
    2022-05-28
    python3 openpyxl mysql xlsx
  • PHP怎么使用xlswriter进行大数据的导入导出
    这篇文章主要介绍了PHP怎么使用xlswriter进行大数据的导入导出的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇PHP怎么使用xlswriter进行大数据的导入导出文章都会有所收获,下面我们一起来看看吧。一...
    99+
    2023-07-02
  • SQLT导入测试数据,及SQL Profile的使用
        性能分析过程中,经常会遇到生产库出现SQL的性能问题,但是,我们没有办法在生产库上做很多动作,需要将这个SQL的对应的表结构信息,统计信息导入到测试库进行测试(没有真实的测试数据...
    99+
    2022-10-18
  • 使用Navicat导入数据库备份的方法
    这篇文章主要介绍使用Navicat导入数据库备份的方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!我们在开发网站,或者运营网站的时候,要养成经常备份数据库的习惯,因为这样可以预防数...
    99+
    2022-10-18
  • 数据泵EXPDP导出工具和IMPDP导入工具的使用
    数据泵EXPDP导出工具和IMPDP导入工具的使用  一、EXPDP和IMPDP使用说明Oracle Database 10g引入了最新的数据泵(Data Dump)技术,数据泵导出导入(EXPD...
    99+
    2022-10-18
  • 使用pytorch加载并读取COCO数据集的详细操作
    目录环境配置基础知识:元祖、字典、数组利用PyTorch读取COCO数据集利用PyTorch读取自己制作的数据集如何使用pytorch加载并读取COCO数据集 环境配置基础知识:元祖...
    99+
    2022-11-11
  • Java使用PrepareStatement实现数据的插入与查询操作
    目录一、使用PrepareStatement实现插入数据的操作二、使用PrepareStatement实现查询数据的操作三、ResultSet和ResultSetMetaData四、...
    99+
    2022-11-13
  • 如何使用MongoDB实现数据的批量导入、导出功能
    如何使用MongoDB实现数据的批量导入、导出功能MongoDB是一种NoSQL数据库,作为一种非关系型数据库,其在数据存储和查询上有着很大的灵活性和性能优势。对于需要批量导入和导出数据的应用场景,MongoDB也提供了相应的工具和接口。本...
    99+
    2023-10-22
    MongoDB 导出 批量导入
  • 使用VUE+SpringBoot+EasyExcel 整合导入导出数据的教程详解
    目录1 前端2 数据库3 后端3.1 contrller3.2 mapper3.3 bean3.4 listener3.5 config3.6 配置文件4 启动测试创建一个普通的ma...
    99+
    2022-11-13
  • PHP如何使用xlswriter进行大数据的导入导出?(详解)
    PHP如何使用xlswriter进行大数据的导入导出?下面本篇文章给大家介绍一下PHP大数据xlswriter导入导出(最优数据化)的方法,希望对大家有所帮助!本文介绍基于PHP扩展xlswriter的Vtiful\Kernel\Excel...
    99+
    2022-07-07
    php
  • MongoDB常用的操作(服务器、数据库、集合)
    MongoDB常用的操作 前面两篇已经介绍了MongoDB系统架构及其BSON数据类型。本文将讲解基本的MongoDB操作。 一、MongoDB启动命令 启动MongoDB systemctl st...
    99+
    2023-09-08
    mongodb 数据库 sql
  • 如何用用导航猫Navicat简单操作你的数据库
    如何用用导航猫Navicat简单操作你的数据库,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。网址:www.navicat.co...
    99+
    2022-10-18
  • 使用Java怎么将excel中的数据导入mysql中
    今天就跟大家聊聊有关使用Java怎么将excel中的数据导入mysql中,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。思路:先将excel中的数据取...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作