BertTokenizer的使用方法(超详细)

人工智能深度学习 python pytorch 2023-09-10 12:09:40 744人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

导入 from transfORMers import BertTokenizerfrom PyTorch_pretrained import BertTokenizer 以上两行代码都可以导入Ber

导入

from transfORMers import BertTokenizerfrom PyTorch_pretrained import BertTokenizer

以上两行代码都可以导入BerBertTokenizer,transformers是当下比较成熟的库，pytorch_pretrained是Google提供的源码(功能不如transformers全面)

加载

tokenizer = BertTokenizer.from_pretrained('bert_pretrain')

数据

首先定义一些数据：

sents = [    '人工智能是计算机科学的一个分支。',    '它企图了解智能的实质。',    '人工智能是一门极富挑战性的科学。',]

tokenize

将句子拆分为token，并不映射为对应的id

token = tokenizer.tokenize(sents[0])print(token)# 输出：['人', '工', '智', '能', '是', '计', '算', '机', '科', '学', '的', '一', '个', '分', '支', '。']

convert_tokens_to_ids

将token映射为其对应的id（ids是我们训练中真正会用到的数据）

ids = tokenizer.convert_tokens_to_ids(token)print(ids)#输出：[8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043]

同理convert_ids_to_tokens，就是上述方法的逆过程

encode(从此方法开始，只有transformers可以实现)

convert_tokens_to_ids是将分词后的token转化为id序列，而encode包含了分词和token转id过程，即encode是一个更全的过程，另外，encode默认使用basic的分词工具，以及会在句子前和尾部添加特殊字符[CLS]和[SEP]，无需自己添加。从下可以看到，虽然encode直接使用tokenizer.tokenize()进行词拆分，会保留头尾特殊字符的完整性，但是自己也会额外添加特殊字符。

token = tokenizer.tokenize(sents[0])print(token)ids = tokenizer.convert_tokens_to_ids(token)print(ids)ids_encode = tokenizer.encode(sents[0])print(ids_encode)token_encode = tokenizer.convert_ids_to_tokens(ids_encode)print(token_encode)# 输出结果：#['人', '工', '智', '能', '是', '计', '算', '机', '科', '学', '的', '一', '个', '分', '支', '。']#[8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043]#[1, 8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043, 2]#['[CLS]', '人', '工', '智', '能', '是', '计', '算', '机', '科', '学', '的', '一', '个', '分', '支', '。', '[SEP]']

从运行结果可以看到encode确实在首尾增加了特殊词元[cls]和[sep]也就是1和2

encode_plus

返回更多相关信息：

ids = tokenizer.encode_plus(sents[0])print(ids)# {'input_ids': [1, 8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043, 2], #'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], #'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

batch_encode_plus

以 batch 的形式去编码句子

ids = tokenizer.batch_encode_plus([x for x in sents])print(ids)# {#'input_ids': [[1, 8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043, 2], [1, 380, 258, 429, 15, 273, 826, 52, 5, 79, 207, 12043, 2], [1, 8, 35, 826, 52, 10, 7, 232, 456, 595, 1373, 267, 92, 5, 147, 18, 12043, 2]], #'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], #'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

来源地址：https://blog.csdn.net/gary101818/article/details/129291852

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: BertTokenizer的使用方法(超详细)

本文链接: https://www.lsjlt.com/news/402318.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

BertTokenizer的使用方法(超详细)

导入 from transformers import BertTokenizerfrom pytorch_pretrained import BertTokenizer 以上两行代码都可以导入Ber...

99+

2023-09-10

人工智能深度学习 python pytorch
Python中JSON的使用方法(超详细)

目录1. JSON简介2. JSON语法规则3. JSON数据类型4. JSON对象5. JSON数组6. JSON中常用的方法6.1 json.dumps()6.2 json.lo...

99+

2022-11-13

Python JSON使用 Python JSON基本使用 Python JSON
C++BoostLockfree超详细讲解使用方法

目录一、说明二、示例和代码Boost.Lockfree 一、说明 Boost.Lockfree 提供线程安全和无锁容器。可以从多个线程访问此库中的容器，而无需同步访问。在 1.56...

99+

2022-11-21

C++ Boost Lockfree C++ Lockfree方案
C++ Boost Lockfree超详细讲解使用方法

Boost Lockfree 是一个基于 C++ 的库，用于实现无锁的数据结构和算法。无锁的数据结构和算法是为了解决并发编程中的竞争...

99+

2023-08-16

C++
Java超详细梳理IO流的使用方法上

目录Java语言的输入输出类库1.流的概念2.流的分类3.流的作用4.输入输出流类库使用InputStream和OutputStream流类1.基本输入输出流1.InpitStrea...

99+

2024-04-02
C++超详细梳理lambda和function的使用方法

目录lambda表达式谈谈lambda的捕获万能的functionbind操作lambda表达式 lambda表达式又称为匿名表达式，是C11提出的新语法。[]存储lambda表达式...

99+

2022-11-13

C++ lambda C++ function
pymysql的使用超详细

目录一、安装pymysql二、使用步骤（1）导包（2）连接数据库（3）创建游标（4）操作数据库①添加数据【增】②删除/修改数据【删/改】③查询数据 (5)关闭连接pymysql总结三、常见问题1）不知道ip地址（1）w...

99+

2023-08-18

数据库 sql mysql python
python使用正则表达式(Regular Expression)方法超详细

正则表达式是一种用于匹配、查找和提取字符串的强大工具。在Python中，我们可以使用内置的re模块来使用正则表达式。下面是一些常用的...

99+

2023-08-17

Python
Java超详细讲解hashCode方法

目录1、介绍一下hashCode方法2、为什么需要hashCode方法？3、hashCode()，equals()两种方法是什么关系?4、为什么重写 equals 方法必须重...

99+

2024-04-02
SecureCRT的使用超详细教程

目录下载和安装简单的介绍如何使用一、SecureCRT的使用二、SecureFX的使用使用乱码下载和安装 SecureCRT和SecureFX的下载和安装我这里就不多说了，详细的安装...

99+

2024-04-02
Linux系统使用(超详细)

目录 Linux操作系统简介 Linux和windows区别 Linux常见命令 Linux目录结构 Linux命令提示符常用命令 ls cd pwd touch cat echo mkdir rm cp mv v...

99+

2023-09-16

linux 运维服务器
Kotlin扩展方法超详细介绍

目录前言一、扩展方法1.扩展方法的原型2.扩展方法的使用二、Kotlin扩展方法实现原理三、泛型扩展方法四、扩展属性五、为伴生对象添加扩展六、Kotlin 中常用的扩展七、案例前言 ...

99+

2024-04-02
Android超详细深刨ActivityResultAPI的使用

如果你将项目中的appcompat库升级到1.3.0或更高的版本，你会发现startActivityForResult()方法已经被废弃了。这个方法相信所有做过Android...

99+

2024-04-02
React超详细讲述Fiber的使用

目录Fiber概念结构Fiber树的遍历是这样发生的深度遍历window.requestIdleCallback()requestAnimationFrameFiber是如何工作的结...

99+

2023-02-08

React Fiber原理 React Fiber优点 React Fiber
pyautogui库的使用教程(超详细)

一、前言 PyAutoGUI 让您的 Python 脚本控制鼠标和键盘以自动与其他应用程序交互。官方文档：PyAutoGUI documentation 常用函数列表函数名功能基本pyautogui.size()返回包含分辨率...

99+

2023-09-01

python
Python安装第三方库常用方法超详细~

Python安装第三方库常用方法前言安装方法1. 通过pychram安装2. pip安装大法3. 下载whl文件到本地离线安装3.1 补充 4.其他方法4.1 Python官方的Pyp...

99+

2023-09-01

python pycharm pip
ReentrantLock介绍及使用(超详细)

点击 Mr.绵羊的知识星球解锁更多优质文章。目录一、介绍 1. 简介 2. 是什么类型的锁 3. 优点 4. 原理 5. 主要方法 6. 使用时注意事项二、实际应用 1. 案例一 2. 案例二一、介绍 1. 简介 ...

99+

2023-09-20

java 开发语言
在idea中使用mysql（超详细）

一、连接mysql 在IDE开发工具中也是可以使用mysql的，这里以开发java常用的IntelliJ IDEA为例。 1. 打开idea，右上角有数据库侧边栏，打开侧边栏点击加号->数据源，可以看到支持很多数据库，选择mysql。 ...

99+

2023-09-01

mysql 数据库 java intellij-idea Powered by 金山文档
使用SpringBootMaven插件的详细方法

目录Maven继承starter parent使用没有父POM的Spring Boot改变Java版本使用Spring Boot Maven插件Maven Maven用户可以继承sp...

99+

2023-05-19

Spring Boot Maven插件 Spring Boot Maven使用
vue中使用vuex的超详细教程

目录一、适合初学者使用，保存数据以及获取数据二、模块化（适合有部分基础的人）vuex是使用vue中必不可少的一部分，基于父子、兄弟组件，我们传值可能会很方便，但是如果是没有关联的组件...

99+

2022-11-13

vue使用vuex vue vuex