Python第三方库jieba库与中文分词全面详解

2024-04-02 19:04:59 896人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

目录一、什么是jieba库二、jieba分词原理三、jieba库支持的三种分词模式1.精确模式2.全模式3.搜索引擎模式四、jieba库常用函数五、jieba实操练习一（jieba.

一、什么是jieba库

jieba是优秀的中文分词第三方库，由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个词组，这种手段叫做分词，我们可以通过jieba库来完成这个过程。

二、jieba分词原理

jieba库的分词原理是利用了一个中文词库，将待分词的内容与分词词库对比，通过图结构和动态规则划分方法找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能。

三、jieba库支持的三种分词模式

1.精确模式

将句子最精确地分开，适合文本分析；

2.全模式

把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；

3.搜索引擎模式

在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

注：对中文分词来说，jieba库只需要一行代码即可。英文文本不存在分词问题

四、jieba库常用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表值
jieba.lcut(s,cut_all=True)	全模式，返回一个列表值
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表值
jieba.add_word(w)	向分词词典中增加新词w

五、jieba实操

首先你需要安装jieba库
pip install jieba

练习一（jieba.lcut）精确模式

jieba.lcut(s)是最常用的中文分词函数，用于精确模式，将字符串分割成等量的中文词组。

import jieba

ls = jieba.lcut("我愿意穿过璀璨繁星")
print(ls)

练习二（jieba.lcut(s,cut_all=True) ）全模式

jieba.lcut(s,cut_all=True)用于全模式，将字符串的所有分词可能列出来，冗余最大。

import jieba
ls = jieba.lcut("人面不知何处去,桃花依旧笑春风", cut_all=True)
print(ls)

练习三（jieba.lcut_for_search）搜索引擎模式

jieba.lcut_for_search该模式首先执行精确模式，然后在对其中长词进一步分获得最终结果

import jieba
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)
print(ls)

练习四（jieba.add_word(w)）增加新词

import jieba

ls = jieba.lcut_for_search("仰天大笑出门去我辈岂是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出门去我辈岂是蓬蒿人")
print(ls1)

小结：精确模式因为不产生冗余，最为常用。

总结

到此这篇关于python第三方库jieba库与中文分词的文章就介绍到这了,更多相关Python jieba库与中文分词内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python第三方库jieba库与中文分词全面详解

本文链接: https://www.lsjlt.com/news/119218.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python第三方库jieba库与中文分词全面详解

目录一、什么是jieba库二、jieba分词原理三、jieba库支持的三种分词模式1.精确模式2.全模式3.搜索引擎模式四、jieba库常用函数五、jieba实操练习一（jieba....

99+

2024-04-02
Python中文分词库jieba(结巴分词)详细使用介绍

一，jieba的介绍 jieba 是目前表现较为不错的 Python 中文分词组件，它主要有以下特性：支持四种分词模式：精确模式全模式搜索引擎模式paddle模式支持繁体分词支持...

99+

2024-04-02
python中jieba库(中文分词库)使用安装教程

目录python中jieba库(中文分词库)使用安装教程介绍安装功能分词自定义词典关键词提取词性标注补充：Python中文分词库——jieba的用法.使用说明...

99+

2023-05-17

python中jieba库使用 Python中文分词库jieba jieba库用法
Python中第三方库Faker的使用详解

目录背景介绍实战：模拟1w条数据写入ExcelPython库讲解1. 生成姓名2. 生成详细地址3. 生成所在省份4. 生成手机号5. 生成身份证号6. 生成出生年月7. 生成邮箱补...

99+

2024-04-02
python中第三方库pyecharts的使用详解

与pyecharts有关的两个网站：官方网站：pyecharts - A Python Echarts Plotting Library built with love. ，画廊功能...

99+

2024-04-02
Python——jieba优秀的中文分词库（基础知识+实例）

Hello，World！从去年开始学习Python，在长久的学习过程中，发现了许多有趣的知识，不断充实自己。今天我所写的内容也是极具趣味性，关于优秀的中文分词库——jieba库。 🏔关于Jieba &...

99+

2023-09-18

中文分词自然语言处理
python第三方库pygame的使用详解

作用：pygame一般用来做游戏注意：1.在使用pygame提供的功能之前，需要调用init方法 2.在游戏结束前需要调用 quit 方法 pygame中的各个函数： 1.pyga...

99+

2024-04-02
python第三方库easydict的使用实例详解

目录easydict是什么一、介绍二、安装三、使用easydict是什么用一句话来说就是，让操作字典像是操作类成员方式一样方便。这个工具其实没有很多要说的，因为它太简单了，简单到网...

99+

2022-11-13

python easydict使用 python第三方库easydict python easydict
python中第三方库——lxml库的最新详细安装教程

方法一： win+r打开cmd，直接输入pip install lxml。（最简单的办法，但是有一大堆因素导致无法安装成功，博主就是，呜呜呜）方法二： win+r打开cmd，输入pip install wheel，先安装wheel库了...

99+

2023-09-12

python 开发语言
Pycharm更换安装源与添加第三方库方法详解

目录一、Pycharm更换安装源二、Pycharm添加第三方库三、Pycharm添加第三方库错误解决总结今天继续给大家介绍Python相关知识，本文主要内容是Pycharm更换安装源...

99+

2023-02-03

pycharm 换源 pycharm添加第三方库 pycharm更换安装源
手机Python编程软件QPython支持第三方库安装详解

目录前言安装如何使用呢？终端编辑器文件QPYPI前言不得不说，对于写代码这件事，真的必须就是在电脑上才会有很好的体验。手机上写Python代码，那种感觉确实不敢想。但是总有粉丝私...

99+

2024-04-02
Go编写定时器与定时任务详解(附第三方库gocron用法)

目录Go 编写定时器和定时任务TimerTickergocron安装Demo总结Go 编写定时器和定时任务在项目开发当中，可能会遇到这样的场景: 1 A任务需要在多久之后执行一次...

99+

2024-04-02
python 网页解析器掌握第三方 lxml 扩展库与 xpath 的使用方法

今天说的则是使用另外一种扩展库 lxml 来对网页完成解析。同样的，lxml 库能完成对 html、xml 格式的文件解析，并且能够用来解析大型的文档、解析速度也是相对比较快的。要...

99+

2024-04-02
python网页解析器掌握第三方lxml扩展库与xpath的使用示例

这篇文章将为大家详细讲解有关python网页解析器掌握第三方lxml扩展库与xpath的使用示例，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。1、导入 lxml 扩展库、并创建对象# -*-&n...

99+

2023-06-14
详解PHP读取数据库时中文乱码的原因与解决方案

标题：解决PHP读取数据库时中文乱码问题的方法与示例在现代的Web开发中，PHP作为一种流行的服务器端语言被广泛应用于与数据库交互的场景中。然而，当涉及到读取数据库中存储的中文数据时...

99+

2024-04-02
【Python小技巧】使用必杀技一键安装Ta-lib（其它第三方库装不上的也可以参考，链接下载不了可通过文中CSDN资源下载）

前言最近升级了电脑系统，换了个nvme的ssd，系统装了win11。界面很清爽，心情不错。安装了最新版本的Anaconda，Python也更新到3.10版本，环境都配置好了，但新装系统后，很多都需...

99+

2023-09-05

python 开发语言数据分析
微信小程序 - 完美解决 web-view 公众号文章或第三方网站分享转发后，打开提示 “无法打开该页面，不支持打开” 或 “页面不存在”（IOS 苹果系统打开是空白页，安卓系统会有提示）超详细排查

前言由于出现这种问题的原因有很多种，绝对不像其他文章教程那样无效，本文提供了超级详细的排查思路与解决方案。本文从 [初步排查] 到 [代码排查]，完美解决因各种原因导致 webview 页面分享后，用户打不开提示错误这类问题，...

99+

2023-08-16

微信小程序 webview无法打开该页面 webview分享页面空白公众号文章/第三方网站 IOS苹果系统打开空白