iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python jieba分词怎么添加自定义词和去除不需要长尾词
  • 952
分享到

Python jieba分词怎么添加自定义词和去除不需要长尾词

2023-07-05 07:07:19 952人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这篇“python jieba分词怎么添加自定义词和去除不需要长尾词”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“

这篇“python jieba分词怎么添加自定义词和去除不需要长尾词”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python jieba分词怎么添加自定义词和去除不需要长尾词”文章吧。

通过如下代码,读取一个txt的高频词汇:

            # 找到高频词汇            tmp_content = self.getContent(tmp_path)            keyWord_list = tmp_content.split('\n')            word_count = dict()            for keyword in keyword_list:                for word,flag in jp.cut(keyword):                    if word in word_count:                        word_count[word] = word_count[word] +1                    else:                        word_count[word] =1            for word, count in word_count.items():                print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

Python jieba分词怎么添加自定义词和去除不需要长尾词

一、添加自定义词

通过添加自定义词

import jiebaimport jieba.posseg as jpjieba.load_userdict(r'jieba_dict.txt')

Python jieba分词怎么添加自定义词和去除不需要长尾词

就可以看到,统计出来的词是这个自定义词

Python jieba分词怎么添加自定义词和去除不需要长尾词

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

import jiebaimport jieba.posseg as jpjieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动 是一个词,它会将它们分开统计

Python jieba分词怎么添加自定义词和去除不需要长尾词

以上就是关于“Python jieba分词怎么添加自定义词和去除不需要长尾词”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网Python频道。

--结束END--

本文标题: Python jieba分词怎么添加自定义词和去除不需要长尾词

本文链接: https://www.lsjlt.com/news/350510.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作