Python 官方文档:入门教程 => 点击学习
目录一、添加自定义词二、去除不需要长尾词总结python jieba分词如何添加自定义词和去除不需要长尾词 通过如下代码,读取一个txt的高频词汇: # 找
python jieba分词如何添加自定义词和去除不需要长尾词
通过如下代码,读取一个txt的高频词汇:
# 找到高频词汇
tmp_content = self.getContent(tmp_path)
keyWord_list = tmp_content.split('\n')
word_count = dict()
for keyword in keyword_list:
for word,flag in jp.cut(keyword):
if word in word_count:
word_count[word] = word_count[word] +1
else:
word_count[word] =1
for word, count in word_count.items():
print('%s\t%s' % (word,count))
很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下
建立
和 可视化
是2个独立的单词
通过添加自定义词
import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')
就可以看到,统计出来的词是这个自定义词
有时 统计出来的某些词汇jieba
认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:
import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')
此时 jieba 就会不认定 创建活动
是一个词,它会将它们分开统计
到此这篇关于Python jieba分词如何添加自定义词和去除不需要长尾词的文章就介绍到这了,更多相关Python jieba分词内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!
--结束END--
本文标题: Python jieba分词添加自定义词和去除不需要长尾词的操作方法
本文链接: https://www.lsjlt.com/news/198236.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
下载Word文档到电脑,方便收藏和打印~
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0