iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python中文分词和词频统计如何实现
  • 532
分享到

python中文分词和词频统计如何实现

2023-07-02 09:07:10 532人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍“python中文分词和词频统计如何实现”,在日常操作中,相信很多人在Python中文分词和词频统计如何实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python中文分词和词频统计如何实现

这篇文章主要介绍“python中文分词和词频统计如何实现”,在日常操作中,相信很多人在Python中文分词和词频统计如何实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python中文分词和词频统计如何实现”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

一、文本导入

我准备了一个名为abstract.txt的文本文件

python中文分词和词频统计如何实现

接着是在网上下载了stopWord.txt(用于结巴分词时的停用词)

python中文分词和词频统计如何实现

有一些是自己觉得没有用加上去的 

另外建立了自己的词典extraDict.txt

python中文分词和词频统计如何实现

准备工作做好了,就来看看怎么使用吧!

二、使用步骤

1.引入库

代码如下:

import jiebafrom jieba.analyse import extract_tagsfrom sklearn.feature_extraction.text import TfidfVectorizer

2.读入数据

代码如下:

jieba.load_userdict('extraDict.txt')  # 导入自己建立词典

3.取出停用词表

def stopwordlist():    stopwords = [line.strip() for line in open('chinesestopwords.txt', encoding='UTF-8').readlines()]    # ---停用词补充,视具体情况而定---    i = 0    for i in range(19):        stopwords.append(str(10 + i))    # ----------------------     return stopwords

4.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)

def seg_word(line):    # seg=jieba.cut_for_search(line.strip())    seg = jieba.cut(line.strip())    temp = ""    counts = {}    wordstop = stopwordlist()    for word in seg:        if word not in wordstop:            if word != ' ':                temp += word                temp += '\n'                counts[word] = counts.get(word, 0) + 1#统计每个词出现的次数    return  temp #显示分词结果    #return str(sorted(counts.items(), key=lambda x: x[1], reverse=True)[:20])  # 统计出现前二十最多的词及次数

5. 输出分词并去停用词的有用的词到txt

def output(inputfilename, outputfilename):    inputfile = open(inputfilename, encoding='UTF-8', mode='r')    outputfile = open(outputfilename, encoding='UTF-8', mode='w')    for line in inputfile.readlines():        line_seg = seg_word(line)        outputfile.write(line_seg)    inputfile.close()    outputfile.close()    return outputfile

6.函数调用

if __name__ == '__main__':    print("__name__", __name__)    inputfilename = 'abstract.txt'    outputfilename = 'a1.txt'    output(inputfilename, outputfilename)

7.结果  

python中文分词和词频统计如何实现

附:输入一段话,统计每个字母出现的次数

先来讲一下思路:

例如给出下面这样一句话

Love is more than a word
it says so much.
When I see these four letters,
I almost feel your touch.
This is only happened since
I fell in love with you.
Why this word does this,
I haven’t Got a clue.

那么想要统计里面每一个单词出现的次数,思路很简单,遍历一遍这个字符串,再定义一个空字典count_dict,看每一个单词在这个用于统计的空字典count_dict中的key中存在否,不存在则将这个单词当做count_dict的键加入字典内,然后值就为1,若这个单词在count_dict里面已经存在,那就将它对应的键的值+1就行

下面来看代码:

#定义字符串sentences = """           # 字符串很长时用三个引号Love is more than a wordit says so much.When I see these four letters,I almost feel your touch.This is only happened sinceI fell in love with you.Why this word does this,I haven't got a clue."""#具体实现#  将句子里面的逗号去掉,去掉多种符号时请用循环,这里我就这样吧sentences=sentences.replace(',','')   sentences=sentences.replace('.','')   #  将句子里面的.去掉sentences = sentences.split()         # 将句子分开为单个的单词,分开后产生的是一个列表sentences# print(sentences)count_dict = {}for sentence in sentences:    if sentence not in count_dict:    # 判断是否不在统计的字典中        count_dict[sentence] = 1    else:                              # 判断是否不在统计的字典中        count_dict[sentence] += 1for key,value in count_dict.items():    print(f"{key}出现了{value}次")

输出结果是这样:

python中文分词和词频统计如何实现

到此,关于“python中文分词和词频统计如何实现”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: python中文分词和词频统计如何实现

本文链接: https://www.lsjlt.com/news/340717.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python中文分词和词频统计如何实现
    这篇文章主要介绍“python中文分词和词频统计如何实现”,在日常操作中,相信很多人在python中文分词和词频统计如何实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python中文分词和词频统计如何实现...
    99+
    2023-07-02
  • python中文分词+词频统计的实现步骤
    目录前言一、文本导入二、使用步骤1.引入库2.读入数据3.取出停用词表4.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)5. 输出分词并去停用词的有用...
    99+
    2024-04-02
  • Python实现词云图词频统计
    目录一:安装必要的库二:数据分析 条形图可视化三:数据分析 词频统计 词云图可视化一:安装必要的库 导入必要的库 import collections # 词频统计库 import...
    99+
    2022-12-26
    Python词云图词频统计 Python词云图 Python 词频统计
  • Ubuntu如何实现词频统计
    Ubuntu实现词频统计的示例:使用shell实现简单的词频统计,例如:统计如下中第二列单词出现的次数。1,huabingood,1002,haha,2003,huabingood,3004,haha,1005,haha,200实现代码命令...
    99+
    2024-04-02
  • Python jieba中文分词与词频统计的操作案例
    这篇文章给大家分享的是有关Python jieba中文分词与词频统计的操作案例的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、...
    99+
    2023-06-08
  • 如何利用python实现词频统计功能
    目录功能要求方法如下运行结果总结功能要求 这是我们老师的作业 代码中都有注释 要求 词频统计软件: 1)从文本中读入数据:(文件的输入输出) 2)不区分大小写,去除特殊字符。 3)&...
    99+
    2024-04-02
  • 文本分析-使用Python做词频统计分析
    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬...
    99+
    2023-09-01
    数据分析 python
  • Ubuntu怎么实现词频统计
    这篇文章主要介绍了Ubuntu怎么实现词频统计的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Ubuntu怎么实现词频统计文章都会有所收获,下面我们一起来看看吧。Ubuntu实现词频统计的示例:使用shell实现...
    99+
    2023-07-04
  • 一文带你掌握Python中文词频统计
    目录Python中文词频分词停用词词干提取词云图Python 中文词频分词其它库词频统计是指在文本中计算每个词出现的次数。 在 Python 中,可以使用一些第三方库(如 jieba...
    99+
    2023-02-08
    Python中文词频统计 Python词频统计
  • Python中怎么使用Jieba进行词频统计与关键词提取
    这篇文章主要介绍“Python中怎么使用Jieba进行词频统计与关键词提取”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python中怎么使用Jieba进行词频统计与关键词提取”文章能帮助大家解决问...
    99+
    2023-07-05
  • python如何统计文章单词个数
    这篇文章给大家分享的是有关python如何统计文章单词个数的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。lines_count = 0 words_count = ...
    99+
    2023-06-04
  • Python底层技术解析:如何实现分词和词性标注
    Python底层技术解析:如何实现分词和词性标注,需要具体代码示例在自然语言处理(NLP)中,分词和词性标注是一项非常重要的任务。分词是将连续的文字序列切分为单个词语的过程,而词性标注则是为每个词语确定其在文本中的词性,如名词、动词、形容词...
    99+
    2023-11-08
    Python 分词 词性标注
  • Python基于词频排序如何实现快速挖掘关键词
    这篇文章主要介绍“Python基于词频排序如何实现快速挖掘关键词”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python基于词频排序如何实现快速挖掘关键词”文章能帮助大家解决问题。一、所有的代码这...
    99+
    2023-07-05
  • python 中怎么统计文章单词个数
    这篇文章给大家介绍python 中怎么统计文章单词个数,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。文件模版:There are moments in life whe...
    99+
    2023-06-04
  • php中文分词的实现方案
    中文分词是指将中文文本按照一定的规则,分割成一个个有意义的词语的过程。其原理可以简述如下: 词库:中文分词需要一个包含常用词语的词库,该词库可以手动构建,也可以从现有的数据中自动生成。 分词算法:中文分词算法有很多种,常见的有基于规则的...
    99+
    2023-09-01
    中文分词 自然语言处理 Powered by 金山文档
  • Python如何实现分割单词和转换命名
    本文小编为大家详细介绍“Python如何实现分割单词和转换命名”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python如何实现分割单词和转换命名”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。分割单词将一个标识...
    99+
    2023-07-06
  • 如何使用awk统计文件中某关键词出现次数
    这篇文章主要介绍如何使用awk统计文件中某关键词出现次数,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!awk -F "" '{for(i=1;i<=NF;++i) if($i==&q...
    99+
    2023-06-09
  • 基于Python如何实现抢注大词的提词工具
    本篇内容主要讲解“基于Python如何实现抢注大词的提词工具”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“基于Python如何实现抢注大词的提词工具”吧!假设通过爬虫获得了一个自媒体.txt想要...
    99+
    2023-07-05
  • Java中如何使用hanlp中文分词
    这篇文章给大家介绍Java中如何使用hanlp中文分词,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。项目结构 该项目中,.jar和data文件夹和.properties需要从...
    99+
    2024-04-02
  • python如何实现生成词云图
    这篇文章主要介绍python如何实现生成词云图,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!生成的词云图,如下:安装wordcloud,jieba,其他包自行安装:conda install -c conda-for...
    99+
    2023-06-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作