iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >【Python】文本分析
  • 270
分享到

【Python】文本分析

文本Python 2023-01-31 01:01:34 270人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

依赖库 pip install jieba pip install matplotlib pip install Wordcloud pip install snowNLP 词频统计 # -*- coding: utf-8 -

依赖库

  • pip install jieba
  • pip install matplotlib
  • pip install Wordcloud
  • pip install snowNLP

词频统计

# -*- coding: utf-8 -*-

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 加载自定义分词字典
jieba.load_userdict("news.txt")

# 语料
corpos = "美媒称,鉴于全球石油市场过度供给的情况,中国原油需求下滑是其首要担忧之一。过量生产拉低了石油价格,但是中国过去一年左右的疲弱需求引发了缓慢的回弹。"

seg_list = jieba.cut(corpos)
seg_list2 = jieba.cut(corpos)
text = " ".join(seg_list)

# 词频统计
segStat = {}
for seg in seg_list2:
    if seg in segStat:
        segStat[seg] += 1
    else:
        segStat[seg] = 1
print segStat

# 创建词云
wordcloud = WordCloud(font_path="D:\\PDM\\2.1\\simhei.ttf", background_color="black").generate(text)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()


关键字提取

# -*- coding: utf-8 -*-

import jieba.analyse

# 语料
corpos = "美媒称,鉴于全球石油市场过度供给的情况,中国原油需求下滑是其首要担忧之一。过量生产拉低了石油价格,但是中国过去一年左右的疲弱需求引发了缓慢的回弹。"

# 设置停用词
jieba.analyse.set_stop_words("stop_words.txt")

# 提取关键词
#tags = jieba.analyse.extract_tags(corpos, topK=5)
tags = jieba.analyse.textrank(corpos, topK=5, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
print(",".join(tags))

计算文章相似度

# -*- coding: utf-8 -*-

import jieba.analyse
from snownlp import SnowNLP

corpos = u"美媒称,鉴于全球石油市场过度供给的情况,中国原油需求下滑是其首要担忧之一。过量生产拉低了石油价格,但是中国过去一年左右的疲弱需求引发了缓慢的回弹。"

# 抽取文章关键词
tags = jieba.analyse.extract_tags(corpos, topK=5)
text1 = []
for tag in tags:
    text1.append(tag)
print text1

# 文章列表[[doc1],[doc2],[doc3]...]
text = [text1,[u"文章",u"doc2"],[u"这是doc3"]]
text2 = text1

s = SnowNLP(text)

# 值越大越相似
print s.sim(text2)# [1.8325582915371863, 0, 0]

摘要提取

# -*- coding: utf-8 -*-

from snownlp import SnowNLP

text1 = u"美媒称,鉴于全球石油市场过度供给的情况,中国原油需求下滑是其首要担忧之一。过量生产拉低了石油价格,但是中国过去一年左右的疲弱需求引发了缓慢的回弹。"

s = SnowNLP(text1)

print s.summary(3)

--结束END--

本文标题: 【Python】文本分析

本文链接: https://www.lsjlt.com/news/184955.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 【Python】文本分析
    依赖库 pip install jieba pip install matplotlib pip install wordcloud pip install snownlp 词频统计 # -*- coding: utf-8 -...
    99+
    2023-01-31
    文本 Python
  • python简单的分析文本
    import collections import re #读取tips.txt文件内容,type(mytips)=str with open("tips.txt","r",encoding="utf-8") as tip: ...
    99+
    2023-01-31
    文本 简单 python
  • 文本分析-使用Python做词频统计分析
    🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬...
    99+
    2023-09-01
    数据分析 python
  • Python中怎么实现文本分析
    这期内容当中小编将会给大家带来有关Python中怎么实现文本分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。任务(Task)人为判断同义词很简单,但用程序来判断就不简单了。小爱想到了两种方式:制作一个同...
    99+
    2023-06-16
  • 用Python进行简单的文本相似度分析
    学习目标: 利用gensim包分析文档相似度 使用jieba进行中文分词 了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:...
    99+
    2023-01-31
    文本 简单 Python
  • Python数据分析案例23——电商评论文本分析(LDA,共现网络)
    本次案例适合物流,电商,大数据等专业的同学。 案例背景: 对于现在的某宝某东上面电商平台的商品,我们可以去找一家店铺,选着某个商品,爬取文本,然后进行如下的文本分析。 本次选择了某东上面的一个是手抓饼商品的评论,我爬取了2千多条,数据长这...
    99+
    2023-10-25
    python 数据分析 文本分析 LDA模型 词云图
  • python实现文本分类
    一、中文文本分类流程:1. 预处理2. 中文分词3. 结构化表示-构建词向量空间4.权重策略-TF-IDF5. 分类器6. 评价二、具体细节1.预处理    1.1. 得到训练集语料库    本文采用复旦中文文本分类语料库,下载链接:ht...
    99+
    2023-01-31
    文本 python
  • CSS文本属性实例分析
    这篇“CSS文本属性实例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“CSS文本属性实...
    99+
    2022-10-19
  • Python怎么进行字符串处理和文本分析
    这篇文章主要介绍“Python怎么进行字符串处理和文本分析”,在日常操作中,相信很多人在Python怎么进行字符串处理和文本分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”...
    99+
    2022-10-19
  • Python实现对中文文本分段分句
    目录一、问题二、步骤三、最后整体代码一、问题 实现对文本的分句,大致来说主要是以中文的句号、感叹、问号等符号进行分句。难点在于直接分句可能会造成人物说话的语句也被分开! 二、步骤 分...
    99+
    2023-03-15
    Python中文文本分段分句 Python文本分段分句 Python文本分段 Python文本分句 Python文本
  • python中的脚本性能分析
    目录python脚本性能分析python性能分析技巧1.分析一行代码2.分析多行代码3.代码块中的每一行代码进行时间分析python脚本性能分析 首先使用cd进入需要测试的脚本文件对...
    99+
    2022-11-11
  • Python格式化文本段落之textwrap库的示例分析
    这篇文章主要介绍了Python格式化文本段落之textwrap库的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、前言前文是针对普通的字符串数据进行处理。今天,我们...
    99+
    2023-06-15
  • 如何分析HTML文本格式化
    如何分析HTML文本格式化,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。HTML 格式化标签HTML 使用标签<b> 与<i...
    99+
    2022-10-19
  • 基于Spark Mllib文本分类的示例分析
    这篇文章将为大家详细讲解有关基于Spark Mllib文本分类的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题,其主要目标是通过...
    99+
    2023-06-19
  • Python如何实现对中文文本分段分句
    这篇文章主要介绍“Python如何实现对中文文本分段分句”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python如何实现对中文文本分段分句”文章能帮助大家解决问题。一、问题实现对文本的分句,大致来...
    99+
    2023-07-05
  • python 数据分析之 HTML文件解析
    python 数据分析之 HTML文件解析 一 :Html1. Html 理解2. Html 介绍3. Html 构成4. HTML结构 介绍1> HTML文件结构A: 文档类型声明B: 根标...
    99+
    2023-09-02
    html python 数据分析
  • Python与sed,grep文本查找效率对比的示例分析
    小编给大家分享一下Python与sed,grep文本查找效率对比的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!测试文本:20w行,21M大 python...
    99+
    2023-06-13
  • Python编写日志分析小脚本
    import re def count_patt(fname, patt):result = {}cpatt = re.compile(patt)fobj = open(fname)for line in fobj:m = cpatt.se...
    99+
    2023-01-31
    脚本 日志 Python
  • Python趣味脚本的案例分析
    这篇文章主要介绍了Python趣味脚本的案例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1.图片尺寸缩小所需库:opencv-python对于图片的放大和缩小,是我们经...
    99+
    2023-06-29
  • Pandas数据分析之pandas文本处理
    目录前言文本数据类型字符操作文本格式文本对齐​文本计数和编码格式判断文本高级处理文本分割 文本切片选择 slice划分 partition文本替换指定位置替换重复替换文本连...
    99+
    2022-11-11
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作