iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python sklearn怎么对文本数据进行特征化提取
  • 254
分享到

Python sklearn怎么对文本数据进行特征化提取

Pythonsklearn 2023-05-17 10:05:14 254人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

文本特征提取作用:对文本数据进行特征化(句子、短语、单词、字母)一般选用单词作为特征值方法一:CountVectorizersklearn.feature_extraction.text.CountVectorizer(stop_Words

文本特征提取

作用:对文本数据进行特征化

(句子、短语、单词、字母)一般选用单词作为特征值

方法一:CountVectorizer

sklearn.feature_extraction.text.CountVectorizer(stop_Words=[])

返回词频矩阵(统计每个样本特征词出现的个数)

CountVectorizer.fit_transfORM(X)

X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

CountVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前的数据格式

CountVectorizer.get_feature_names()

返回值:单词列表

代码展示:

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    #文本特征抽取
    data=["life is short, i like like python","life is too long,i dislike Python"]
    #1、实例化一个转换器类
    transfer=CountVectorizer()
    #2、调用fit_transform()
    result=transfer.fit_transform(data)
    print("result:\n",result.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

方法二:TfidfVectorizer

关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章中出现的次数很少称为关键词

Tf-idf文本特征提取

①TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

②TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

公式

①词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率

②逆向文档频率(inverse document frequency,idf)是一个词语普遍重要性的度量。要计算某个词语的idf,需要将包含该词语的文件数目除以总文件数目,并使用以10为底的对数

tfidf = tf * idf

输出的结果可以理解为重要程度

api

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...)

返回词的权重矩阵

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

TfidfVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前数据格式

TfidfVectorizer.get_feature_names()

返回值:单词列表

中文分词+特征提取

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cut_word(text):
    #中文分词
    #jieba.cut(text)返回的是生成器对象,用list强转成列表
    word=list(jieba.cut(text))
    #转成字符串
    words=" ".join(word)
    return words
def tfidf_demo():
    data = ["今天很残酷,明天更残酷,后天会很美好,但绝大多数人都死在明天晚上,却见不到后天的太阳,所以我们干什么都要坚持",
            "注重自己的名声,努力工作、与人为善、遵守诺言,这样对你们的事业非常有帮助",
            "服务是全世界最贵的产品,所以最佳的服务就是不要服务,最好的服务就是不需要服务"]
    data_new = []
    # 将中文文本进行分词
    for sentence in data:
        data_new.append(cut_word(sentence))
    # 1、实例化一个转换器类
    transfer = TfidfVectorizer()
    # 2、调用fit_transform()
    result = transfer.fit_transform(data_new)  # 得到词频矩阵 是一个sparse矩阵
    print("result:\n", result.toarray())  # 将sparse矩阵转化为二维数组
    print("特征名字:\n", transfer.get_feature_names())
    return None

以上就是Python sklearn怎么对文本数据进行特征化提取的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: Python sklearn怎么对文本数据进行特征化提取

本文链接: https://www.lsjlt.com/news/211034.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python sklearn怎么对文本数据进行特征化提取
    文本特征提取作用:对文本数据进行特征化(句子、短语、单词、字母)一般选用单词作为特征值方法一:CountVectorizersklearn.feature_extraction.text.CountVectorizer(stop_words...
    99+
    2023-05-17
    Python sklearn
  • Pythonsklearn对文本数据进行特征化提取
    目录文本特征提取中文分词+特征提取文本特征提取 作用:对文本数据进行特征化 (句子、短语、单词、字母)一般选用单词作为特征值 方法一:CountVectorizer sklearn....
    99+
    2023-05-17
    Python sklearn文本特征提取 Python文本特征提取 Python sklearn特征提取
  • python怎么对文本进行分词
    在Python中,可以使用多种库来对文本进行分词,包括NLTK、jieba、spaCy等。下面分别介绍一下这些库的用法:1. 使用N...
    99+
    2023-08-18
    python
  • 使用python怎么对文本进行拆分
    使用python怎么对文本进行拆分?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(整型)、lo...
    99+
    2023-06-14
  • python文本数据提取的方法是什么
    Python文本数据提取的方法有多种,以下是一些常用的方法:1. 使用字符串方法:Python提供了很多字符串方法来提取文本数据,如...
    99+
    2023-09-27
    python
  • Python读取CSV文件并进行数据可视化绘图
    介绍:文件 sitka_weather_07-2018_simple.csv是阿拉斯加州锡特卡2018年1月1日的天气数据,其中包含当天的最高温度和最低温度。数据文件存储与...
    99+
    2024-04-02
  • 怎么用python对数据进行降噪
    在Python中,可以使用不同的方法对数据进行降噪。以下是一些常见的降噪方法: 均值滤波:通过计算窗口内像素的平均值来去除噪声。可...
    99+
    2024-02-29
    python
  • python怎么对csv数据进行处理
    Python中可以使用csv模块来对csv数据进行处理。以下是一个示例代码,演示了如何读取csv文件、写入csv文件以及对数据进行处...
    99+
    2024-02-29
    python
  • Python中怎么PDF文件提取数据
    这篇文章将为大家详细讲解有关Python中怎么PDF文件提取数据,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。示例:使用Python从PDF文件中提取一个表格a) 将表复制到Excel并保存...
    99+
    2023-06-16
  • 怎么对Python数据表进行检查
    这期内容当中小编将会给大家带来有关怎么对Python数据表进行检查,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问...
    99+
    2023-06-14
  • 怎么用Python对Word文件内容进行读取
    今天小编给大家分享一下怎么用Python对Word文件内容进行读取的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。利用 pyt...
    99+
    2023-06-30
  • Matlab怎么利用垂距法实现提取离散坐标数据特征点
    这篇文章主要介绍了Matlab怎么利用垂距法实现提取离散坐标数据特征点的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Matlab怎么利用垂距法实现提取离散坐标数据特征点文章都会有所收获,下面我们一起来看看吧。垂...
    99+
    2023-06-29
  • Python怎么从csv文件中读取数据及提取数据
    本篇内容主要讲解“Python怎么从csv文件中读取数据及提取数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么从csv文件中读取数据及提取数据”吧!数据保存在csv文件中1.从...
    99+
    2023-06-25
  • python怎么提取指定行和列的数据
    要提取指定行和列的数据,你可以使用Python中的pandas库。首先,你需要导入pandas库:```pythonimport p...
    99+
    2023-09-11
    python
  • Python如何读取CSV文件并进行数据可视化绘图
    这篇文章主要讲解了“Python如何读取CSV文件并进行数据可视化绘图”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何读取CSV文件并进行数据可视化绘图”吧!介绍:文件&nbs...
    99+
    2023-07-02
  • 怎么利用Python对500强排行榜数据进行可视化分析
    今天小编给大家分享一下怎么利用Python对500强排行榜数据进行可视化分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一...
    99+
    2023-06-30
  • 怎么在Android中对SQLite数据库进行数据持久化
    怎么在Android中对SQLite数据库进行数据持久化?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。SQLiteOpenHelper:创建数据库和数据库版本管理的辅助类,...
    99+
    2023-05-31
    android 数据持久化 sqlite数据库
  • 怎么用Python进行栅格数据的分区统计和批量提取
    小编给大家分享一下怎么用Python进行栅格数据的分区统计和批量提取,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!有时候我们会有这样的想法,就是针对某个区域的栅格数据,要提取它的平均值或者其他统计指标,比如在一个省内提取多...
    99+
    2023-06-15
  • linux怎么对文件中的数据进行排序
    在Linux中,可以使用`sort`命令对文件中的数据进行排序。`sort`命令的基本语法如下:```sort [OPTION].....
    99+
    2023-09-11
    linux
  • 使用python怎么对表格数据进行处理
    这篇文章给大家介绍使用python怎么对表格数据进行处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。python对Excel表格的处理首先我们看一个最简单的情况,我们先不考虑性能的问题,那么我们可以使用xlrd这个工...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作