iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Pythonsklearn对文本数据进行特征化提取
  • 104
分享到

Pythonsklearn对文本数据进行特征化提取

Python 官方文档:入门教程 => 点击学习

摘要

目录文本特征提取中文分词+特征提取文本特征提取 作用:对文本数据进行特征化 (句子、短语、单词、字母)一般选用单词作为特征值 方法一:CountVectorizer sklearn.

文本特征提取

作用:对文本数据进行特征化

(句子、短语、单词、字母)一般选用单词作为特征值

方法一:CountVectorizer

sklearn.feature_extraction.text.CountVectorizer(stop_Words=[])

返回词频矩阵(统计每个样本特征词出现的个数)

CountVectorizer.fit_transfORM(X)

X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

CountVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前的数据格式

CountVectorizer.get_feature_names()

返回值:单词列表

代码展示:

from sklearn.feature_extraction.text import CountVectorizer
def count_demo():
    #文本特征抽取
    data=["life is short, i like like python","life is too long,i dislike Python"]
    #1、实例化一个转换器类
    transfer=CountVectorizer()
    #2、调用fit_transform()
    result=transfer.fit_transform(data)
    print("result:\n",result.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

方法二:TfidfVectorizer

关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章中出现的次数很少称为关键词

Tf-idf文本特征提取

①TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

②TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

公式

①词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率

②逆向文档频率(inverse document frequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件数目,再将得到的商取以10为底的对数得到

tfidf = tf * idf

输出的结果可以理解为重要程度

api

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...)

返回词的权重矩阵

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值:返回sparse矩阵

TfidfVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前数据格式

TfidfVectorizer.get_feature_names()

返回值:单词列表

中文分词+特征提取

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
def cut_word(text):
    #中文分词
    #jieba.cut(text)返回的是生成器对象,用list强转成列表
    word=list(jieba.cut(text))
    #转成字符串
    words=" ".join(word)
    return words
def tfidf_demo():
    data = ["今天很残酷,明天更残酷,后天会很美好,但绝大多数人都死在明天晚上,却见不到后天的太阳,所以我们干什么都要坚持",
            "注重自己的名声,努力工作、与人为善、遵守诺言,这样对你们的事业非常有帮助",
            "服务是全世界最贵的产品,所以最佳的服务就是不要服务,最好的服务就是不需要服务"]
    data_new = []
    # 将中文文本进行分词
    for sentence in data:
        data_new.append(cut_word(sentence))
    # 1、实例化一个转换器类
    transfer = TfidfVectorizer()
    # 2、调用fit_transform()
    result = transfer.fit_transform(data_new)  # 得到词频矩阵 是一个sparse矩阵
    print("result:\n", result.toarray())  # 将sparse矩阵转化为二维数组
    print("特征名字:\n", transfer.get_feature_names())
    return None

到此这篇关于Python sklearn对文本数据进行特征化提取的文章就介绍到这了,更多相关Python sklearn文本特征提取内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Pythonsklearn对文本数据进行特征化提取

本文链接: https://www.lsjlt.com/news/211219.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Pythonsklearn对文本数据进行特征化提取
    目录文本特征提取中文分词+特征提取文本特征提取 作用:对文本数据进行特征化 (句子、短语、单词、字母)一般选用单词作为特征值 方法一:CountVectorizer sklearn....
    99+
    2023-05-17
    Python sklearn文本特征提取 Python文本特征提取 Python sklearn特征提取
  • Python sklearn怎么对文本数据进行特征化提取
    文本特征提取作用:对文本数据进行特征化(句子、短语、单词、字母)一般选用单词作为特征值方法一:CountVectorizersklearn.feature_extraction.text.CountVectorizer(stop_words...
    99+
    2023-05-17
    Python sklearn
  • Python实现文本特征提取的方法详解
    目录1.字典文本特征提取 DictVectorizer()1.1 one-hot编码1.2 字典数据转sparse矩阵2.英文文本特征提取3.中文文本特征提取4. TF-IDF 文本...
    99+
    2024-04-02
  • 如何利用OpenCV进行特征(颜色、形状)提取
    目录图像处理1. 颜色2. 形状总结图像处理 图像处理所做的只是从图像中提取有用的信息,从而减少数据量,但保留描述图像特征的像素。 下面从图像中提取颜色、形状和纹理特征的方法开始 1...
    99+
    2024-04-02
  • 如何在Python中进行数据预处理和特征工程
    如何在Python中进行数据预处理和特征工程数据预处理和特征工程是数据科学领域中非常重要的一部分。数据预处理是指对原始数据进行清洗、转换和整理,以便进一步分析和建模。而特征工程则是指从原始数据中提取有用的特征,以帮助机器学习算法更好地理解数...
    99+
    2023-10-22
    缺失值处理 数据预处理:数据规范化 离群值处理 特征工程:特征选择 特征构建
  • Python从txt文件中提取特定数据
    本段代码用于,想要从一段txt文件中只提取目标数据的情况。 代码: def get_data(txt_path: str = '', epoch: int = 100, target: str = '...
    99+
    2023-09-12
    python 算法 c#
  • Matlab利用垂距法实现提取离散坐标数据特征点
    目录1.工具函数2.基础使用(二维)3.使用并修饰绘图(二维)4.三维数据垂距法是指根据中间顶点到其前、后两相邻顶点连线的距离的大小,来确定是否保留该顶点的一种 线要素顶点...
    99+
    2024-04-02
  • Python读取CSV文件并进行数据可视化绘图
    介绍:文件 sitka_weather_07-2018_simple.csv是阿拉斯加州锡特卡2018年1月1日的天气数据,其中包含当天的最高温度和最低温度。数据文件存储与...
    99+
    2024-04-02
  • MySQL对JSON类型字段数据进行提取和查询的实现
    目录前言1. 问题现象2. 解决方案3. JSON数据查询3.1 一般基础查询操作3.2 一般函数查询操作4. JSON数据新增更新删除前言 昨天上线后通过系统报警发现了一...
    99+
    2024-04-02
  • Matlab怎么利用垂距法实现提取离散坐标数据特征点
    这篇文章主要介绍了Matlab怎么利用垂距法实现提取离散坐标数据特征点的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Matlab怎么利用垂距法实现提取离散坐标数据特征点文章都会有所收获,下面我们一起来看看吧。垂...
    99+
    2023-06-29
  • 如何在一个HTML文件中对文本进行格式化
    这篇文章主要介绍了如何在一个HTML文件中对文本进行格式化,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。<html> <...
    99+
    2024-04-02
  • python文本数据提取的方法是什么
    Python文本数据提取的方法有多种,以下是一些常用的方法:1. 使用字符串方法:Python提供了很多字符串方法来提取文本数据,如...
    99+
    2023-09-27
    python
  • Python如何读取CSV文件并进行数据可视化绘图
    这篇文章主要讲解了“Python如何读取CSV文件并进行数据可视化绘图”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何读取CSV文件并进行数据可视化绘图”吧!介绍:文件&nbs...
    99+
    2023-07-02
  • python3 对拉勾数据进行可视化分析
      上回说到我们如何如何把拉勾的数据抓取下来的,既然获取了数据,就别放着不动,把它拿出来分析一下,看看这些数据里面都包含了什么信息。(本次博客源码地址:https://github.com/MaxLyu/Lagou_Analyze) 一、...
    99+
    2023-01-31
    数据
  • 如何对Python特定数据库管理进行说明
    这篇文章将为大家详细讲解有关如何对Python特定数据库管理进行说明,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。在Python里的Python特定数据库,允许Python程序员很方便的创建...
    99+
    2023-06-17
  • 怎么在Android中对SQLite数据库进行数据持久化
    怎么在Android中对SQLite数据库进行数据持久化?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。SQLiteOpenHelper:创建数据库和数据库版本管理的辅助类,...
    99+
    2023-05-31
    android 数据持久化 sqlite数据库
  • Go语言对JSON数据进行序列化和反序列化
    golang中对json的序列化/反序列化操作还是比较容易的,序列化操作主要是通过encoding/json包的Marshal()方法来实现,反序列化操作主要是通过encoding/...
    99+
    2024-04-02
  • 如何在Kotlin中利用SharedPreferences对数据进行存取
    这篇文章将为大家详细讲解有关如何在Kotlin中利用SharedPreferences对数据进行存取,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。具体方法如下class Preference...
    99+
    2023-05-31
    kotlin sharedpreferences
  • 如何对数据库模式进行规范化处理
    这篇文章将为大家详细讲解有关如何对数据库模式进行规范化处理,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。对数据库模式进行规范化处理,是在数据库设计的“逻辑设计阶段”。数据...
    99+
    2024-04-02
  • Java及数据库对日期进行格式化方式
    目录Java及数据库对日期进行格式化示例Java与数据库时间格式转换Java及数据库对日期进行格式化 Java对日期进行格式化可使用java.text.SimpleDateForma...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作