首页 > 资讯 > 精选 >基于Spark Mllib文本分类的示例分析

392

分享到

基于Spark Mllib文本分类的示例分析

2023-06-19 10:06:58 392人浏览独家记忆

摘要

这篇文章将为大家详细讲解有关基于spark Mllib文本分类的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过

这篇文章将为大家详细讲解有关基于spark Mllib文本分类的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

基于Spark Mllib的文本分类

文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景，如新闻网站的新闻自动分类，垃圾邮件检测，非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类，进而检测其是否为垃圾消息，基本步骤是：首先将文本句子转化成单词数组，进而使用 Word2Vec 工具将单词数组转化成一个 K 维向量，最后通过训练 K 维向量样本数据得到一个前馈神经网络模型，以此来实现文本的类别标签预测。本文案例实现上采用 Spark ML 中的词向量化工具 Word2Vec 和多层感知器分类器 (Multiple Layer Perceptron Classifier)

Word2Vec简介

Word2Vec 是一个用来将词表示为数值型向量的工具，其基本思想是将文本中的词映射成一个 K 维数值向量 (K 通常作为算法的超参数)，这样文本中的所有词就组成一个 K 维向量空间，这样我们可以通过计算向量间的欧氏距离或者余弦相似度得到文本语义的相似度。Word2Vec 采用的是 Distributed representation 的词向量表示方式，这种表达方式不仅可以有效控制词向量的维度，避免维数灾难 (相对于 one-hot representation)，而且可以保证意思相近的词在向量空间中的距离较近。

Word2Vec 实现上有两种模型 CBOW (Continuous Bag of Words, 连续词袋模型) 和 Skip-Gram，简单概括一下区别就是：CBOW 是根据语境预测目标单词，Skip-Gram 根据当前单词预测语境。Spark 的实现采用的是 Skip-Gram 模型。假设我们有 N 个待训练的单词序列样本，记作 w1,w2...wn, Skip-Gram 模型的训练目标是最大化平均对数似然，即

基于Spark Mllib文本分类的示例分析

其中 N 是词个数，K 是词上下文的窗口大小。Skip-Gram 模型中一定上下文窗口内的词两两之间都会计算概率，并且通常情况下，上下文窗口越大所能涵盖的词组合情况就越全面，这样可以带来更加精确的结果，但是缺点是也会增加训练时间。

在 Skip-Gram 模型里，每个单词都关联两个向量，分别表示词向量和上下文向量。也正是因为如此，Word2Vec 较之传统的 LDA(Latent Dirichlet Allocation) 过程，可以表达更加丰富和准确的语义信息。

Spark 的 Word2Vec 实现提供以下主要可调参数：

inputCol , 源数据 DataFrame 中存储文本词数组列的名称。
outputCol, 经过处理的数值型特征向量存储列名称。
vectorSize, 目标数值向量的维度大小，默认是 100。
windowsize, 上下文窗口大小，默认是 5。
numPartitions, 训练数据的分区数，默认是 1。
maxIter，算法求最大迭代次数，小于或等于分区数。默认是 1.
minCount, 只有当某个词出现的次数大于或者等于 minCount 时，才会被包含到词汇表里，否则会被忽略掉。
stepSize，优化算法的每一次迭代的学习速率。默认值是 0.025.

这些参数都可以在构造 Word2Vec 实例的时候通过 setXXX 方法设置。

多层感知器

多层感知器 (MLP, Multilayer Perceptron) 是一种多层的前馈神经网络模型，所谓前馈型神经网络，指其从输入层开始只接收前一层的输入，并把计算结果输出到后一层，并不会给前一层有所反馈，整个过程可以使用有向无环图来表示。该类型的神经网络由三层组成，分别是输入层 (Input Layer)，一个或多个隐层 (Hidden Layer)，输出层 (Output Layer)，如图所示：

基于Spark Mllib文本分类的示例分析

Spark ML 在 1.5 版本后提供一个使用 BP(反向传播，Back Propagation) 算法训练的多层感知器实现，BP 算法的学习目的是对网络的连接权值进行调整，使得调整后的网络对任一输入都能得到所期望的输出。BP 算法名称里的反向传播指的是该算法在训练网络的过程中逐层反向传递误差，逐一修改神经元间的连接权值，以使网络对输入信息经过计算后所得到的输出能达到期望的误差。Spark 的多层感知器隐层神经元使用 sigmoid 函数作为激活函数，输出层使用的是 softmax 函数。

Spark 的多层感知器分类器 (MultilayerPerceptronClassifer) 支持以下可调参数:

featuresCol:输入数据 DataFrame 中指标特征列的名称。
labelCol：输入数据 DataFrame 中标签列的名称。
layers:这个参数是一个整型数组类型，第一个元素需要和特征向量的维度相等，最后一个元素需要训练数据的标签取值个数相等，如 2 分类问题就写 2。中间的元素有多少个就代表神经网络有多少个隐层，元素的取值代表了该层的神经元的个数。例如val layers = Array[Int](100,6,5,2)。
maxIter：优化算法求解的最大迭代次数。默认值是 100。
predictionCol:预测结果的列名称。
tol:优化算法迭代求解过程的收敛阀值。默认值是 1e-4。不能为负数。
blockSize:该参数被前馈网络训练器用来将训练样本数据的每个分区都按照 blockSize 大小分成不同组，并且每个组内的每个样本都会被叠加成一个向量，以便于在各种优化算法间传递。该参数的推荐值是 10-1000，默认值是 128。

算法的返回是一个 MultilayerPerceptronClassificationModel 类实例。

目标数据集预览

在引言部分，笔者已经简要介绍过了本文的主要任务，即通过训练一个多层感知器分类模型来预测新的短信是否为垃圾短信。在这里我们使用的目标数据集是来自 UCI 的 SMS Spam Collection 数据集，该数据集结构非常简单，只有两列，第一列是短信的标签，第二列是短信内容，两列之间用制表符 (tab) 分隔。虽然 UCI 的数据集是可以拿来免费使用的，但在这里笔者依然严正声明该数据集的版权属于 UCI 及其原始贡献者。

基于Spark Mllib文本分类的示例分析

数据集下载链接：http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

案例分析与实现

在处理文本短信息分类预测问题的过程中，笔者首先是将原始文本数据按照 8:2 的比例分成训练和测试数据集。整个过程分为下面几个步骤

从本地读取原始数据集，并创建一个 DataFrame。
使用 StringIndexer 将原始的文本标签 (“Ham”或者“Spam”) 转化成数值型的表型，以便 Spark ML 处理。
使用 Word2Vec 将短信文本转化成数值型词向量。
使用 MultilayerPerceptronClassifier 训练一个多层感知器模型。
使用 LabelConverter 将预测结果的数值标签转化成原始的文本标签。
最后在测试数据集上测试模型的预测精确度。

算法的具体实现如下：

1，首先导入包

import org.apache.spark.ml.Pipeline

import org.apache.spark.ml.classification.MultilayerPerceptronClassifier

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

import org.apache.spark.ml.feature.{IndexToString, StringIndexer, Word2Vec}

2，创建集并分词

val parsedRDD = sc.textFile("file:///opt/datas/SMSSpamCollection").map(_.split(" ")).map(eachRow => {

(eachRow(0),eachRow(1).split(" "))

})

val msgDF = spark.createDataFrame(parsedRDD).toDF("label","message")

3，将标签转化为索引值

val labelIndexer = new StringIndexer().setInputCol("label").setOutputCol("indexedLabel").fit(msgDF)

4，创建Word2Vec，分词向量大小100

final val VECTOR_SIZE = 100

val word2Vec = new Word2Vec().setInputCol("message").setOutputCol("features").setVectorSize(VECTOR_SIZE).setMinCount(1)

5，创建多层感知器

输入层VECTOR_SIZE个，中间层两层分别是6，,5个神经元，输出层2个

val layers = Array[Int](VECTOR_SIZE,6,5,2)

val mlpc = new MultilayerPerceptronClassifier().setLayers(layers).setBlockSize(512).setSeed(1234L).setMaxIter(128).setFeaturesCol("features").setLabelCol("indexedLabel").setPredictionCol("prediction")

6，将索引转换为原有标签

val labelConverter = new IndexToString().setInputCol("prediction").setOutputCol("predictedLabel").setLabels(labelIndexer.labels)

7，数据集分割

val Array(trainingData, testData) = msgDF.randomSplit(Array(0.8, 0.2))

8，创建pipeline并训练数据

val pipeline = new Pipeline().setStages(Array(labelIndexer,word2Vec,mlpc,labelConverter))

val model = pipeline.fit(trainingData)

val predictionResultDF = model.transfORM(testData)

//below 2 lines are for debug use

predictionResultDF.printSchema

predictionResultDF.select("message","label","predictedLabel").show(30)

9，评估训练结果

val evaluator = new MulticlassClassificationEvaluator().setLabelCol("indexedLabel").setPredictionCol("prediction").setMetricName("precision")

val predictionAccuracy = evaluator.evaluate(predictionResultDF)

println("Testing Accuracy is %2.4f".format(predictionAccuracy * 100) + "%")

基于Spark Mllib文本分类的示例分析

关于“基于Spark Mllib文本分类的示例分析”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 基于Spark Mllib文本分类的示例分析

本文链接: https://www.lsjlt.com/news/295622.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

基于Spark Mllib文本分类的示例分析

这篇文章将为大家详细讲解有关基于Spark Mllib文本分类的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过...

99+

2023-06-19
Spark-Sql的示例分析

这篇文章主要介绍Spark-Sql的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！SparkSQL运行架构Spark SQL对SQL语句的处理，首先会将SQL语句进行解析（Parse），然后形成一个Tree，...

99+

2023-06-21
基于require.js的示例分析

这篇文章将为大家详细讲解有关基于require.js的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。1.为什么使用require.js使用之前，我的页面的js是这...

99+

2024-04-02
基于JavaScript表单脚本的示例分析

小编给大家分享一下基于JavaScript表单脚本的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！什么是表单？一个表单有...

99+

2024-04-02
TypeScript中基本数据类型的示例分析

这篇文章主要为大家展示了“TypeScript中基本数据类型的示例分析”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“TypeScript中基本数据类型的示例分析...

99+

2024-04-02
基于java类路径classpath和包的示例分析

这篇文章主要为大家展示了“基于java类路径classpath和包的示例分析”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“基于java类路径classpath和包的示例分析”这篇文章吧。类路径(...

99+

2023-05-30
LINQ查询基于泛型类型的示例分析

小编给大家分享一下LINQ查询基于泛型类型的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！LINQ查询基于泛型类型，在 .NET Framework 的 ...

99+

2023-06-17
基于JSONP原理的示例分析

这篇文章主要介绍了基于JSONP原理的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。前言我工作以来接触的第一个项目就是前后端分离的，...

99+

2024-04-02
基于Oracle闪回的示例分析

小编给大家分享一下基于Oracle闪回的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！Oracle 9i 开始支持闪回，...

99+

2024-04-02
bootstrap基本配置的示例分析

这篇文章主要为大家展示了“bootstrap基本配置的示例分析”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“bootstrap基本配置的示例分析”这篇文章吧。B...

99+

2024-04-02
Spark Streaming+Spark SQL的数据倾斜示例分析

这篇文章将为大家详细讲解有关Spark Streaming+Spark SQL的数据倾斜示例分析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。1.现象三台机器都有产生executor，每台...

99+

2023-06-03
基于javascript中typeof和类型判断的示例分析

小编给大家分享一下基于javascript中typeof和类型判断的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！typ...

99+

2024-04-02
MySQL基本语法的示例分析

这篇文章将为大家详细讲解有关MySQL基本语法的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。先来看一下MySQL的最基本三大段语句，举个例子：我想将下面inst...

99+

2024-04-02
css基本语法的示例分析

这篇文章主要介绍了css基本语法的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。一概述 CSS 指层...

99+

2024-04-02
基于LayUI分页和LayUI laypage分页的示例分析

这篇文章给大家分享的是有关基于LayUI分页和LayUI laypage分页的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。具体如下：效果图：一、引用js依赖...

99+

2024-04-02
SELinux基本概念的示例分析

这篇文章主要介绍了SELinux基本概念的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。SELinux(Security Enhanced Linux),以下是SEL...

99+

2023-06-12
基于Python实现文件分类器的示例代码

本文实现文件分类器的目的主要是为了将办公过程中产生的各种格式的文件完成整理。通过自定义需要整理的文件目录，将该目录下面的全部文件按照文件格式完成分类操作。实现逻辑使用的pyth...

99+

2023-05-14

Python实现文件分类器 Python文件分类器 Python文件分类
基于spark的数据分析怎么实现

要基于Spark实现数据分析，通常可以按照以下步骤进行：数据准备：首先要将需要分析的数据加载到Spark中，可以从文件系统、数...

99+

2024-04-02
JavaScript中基本类型值Undefined、Null、Boolean的示例分析

这篇文章给大家分享的是有关JavaScript中基本类型值Undefined、Null、Boolean的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。ECMAScript...

99+

2024-04-02
redis基本类型和使用方法的示例分析

这篇文章主要介绍redis基本类型和使用方法的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！redis存储数据的基本类型有：string（字符串类型）、hash（散列类型）、...

99+

2024-04-02