广告
返回顶部
首页 > 资讯 > 精选 >基于DF的Tokenizer分词是怎么样的
  • 862
分享到

基于DF的Tokenizer分词是怎么样的

2023-06-19 11:06:05 862人浏览 八月长安
摘要

这篇文章给大家介绍基于DF的Tokenizer分词是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。Tokenizer分词进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是spark的机器学习库分为基

这篇文章给大家介绍基于DF的Tokenizer分词是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

Tokenizer分词

进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是spark机器学习库分为基于RDD和基于DataFrame的库,由于基于RDD的库在Spark2.0以后都处于维护状态,我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。

1 首先准备数据

导包

import org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer}
import org.apache.spark.sql.functions._

准数据

val sentenceDataFrame = spark.createDataFrame(Seq(
 (0, "Hi I heard about Spark"),
 (1, "I wish Java could use case classes"),
 (2, "LoGIStic,regression,models,are,neat")
)).toDF("id", "sentence")

2 Tokenizer

Tokenizer负责读取文档或者句子,将其分解为单词。声明一个变量

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("Words")

自定义函数来获取每列单词数目

val countTokens = udf { (words: Seq[String]) => words.length }

调用转换函数

val tokenized = tokenizer.transfORM(sentenceDataFrame)
tokenized.select("sentence", "words").withColumn("tokens", countTokens(col("words"))).show(false)

基于DF的Tokenizer分词是怎么样的

3 RegexTokenizer

RegexTokenizer允许基于正则的方式进行文档切分成单词组。默认情况下,使用参数“pattern”( regex, default: "\s+")作为分隔符来分割输入文本。或者,用户可以将参数“gaps”设置为false,指示正则表达式“pattern”表示“tokens”,而不是分割间隙,并查找所有匹配事件作为切分后的结果。

val regexTokenizer = new RegexTokenizer().setInputCol("sentence").setOutputCol("words").setPattern("\W")
// 也可换为 .setPattern("\w+").setGaps(false)

开始转换并查看执行结果

val regexTokenized = regexTokenizer.transform(sentenceDataFrame)
regexTokenized.select("sentence", "words").withColumn("tokens", countTokens(col("words"))).show(false)

基于DF的Tokenizer分词是怎么样的

关于基于DF的Tokenizer分词是怎么样的就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: 基于DF的Tokenizer分词是怎么样的

本文链接: https://www.lsjlt.com/news/295599.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 基于DF的Tokenizer分词是怎么样的
    这篇文章给大家介绍基于DF的Tokenizer分词是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。Tokenizer分词进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基...
    99+
    2023-06-19
  • 基于Struts2和Freemarkeri的Batis分页是怎么样的
    这篇文章给大家介绍基于Struts2和Freemarkeri的Batis分页是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。之前介绍过基于Hibernate分页的原理和设计,这里我们所用的分页都是物理分页技术,...
    99+
    2023-06-17
  • 基于java的中文分词工具ANSJ怎么使用
    这篇文章主要讲解了“基于java的中文分词工具ANSJ怎么使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“基于java的中文分词工具ANSJ怎么使用”吧!ANSJ这是一个基于n-Gram+...
    99+
    2023-06-19
  • 基于scn的恢复是怎样的
    今天就跟大家聊聊有关基于scn的恢复是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。 --先背备份:(热备)[or...
    99+
    2022-10-19
  • 基于Java怎样实现一个简单的单词本Android App
    这篇文章跟大家分析一下“基于Java怎样实现一个简单的单词本Android App”。内容详细易懂,对“基于Java怎样实现一个简单的单词本Android App”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅...
    99+
    2023-06-29
  • 五种基于JVM的脚本语言分别是怎样的
    这期内容当中小编将会给大家带来有关五种基于JVM的脚本语言分别是怎样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用...
    99+
    2023-06-17
  • 基于 Spark 的数据分析实践是怎样进行的
    今天就跟大家聊聊有关基于 Spark 的数据分析实践是怎样进行的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。引言:Spark是在借鉴了MapReduce之上发展而来的,继承了其分布...
    99+
    2023-06-02
  • 基于centos6的mysql5.7.13主从部署是怎么样的
    基于centos6的mysql5.7.13主从部署是怎么样的,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。基于centos6的mysql5.7...
    99+
    2022-10-18
  • 基于Linux操作系统 Fedora是怎么样的
    这篇文章给大家介绍基于Linux操作系统 Fedora是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。虽然前几天我们就已经拿到了下载地址,直到今天,延期数次的Fedora11版本才终于到达正式版的文件夹里。Fe...
    99+
    2023-06-17
  • 基于JavaScript 的操作系统是怎样的
    这篇文章给大家介绍基于JavaScript 的操作系统是怎样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。我想大多数人听说过 Node.js,但是你听说过 NodeOS 吗...
    99+
    2022-10-19
  • 基于SSH开发架构的重新分层是什么样的
    这期内容当中小编将会给大家带来有关基于SSH开发架构的重新分层是什么样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。现代的企业开发中,越来越多地引入了多层架构设计模式。Struts+Spring+Hib...
    99+
    2023-06-17
  • 基于FUSE的Bittorrent文件系统是怎样的
    今天就跟大家聊聊有关基于FUSE的Bittorrent文件系统是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。Bittorrent 已经存在了很长时间,它可以从互联网上共享和下...
    99+
    2023-06-16
  • 基于SQL2005的CLR存储过程是怎样的
    基于SQL2005的CLR存储过程是怎样的,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。在 SQL Server 2005 中,可以在SQL Server实例中...
    99+
    2023-06-17
  • SUSE中基于udev的RAC扩容是怎样的
    这篇文章将为大家详细讲解有关SUSE中基于udev的RAC扩容,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。 节点1:&nbs...
    99+
    2022-10-19
  • 基于NodeJS的全栈式开发是怎样的
    本篇文章为大家展示了基于NodeJS的全栈式开发是怎样的,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。随着不同终端(Pad/Mobile/PC)的兴起,对开发人员的...
    99+
    2022-10-19
  • web开发中对于长尾关键词的理解是怎样的
    本篇文章给大家分享的是有关web开发中对于长尾关键词的理解是怎样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。网站上非目标关键词但也可以带来...
    99+
    2022-10-19
  • 基于Kubernetes的微服务监控体系是怎么样的
    今天就跟大家聊聊有关基于Kubernetes的微服务监控体系是怎么样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。监控系统是运维体系乃至整个软件产品生命周期中最重要的一环,完善的监...
    99+
    2023-06-17
  • 基于md5的文件完整性检测是怎么样的
    这期内容当中小编将会给大家带来有关基于md5的文件完整性检测是怎么样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。md5sum是Linux平台下面用来检测文件完整性的给力工具,维基百科是这样来解释&nb...
    99+
    2023-06-06
  • Oracle ERP的完全词汇表是怎么样的
    这篇文章给大家介绍Oracle ERP的完全词汇表是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。Oracle ERP的完全词汇表Aaccount hierarchy(帐户分层结构)Oracle 财务系统的一种...
    99+
    2023-06-06
  • 基于Groovy 加速Google App Engine开发是怎么样的
    这篇文章将为大家详细讲解有关基于Groovy 加速Google App Engine开发是怎么样的,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。轻量级是全新的趋势虽然 Google 的基础设...
    99+
    2023-06-17
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作