iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >如何在spark集群环境下使用hanlp进行中文分词
  • 128
分享到

如何在spark集群环境下使用hanlp进行中文分词

2023-06-02 19:06:36 128人浏览 安东尼
摘要

这篇文章主要介绍“如何在spark集群环境下使用haNLP进行中文分词”,在日常操作中,相信很多人在如何在spark集群环境下使用hanlp进行中文分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何在sp

这篇文章主要介绍“如何在spark集群环境下使用haNLP进行中文分词”,在日常操作中,相信很多人在如何在spark集群环境下使用hanlp进行中文分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何在spark集群环境下使用hanlp进行中文分词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

将下载的hanlp-portable-1.6.2.jar复制到集群spark/jar文件夹下面

启动spark集群

       spark/bin/spark-shell --executor-memory 6g  --driver-memory 1g --executor-cores 2 --num-executors 2 --master spark://master:7077 --jars ansj_seg-5.1.6.jar hanlp-portable-1.6.2.jar

3,执行如下指令:

    import com.hankcs.hanlp.tokenizer.StandardTokenizer

    val data = sc.textFile("hdfs://master:8020/clob.txt")

    val splits = data.filter(line => !line.contains("BODY")).map(line => line.replace("【","")).map(line => line.replace("】","")).map(line=>StandardTokenizer.segment(line.toString()))

     splits.first

提示结果没有序列化:

18/04/06 09:08:25 ERROR TaskSetManager: Task 0.0 in stage 0.0 (TID 0) had a not serializable result: com.hankcs.hanlp.seg.common.Term
Serialization stack:
        - object not serializable (class: com.hankcs.hanlp.seg.common.Term, value: 监/ng)
        - writeObject data (class: java.util.ArrayList)
        - object (class java.util.ArrayList, [监/ng, 所/u, 每日/r, 动态/n, 济南市/ns, 公安局/n, 监管/vn, 支队/n, 秘书处/n,  /w, 2012/m, 年/q, 9/m, 月/q, 11/m, 日/j, 情况/n, 统计/v, 今天/t, ,/w, 全市/n, 看守所/n, 新/a, 收押/v, 14/m, 人/n, ,/w, 出/v, 所/u, 14/m, 人/n, ,/w, 在押/v, 人员/n, 总数/n, 2596/m, 人/n, (/w, 其中/r, 包括/v, 死刑犯/n, 27/m, 人/n, ,/w, 死缓/j, 犯/v, 14/m, 人/n, ,/w, 无期徒刑/l, 犯/v, 8/m, 人/n, ,/w, 法/j, 轮功/nr, 人员/n, 1/m, 人/n, )/w, 。/w, 全市/n, 拘留所/n, 新/a, 收押/v, 47/m, 人/n, ,/w, 出/v, 所/u, 20/m, 人/n, ,/w, 在/p, 所/u, 人员/n, 总数/n, 213/m, 人/n, 。/w, 项目/n, 单位/n, 被/p, 监管/vn, 人员/n, 情况/n, 在押/v, 总数/n, 新/a, 收/v, 出/v, 所/u, 未决犯/n, 法/j, 轮功/nr, 重点/n, 人员/n, 病号/n, 市/n, 看守所/n, 164179144117873/m, 历城/ns, 看守所/n, 302502550143/m, 章丘/ns, 看守所/n, 24220227066/m, 长/a, 清/a, 看守所/n, 1050292050/m, 平/v, 阴/a, 看守所/n, 860169022/m, 济阳/ns, 看守所/n, 14401113091/m, 商/n, 河/n, 看守所/n, 760162020/m, 合计/v, 25961414962121685/m, 市/n, 拘留所/n, 1273315/m, 长/a, 清/a, 拘留所/n, 2420/m, 章丘/ns, 拘留所/n, 2332/m, 平/v, 阴/a, 拘留所/n, 1600/m, 济阳/ns, 拘留所/n, 2033/m, 商/n, 河/n, 拘留所/n, 1160/m, 合计/v, 2214720/m, 收/v, 教/v, 所/u, 30001/m])
        - element of array (index: 0)
        - array (class [Ljava.util.List;, size 1); not retrying

到此,关于“如何在spark集群环境下使用hanlp进行中文分词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: 如何在spark集群环境下使用hanlp进行中文分词

本文链接: https://www.lsjlt.com/news/230985.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何在spark集群环境下使用hanlp进行中文分词
    这篇文章主要介绍“如何在spark集群环境下使用hanlp进行中文分词”,在日常操作中,相信很多人在如何在spark集群环境下使用hanlp进行中文分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何在sp...
    99+
    2023-06-02
  • spark集群如何使用hanlp进行分布式分词
    这篇文章主要介绍“spark集群如何使用hanlp进行分布式分词”,在日常操作中,相信很多人在spark集群如何使用hanlp进行分布式分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望...
    99+
    2024-04-02
  • Java中如何使用hanlp中文分词
    这篇文章给大家介绍Java中如何使用hanlp中文分词,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。项目结构 该项目中,.jar和data文件夹和.properties需要从...
    99+
    2024-04-02
  • 如何在 Windows 环境下使用 Git 进行 Java 开发?
    Git 是一种版本控制工具,它可以帮助开发者更好地管理代码,协同开发项目。在 Java 开发中,Git 也是一个非常重要的工具。本文将介绍如何在 Windows 环境下使用 Git 进行 Java 开发。 安装 Git 首先,我们需要...
    99+
    2023-09-04
    git apache windows
  • 如何在 Linux 环境下使用 Python 和 Numpy 进行实时数据分析?
    在当今时代,数据分析已经成为了非常重要的一项技能。Python 和 Numpy 是两个非常常用的工具,用于在 Linux 环境下进行实时数据分析。在本文中,我们将介绍如何在 Linux 环境下使用 Python 和 Numpy 进行实时数据...
    99+
    2023-10-29
    linux numpy 实时
  • spark中如何使用groupByKey进行分组排序
    今天小编给大家分享一下spark中如何使用groupByKey进行分组排序的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。任务...
    99+
    2023-07-05
  • 如何使用ASP和npm在Unix环境下进行Web开发?
    在Unix环境下进行Web开发,ASP和npm是两个非常有用的工具。ASP是一种Microsoft开发的服务器端脚本语言,可用于创建动态网站和web应用程序。而npm是Node.js的包管理器,可用于管理和安装Node.js模块。 在本文中...
    99+
    2023-06-16
    npm 学习笔记 unix
  • 如何在Linux环境下使用PHP缓存技术进行优化?
    作为一种流行的服务器端脚本语言,PHP可以用于构建各种类型的Web应用程序。然而,随着应用程序规模的增长,PHP的执行速度也会逐渐变慢。为了解决这个问题,我们可以使用PHP缓存技术来提高应用程序的性能和响应速度。本文将介绍如何在Linux环...
    99+
    2023-09-14
    缓存 面试 linux
  • 如何在Windows环境下使用Python进行实时编程算法?
    在当今的计算机科学领域,Python已经成为了一种非常受欢迎的编程语言。Python的简洁性、易用性和可读性,使得它成为了许多人学习编程的首选语言。Python也适用于许多不同的应用程序,从数据分析到机器学习,再到Web开发。 在本文中,我...
    99+
    2023-06-15
    windows 实时 编程算法
  • 如何使用PHP脚本在Linux环境下进行数据处理
    随着互联网和大数据的快速发展,对于数据处理的需求也越来越多。而在Linux环境下,PHP脚本是一个非常强大和常用的工具,它不仅可以处理网站开发,还可以用来进行大规模的数据处理。本文将介绍如何使用PHP脚本在Linux环境下进行数据处理,并提...
    99+
    2023-10-21
    数据处理 Linux环境 PHP脚本
  • 如何使用PHP脚本在Linux环境下进行日志记录
    在Linux环境下使用PHP脚本进行日志记录是一种常见而有效的方法。本文将介绍如何使用PHP脚本在Linux环境下进行日志记录,并提供具体的代码示例。创建日志文件首先,在Linux系统中创建一个用于存储日志的文件夹。可以使用以下命令:mkd...
    99+
    2023-10-21
    Linux环境 PHP日志记录 脚本编程
  • Linux 环境下如何使用 PHP 进行同步编程?
    PHP 是一种非常流行的服务器端脚本语言,它在互联网应用领域被广泛使用。在某些情况下,我们需要在 PHP 中实现同步编程以达到一些特定的目的。本文将介绍如何在 Linux 环境下使用 PHP 进行同步编程。 一、进程与线程 在讨论同步编程...
    99+
    2023-10-29
    同步 linux spring
  • Windows环境下如何使用Pycharm运行sh文件
    目录博主在调试一些程序时,时常遇到 .sh文件,这是Linux中的shell脚本文件,那么这种文件在windows下如何运行呢,其实我们可以通过git来实现,接下来看我操作。首先我们...
    99+
    2023-02-21
    Pycharm运行sh文件 Windows Pycharm运行sh文件
  • 如何在Linux环境下使用Python进行异步编程和打包
    在Linux环境下使用Python进行异步编程和打包是一项非常重要的技能,特别是在现代Web应用程序中,异步编程已经成为了必不可少的一部分。本文将介绍。 一、异步编程 在Python中,异步编程是通过asyncio模块来实现的。asynci...
    99+
    2023-09-05
    linux 异步编程 打包
  • 如何在Windows环境下使用PHP和NumPy进行数据可视化?
    数据可视化是数据科学中的一个重要环节。它能够帮助人们更好地理解数据,并且能够帮助人们更快地发现数据中的规律和趋势。在本文中,我们将介绍如何在Windows环境下使用PHP和NumPy进行数据可视化。 首先,我们需要了解一下PHP和NumP...
    99+
    2023-07-23
    windows 大数据 numy
  • 如何通过PHP脚本在Linux环境下进行文件上传
    在Web开发中,文件上传是一个常见的功能需求。PHP作为一种服务器端脚本语言,可以方便地处理文件上传操作。本文将详细介绍如何在Linux环境下使用PHP脚本进行文件上传,并给出具体的代码示例。首先,在Linux环境下,我们需要安装和配置PH...
    99+
    2023-10-21
    Linux PHP 脚本
  • 如何使用PHP脚本在Linux环境下进行数据库操作
    在现代web应用程序中,数据库是必不可少的组成部分。PHP是一种流行的服务器端脚本语言,它可以与各种数据库进行交互。本文将介绍如何在Linux环境下使用PHP脚本进行数据库操作,并提供一些具体的代码示例。步骤1:安装必要的软件和依赖项在开始...
    99+
    2023-10-21
    Linux PHP 数据库操作
  • 在Linux环境下使用NumPy进行数据分析的最佳实践。
    在Linux环境下使用NumPy进行数据分析的最佳实践 NumPy是Python中用于科学计算的一个重要的库,它提供了高效的多维数组对象和各种用于数组操作的函数。在数据科学和机器学习领域,NumPy是必备的工具之一。本文将介绍 安装Num...
    99+
    2023-07-23
    linux numy 索引
  • Unix环境下如何使用数组进行数据处理?
    Unix环境是一个强大的操作系统平台,它提供了很多工具和命令来方便我们进行数据处理。其中,数组是一个非常有用的数据结构,可以帮助我们更快速地处理数据。在本文中,我们将介绍如何在Unix环境下使用数组进行数据处理。 一、什么是数组? 数组是...
    99+
    2023-07-20
    unix 自然语言处理 数组
  • 如何在 UNIX 环境下使用 PHP 打包技术进行高效开发?
    在 UNIX 环境下,PHP 打包技术可以帮助开发者更加高效地进行开发。本文将介绍如何在 UNIX 环境下使用 PHP 打包技术进行高效开发。 一、什么是 PHP 打包技术? PHP 打包技术是一种将 PHP 应用程序打包成一个单独的可执行...
    99+
    2023-06-28
    打包 开发技术 unix
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作