iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >如何使用HanLP增强Elasticsearch分词功能
  • 811
分享到

如何使用HanLP增强Elasticsearch分词功能

2023-06-02 20:06:19 811人浏览 薄情痞子
摘要

这篇文章主要介绍如何使用HaNLP增强elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行

这篇文章主要介绍如何使用HaNLP增强elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。

Elasticsearch

Elasticsearch 的默认分词效果是惨不忍睹的。

    GET /_analyze?pretty    {      "text" : ["广州编程网计算科技有限公司"]    }

输出:

{  "tokens": [    {      "token": "广",      "start_offset": 0,      "end_offset": 1,      "type": "<IDEOGRAPHIC>",      "position": 0    },    {      "token": "州",      "start_offset": 1,      "end_offset": 2,      "type": "<IDEOGRAPHIC>",      "position": 1    },    {      "token": "亿",      "start_offset": 2,      "end_offset": 3,      "type": "<IDEOGRAPHIC>",      "position": 2    },    {      "token": "速",      "start_offset": 3,      "end_offset": 4,      "type": "<IDEOGRAPHIC>",      "position": 3    },    {      "token": "云",      "start_offset": 4,      "end_offset": 5,      "type": "<IDEOGRAPHIC>",      "position": 4    },    {      "token": "计",      "start_offset": 5,      "end_offset": 6,      "type": "<IDEOGRAPHIC>",      "position": 5    },    {      "token": "算",      "start_offset": 6,      "end_offset": 7,      "type": "<IDEOGRAPHIC>",      "position": 6    },    {      "token": "科",      "start_offset": 7,      "end_offset": 8,      "type": "<IDEOGRAPHIC>",      "position": 7    },    {      "token": "技",      "start_offset": 8,      "end_offset": 9,      "type": "<IDEOGRAPHIC>",      "position": 8    },    {      "token": "有",      "start_offset": 9,      "end_offset": 10,      "type": "<IDEOGRAPHIC>",      "position": 9    },    {      "token": "限",      "start_offset": 10,      "end_offset": 11,      "type": "<IDEOGRAPHIC>",      "position": 10    },    {      "token": "公",      "start_offset": 11,      "end_offset": 12,      "type": "<IDEOGRAPHIC>",      "position": 11    },    {      "token": "司",      "start_offset": 12,      "end_offset": 13,      "type": "<IDEOGRAPHIC>",      "position": 12    }  ]}

可以看到,默认是按字进行分词的。

elasticsearch-hanlp

HanLP

HanLP 是一款使用 Java 实现的优秀的,具有如下功能:

  • 中文分词

  • 词性标注

  • 命名实体识别

  • 关键词提取

  • 自动摘要

  • 短语提取

  • 拼音转换

  • 简繁转换

  • 文本推荐

  • 依存句法分析

  • 语料库工具

安装 elasticsearch-hanlp(安装见:https://GitHub.com/hualongdata/hanlp-ext/tree/master/es-plugin)插件以后,我们再来看看分词效果。

    GET /_analyze?pretty    {      "analyzer" : "hanlp",      "text" : ["广州编程网计算科技有限公司"]    }

输出:

{  "tokens": [    {      "token": "广州",      "start_offset": 0,      "end_offset": 2,      "type": "ns",      "position": 0    },    {      "token": "编程网",      "start_offset": 2,      "end_offset": 5,      "type": "nr",      "position": 1    },    {      "token": "计算",      "start_offset": 5,      "end_offset": 7,      "type": "nr",      "position": 2    },    {      "token": "科技",      "start_offset": 7,      "end_offset": 9,      "type": "n",      "position": 3    },    {      "token": "有限公司",      "start_offset": 9,      "end_offset": 13,      "type": "nis",      "position": 4    }  ]}

以上是“如何使用HanLP增强Elasticsearch分词功能”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网精选频道!

--结束END--

本文标题: 如何使用HanLP增强Elasticsearch分词功能

本文链接: https://www.lsjlt.com/news/231166.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 如何使用HanLP增强Elasticsearch分词功能
    这篇文章主要介绍如何使用HanLP增强Elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行...
    99+
    2023-06-02
  • Java中如何使用hanlp中文分词
    这篇文章给大家介绍Java中如何使用hanlp中文分词,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。项目结构 该项目中,.jar和data文件夹和.properties需要从...
    99+
    2024-04-02
  • spark集群如何使用hanlp进行分布式分词
    这篇文章主要介绍“spark集群如何使用hanlp进行分布式分词”,在日常操作中,相信很多人在spark集群如何使用hanlp进行分布式分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望...
    99+
    2024-04-02
  • 如何在spark集群环境下使用hanlp进行中文分词
    这篇文章主要介绍“如何在spark集群环境下使用hanlp进行中文分词”,在日常操作中,相信很多人在如何在spark集群环境下使用hanlp进行中文分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何在sp...
    99+
    2023-06-02
  • LeetCode算法如何增强Laravel应用的功能?
    Laravel是一款广受欢迎的PHP框架,它提供了强大的功能和易于使用的API,使得开发人员可以更快速、更高效地开发Web应用程序。但是,在处理复杂的数据结构和算法时,Laravel可能会遇到一些挑战。在这种情况下,LeetCode算法可...
    99+
    2023-08-10
    laravel load leetcode
  • Ubuntu 8.10如何安装增强功能包
    这篇文章主要为大家展示了“Ubuntu 8.10如何安装增强功能包”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Ubuntu 8.10如何安装增强功能包”这篇文章吧。1. 安装增强功能包(Gue...
    99+
    2023-06-16
  • 如何安装VirtualBox增强功能使得deepin全屏显示
    如何安装VirtualBox增强功能使得deepin全屏显示,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在Windows上通过Virtualbox安装deepin深度操作...
    99+
    2023-06-05
  • 如何使用rlwrap增强sqlplus
    这篇文章主要介绍如何使用rlwrap增强sqlplus,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!添加epel源https://fedoraproject.org/wiki/EPE...
    99+
    2024-04-02
  • 如何分析增强for的概述和使用
    本篇文章为大家展示了如何分析增强for的概述和使用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。增强for的概述和使用(foreach)1、增强for的概述和使用(foreach)  &n...
    99+
    2023-06-02
  • 使用类型增强功能的方法有哪些
    使用类型增强功能的方法有哪些?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。具体配置信息配置全局jsconfig.json我们习惯在wepback内配置相关路径别...
    99+
    2023-06-07
  • 如何使用 PHP 编程算法来增强 Laravel 应用程序的功能和性能?
    PHP是一种常用的编程语言,而Laravel是一种广泛应用于Web开发的PHP框架。使用Laravel开发应用程序可以大幅简化开发过程,同时也可以提高应用程序的性能和功能。本文将介绍如何使用PHP编程算法来增强Laravel应用程序的功能和...
    99+
    2023-08-12
    编程算法 load laravel
  • 在linux系统中如何安装virtualbox增强功能
    这篇文章给大家分享的是有关在linux系统中如何安装virtualbox增强功能的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。 点击菜单栏 设备 &ndash;> 分配光驱 &ndash;&...
    99+
    2023-06-13
  • PHP8中如何通过Attributes增强自定义类的功能?
    PHP8中如何通过Attributes增强自定义类的功能?随着PHP8的发布,引入了新的特性——Attributes(属性)。通过Attributes,开发者可以在类、方法和属性上添加额外的元数据,以增强自定义类的功能和灵活性。在本文中,我...
    99+
    2023-10-24
    PHP Attributes 自定义类功能
  • 如何进行netsh的强大功能分析
    这期内容当中小编将会给大家带来有关如何进行netsh的强大功能分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。netsh  netsh命令介绍方案   ( 这个blog系统自动把windows的路径分隔...
    99+
    2023-06-03
  • 如何使用OpenCV实现图像增强
    本篇内容介绍了“如何使用OpenCV实现图像增强”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!本期将介绍如何通过图像处理从低分辨率/模糊/低...
    99+
    2023-06-20
  • 如何使用CSS来扩展增强Input Range
    这篇文章主要讲解了“如何使用CSS来扩展增强Input Range”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用CSS来扩展增强Input Rang...
    99+
    2024-04-02
  • 操作系统如何集成区块链功能,增强安全性?
    1. 分布式账本技术 (DLT) 区块链的核心是分布式账本技术,在众多节点之间共享和维护一个不可变的交易记录。每个区块都包含前一个区块的哈希值,形成一个不可篡改的链,确保数据的完整性和真实性。 2. 防篡改特性 区块链的分布式和去中心化...
    99+
    2024-03-15
    操作系统与区块链
  • Win10如何开启照片应用的自动增强功能以改进照片
      现在很多人喜欢拍完照片后对照片进行增强改进,也因此促进了美图秀秀这样流行的修图软件。不过在Win10系统的照片应用中,能够自动   操作步骤   1.打开照片应用。   2.点击左侧的设置图标。   3.将自动增强...
    99+
    2023-06-12
    Win10 照片应用 自动增强 功能 照片
  • 如何利用python实现词频统计功能
    目录功能要求方法如下运行结果总结功能要求 这是我们老师的作业 代码中都有注释 要求 词频统计软件: 1)从文本中读入数据:(文件的输入输出) 2)不区分大小写,去除特殊字符。 3)&...
    99+
    2024-04-02
  • 如何使用css实现分页功能
    本篇内容介绍了“如何使用css实现分页功能”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!首先创建一个html文件。在html文件中添加htm...
    99+
    2023-07-04
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作