首页 > 资讯 > 后端开发 > Python >基于ElasticSearch Analyzer的使用规则详解

622

分享到

基于ElasticSearch Analyzer的使用规则详解

2024-04-02 19:04:59 622人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

analyzer的使用规则查询只能查找倒排索引表中真实存在的项，所以保证文档在索引时与查询字符串在搜索时应用相同的分析过程非常重要，这样查询的项才能够匹配倒排索引中的项。尽管是

analyzer的使用规则

查询只能查找倒排索引表中真实存在的项，所以保证文档在索引时与查询字符串在搜索时应用相同的分析过程非常重要，这样查询的项才能够匹配倒排索引中的项。

尽管是在说文档，不过分析器可以由每个字段决定。每个字段都可以有不同的分析器，既可以通过配置为字段指定分析器，也可以使用更高层的类型（type）、索引（index）或节点（node）的默认配置。在索引时，一个字段值是根据配置或默认分析器分析的。

例如为 my_index 新增一个字段：


PUT /my_index/_mapping/my_type
{
    "my_type": {
        "properties": {
            "english_title": {
                "type":     "string",
                "analyzer": "english"
            }
        }
    }
}

现在我们就可以通过使用 analyze api 来分析单词 Foxes ，进而比较 english_title 字段和 title 字段在索引时的分析结果：


GET /my_index/_analyze
{
"field": "my_type.title",
"text": "Foxes"
}
 
GET /my_index/_analyze
{
"field": "my_type.english_title",
"text": "Foxes"
}

字段 title ，使用默认的 standard 标准分析器，返回词项 foxes 。
字段 english_title ，使用 english 英语分析器，返回词项 fox 。

这意味着，如果使用底层 term 查询精确项 fox 时， english_title 字段会匹配但 title 字段不会。

如同 match 查询这样的高层查询知道字段映射的关系，能为每个被查询的字段应用正确的分析器。可以使用 validate-query API 查看这个行为：


GET /my_index/my_type/_validate/query?explain
{
    "query": {
        "bool": {
            "should": [
                { "match": { "title":         "Foxes"}},
                { "match": { "english_title": "Foxes"}}
            ]
        }
    }
}

返回语句的 explanation 结果：

(title:foxes english_title:fox)

match 查询为每个字段使用合适的分析器，以保证它在寻找每个项时都为该字段使用正确的格式。

默认分析器

虽然我们可以在字段层级指定分析器，但是如果该层级没有指定任何的分析器，那么我们如何能确定这个字段使用的是哪个分析器呢？

分析器可以从三个层面进行定义：按字段（per-field）、按索引（per-index）或全局缺省（global default）。elasticsearch 会按照以下顺序依次处理，直到它找到能够使用的分析器。索引时的顺序如下：

字段映射里定义的 analyzer ，否则
索引设置中名为 default 的分析器，默认为
standard 标准分析器

在搜索时，顺序有些许不同：

查询自己定义的 analyzer ，否则
字段映射里定义的 analyzer ，否则
索引设置中名为 default 的分析器，默认为
standard 标准分析器

有时，在索引时和搜索时使用不同的分析器是合理的。我们可能要想为同义词建索引（例如，所有 quick 出现的地方，同时也为 fast 、 rapid 和 speedy 创建索引）。但在搜索时，我们不需要搜索所有的同义词，取而代之的是寻找用户输入的单词是否是 quick 、 fast 、 rapid 或 speedy 。

为了区分，Elasticsearch 也支持一个可选的 search_analyzer 映射，它仅会应用于搜索时（ analyzer 还用于索引时）。还有一个等价的 default_search 映射，用以指定索引层的默认配置。

如果考虑到这些额外参数，一个搜索时的完整顺序会是下面这样：

查询自己定义的 analyzer ，否则
字段映射里定义的 search_analyzer ，否则
字段映射里定义的 analyzer ，否则
索引设置中名为 default_search 的分析器，默认为
索引设置中名为 default 的分析器，默认为
standard 标准分析器

Elasticsearch分词（Analyzer）

一、什么是Analysis ？

Analysis 叫做分词，就是将文本转换为一系列单词（term/token）的过程。

Analysis 是通过Analyzer来实现的。

可使用Elasticserach内置的分析器或按需优化分需求或安装分析器插件。

在数据写入的时候转换词条于Query语句查询的时候也需要用相同的分析器。

二、Analyzer的组成与工作机制

Character Filter 针对原始文本处理，例如去除html。

Tokenizer 按规则切分为单词。Tokenizer Filter将切分的单词进行加工，小写，删除stopWords，增加同义词。

在这里插入图片描述

三、Elasticserach内置的一些分词器

1） _analyzer API 三种使用方法

2） Standard Analyzer

原理

在这里插入图片描述

示例

在这里插入图片描述

3）Simple Analyzer

原理

在这里插入图片描述

示例

在这里插入图片描述

4）Whitespace Analyzer

原理

在这里插入图片描述

示例

在这里插入图片描述

5）Stop Analyzer

原理

在这里插入图片描述

示例

在这里插入图片描述

6）Keyword Analyzer

原理

在这里插入图片描述

示例

在这里插入图片描述

7）Pattern Analyzer

原理

在这里插入图片描述

示例

在这里插入图片描述

8）Language Analyzer

支持按语言分词

示例

在这里插入图片描述

四、中文分词

中文分词的难点：

中文句子，切成一个一个词（不是一个一个字）。英文中，单词有自然的空格作为分隔。一句中文，在不同的上下文，有不同的理解。

1）ICU Analyzer

原理

在这里插入图片描述

演示（需要提前安装 ICU Analyze 插件）

在这里插入图片描述

2）IK

在这里插入图片描述

3) THULAC

在这里插入图片描述

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 基于ElasticSearch Analyzer的使用规则详解

本文链接: https://www.lsjlt.com/news/130286.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

基于ElasticSearch Analyzer的使用规则详解

analyzer的使用规则查询只能查找倒排索引表中真实存在的项，所以保证文档在索引时与查询字符串在搜索时应用相同的分析过程非常重要，这样查询的项才能够匹配倒排索引中的项。尽管是...

99+

2024-04-02
基于ElasticSearch Analyzer的使用规则是什么

本文小编为大家详细介绍“基于ElasticSearch Analyzer的使用规则是什么”，内容详细，步骤清晰，细节处理妥当，希望这篇“基于ElasticSearch Analyzer的使用规则是什么”文章能帮助大家解决疑惑，下面跟着小编的...

99+

2023-06-05
Elasticsearch Analyzer 内置分词器使用示例详解

目录前置知识1.Analyzer2.Elasticsearch 内置分词器3. Standard Analyzer3.1 Definition3.2 Configuration3.3...

99+

2022-11-13

Elasticsearch Analyzer分词器 Elasticsearch Analyzer
详解elasticsearch实现基于拼音搜索

目录1、背景2、安装拼音分词器3、拼音分词器提供的功能4、简单测试一下拼音分词器4.1 dsl4.2 运行结果5、es中分词器的组成6、自定义一个分词器实现拼音和中文的搜索1、创建m...

99+

2023-01-16

elasticsearch 拼音搜索 elasticsearch 搜索
.NET RulesEngine（规则引擎）的使用详解

目录RulesEngine 概述如何使用表达树内使用扩展方法多对象组合条件如何实现的？成功失败事件总结一次偶然的机会，让我拿出RulesEngine去完成一个业务，对于业务来说主要是...

99+

2024-04-02
使用 Python 创建一个基于规则的聊天机器人

目录1、聊天机器人2、基于规则的聊天机器人3、创建语料库4、创建一个聊天机器人5、总结前言: 还记得这个价值一个亿的AI核心代码? while True: AI...

99+

2024-04-02
基于@ComponentScan注解的使用详解

目录@ComponentScan注解的使用一、注解定义二、使用1.环境准备2.excludeFilters的使用3.includeFilters的使用4.自定义过滤规则关于@Comp...

99+

2024-04-02
基于JPA的Repository使用详解

目录Spring Data JPARepositoryCrudRepositoryPagingAndSortingRepositoryJpaRepositoryJpaSpecific...

99+

2024-04-02
golang elasticsearch Client的使用详解

elasticsearch 的client ，通过 NewClient 建立连接，通过 NewClient 中的 Set.URL设置访问的地址，SetSniff设置集群获得连接后...

99+

2024-04-02
超详细的JavaScript基本语法规则

目录01 JavaScript (简称:js)js分三个部分:JavaScript是什么？js的代码可以分三个地方写:02 操作符操作符:一些符号-----用来计算关系运算符:关系运...

99+

2024-04-02
基于Luhn算法的银行卡校验规则

目录案例:该校验的过程：运行结果：银行卡校验规则(Luhn算法)卡号位数数量说明：案例: 当你输入信用卡号码的时候，有没有担心输错了而造成损失呢？其实可以不必这么担心，因为并不是一个...

99+

2024-04-02
关于elasticsearch的match_phrase_prefix查询详解

目录match_phrasematch_phrase_prefix需要注意的点总结match_phrase match_phrase_prefix可以认为是match_phrase的...

99+

2023-03-21

关于elasticsearch match_phrase_prefix match_phrase_prefix查询关于elasticsearc
基于RestTemplate的使用方法(详解)

1.postForObject ：传入一个业务对象，返回是一个String调用方：BaseUser baseUser=new BaseUser();baseUser.setUserid(userid);baseUser.setPass(pa...

99+

2023-05-31

resttemplate emp 用
基于Spring depends-on的使用详解

Spring depends-on的使用通过在XML中的<bean>里配置depends-on属性或者在一个类上使用注解@DependsOn，可以使一个Bean的产生依...

99+

2024-04-02
详解常用的nginx rewrite重写规则

在Nginx中，rewrite指令用于重写URL。它允许用户修改请求URI、查询参数以及HTTP请求方法。以下是常用的Nginx r...

99+

2023-08-14

nginx
基于BFC规则如何实现的css两列布局

这篇文章将为大家详细讲解有关基于BFC规则如何实现的css两列布局，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。　　<!--利用BFC的overflowhidd...

99+

2024-04-02
AndroidIntentFilter的匹配规则示例详解

目录前言一、Activity的调用模式1、显式调用2、隐式调用二、IntentFilter匹配规则详解1、Action的匹配规则2、category的匹配规则3、data的匹配规则d...

99+

2022-12-09

Android IntentFilter匹配规则 Android IntentFilter
Python函数中的作用域规则详解

目录1、简单介绍一下闭包2、在Python中，并不是任何代码块都能引入新的作用域3、在Python中，名字绑定在所属作用域中引入新的变量，同时绑定到一个对象。总结Python是静态作...

99+

2024-04-02
python机器学习创建基于规则聊天机器人过程示例详解

目录聊天机器人基于规则的聊天机器人创建语料库创建一个聊天机器人总结还记得这个价值一个亿的AI核心代码？ while True: AI = input('我：') ...

99+

2024-04-02
JavaScript 中的 this 绑定规则详解

目录前言1. 关于 this 的简单介绍2. 为什么使用 this？3. 关于this 的常见的误解4. this 的绑定规则4.1 默认绑定4.2 隐式绑定4.3 显式绑定4.4 ...

99+

2023-02-14

JavaScript中的this绑定规则 JavaScript中的this关键字 JS中this的4种绑定规则