【基础篇】第4章 Elasticsearch 查询与过滤

在Elasticsearch的世界里,高效地从海量数据中检索出所需信息是其核心价值所在。本章将深入解析查询与过滤的机制,从基础查询到复合查询,再到全文搜索与分析器的定制,为你揭开数据检索的神秘面纱。

4.1 基本查询

4.1.1 Match查询

Match查询是最基础的全文查询方式,用于查找与指定字段内容相匹配的文档。它支持模糊匹配,适用于字符串字段。例如,查询包含"elasticsearch"的文档:

{
  "query": {
    "match": {
      "content": "elasticsearch"
    }
  }
}

4.1.2 Term查询

Term查询用于精确匹配,不进行分析,即搜索时完全按照输入的词进行查找,适用于数字、日期或未经分析的字符串字段:

{
  "query": {
    "term": {
      "tag": "tutorial"
    }
  }
}

4.1.3 Range查询

Range查询用于筛选字段值在特定范围内的文档,适用于日期、数字等类型:

{
  "query": {
    "range": {
      "publish_date": {
        "gte": "2023-01-01",
        "lte": "2023-12-31"
      }
    }
  }
}

4.2 复合查询与过滤

4.2.1 组合查询

组合查询通过将多个查询条件逻辑组合起来,实现更复杂的检索需求。常见的组合查询有boolshouldmustmust_not等。

{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "Elasticsearch" }}
      ],
      "filter": [
        { "term": { "category": "technology" }}
      ]
    }
  }
}

4.2.2 布尔查询与上下文

布尔查询是复合查询中最常用的形式,它允许你组合多个查询条件,通过must(与)、should(或)、must_not(非)来表达逻辑关系。filter子句用于过滤条件,与评分无关,提高查询效率。

4.2.3 查询与过滤的区别

查询上下文(query context)会影响文档的评分,适合全文搜索;而过滤上下文(filter context)不计算文档得分,仅用于过滤结果集,适用于精确匹配或条件筛选,性能更优。

4.3 全文搜索与分析器

4.3.1 全文检索原理

全文检索基于倒排索引,将文档中每个单词映射到包含该单词的所有文档的列表。这一机制允许Elasticsearch快速定位包含特定词汇的文档,是全文搜索的基础。
在这里插入图片描述

4.3.2 分析器的工作机制

分析器是全文搜索的核心组件,负责将文本分割成词语(Tokenization)、转换(Normalization)、去除停用词(Stop Words Removal)等过程,最终生成索引项或查询项。这一过程包括了三个关键步骤:字符过滤、分词、以及词元过滤。下面,我们将逐一深入探讨这些步骤。

字符过滤(Character Filtering)

字符过滤是分析过程的第一步,它的主要任务是在文本被分词之前,对文本进行预处理,移除或替换某些不需要的字符。例如,HTML标签、特殊符号或者非打印字符等,常常在这个阶段被处理掉。字符过滤器可以确保后续步骤能够专注于文本的实际内容,而不是被这些附加元素干扰。

示例代码片段:

"char_filter": ["html_strip"]

这里,html_strip就是一个字符过滤器,它负责去除文本中的HTML标签,确保纯文本内容进入后续处理环节。

分词(Tokenization)

分词是分析过程中最核心的步骤,它将文本切分成一个个有意义的单元,这些单元被称为词元(tokens)。分词器(tokenizer)决定着如何将文本分割,不同的分词器适用于不同类型的内容。例如,standard分词器会按单词边界进行分割,而whitespace分词器则简单地按空格分割文本。

示例代码片段:

"tokenizer": "standard"

使用standard分词器,一个句子会被分解成单个词汇,同时去除标点符号。

词元过滤(Token Filtering)

词元过滤发生在分词之后,这个阶段可以对产生的词元进行进一步的修改或处理。常见的操作包括转换大小写、删除停用词(stop words)、同义词替换、词干提取(stemming)或词形还原(lemmatization)等。这些操作有助于减少索引的大小,提高搜索效率,同时增强搜索的灵活性和准确性。

示例代码片段:

"filter": ["lowercase", "asciifolding"]
  • lowercase过滤器将所有词元转换为小写,确保搜索时大小写不敏感。
  • asciifolding过滤器将非ASCII字符转换为它们的ASCII等价形式,比如将é转换为e,这有助于国际化搜索的一致性。

综合作用

通过这三个步骤,原始文本被转换成了适合索引和搜索的形式。每个分析器都是由这三个组件的不同组合构成的,用户可以根据具体需求定制分析器,以优化搜索体验。例如,对于英文文档,可能需要去除停用词和执行词干提取;而对于中文文档,则可能需要利用专门的中文分词器,如IK Analyzer。

理解分析器的工作机制对于优化Elasticsearch的搜索性能和准确性至关重要,它允许用户精确控制文本如何被索引和搜索,从而满足各种复杂的应用场景需求。

4.3.3 自定义分析器

Elasticsearch提供了丰富的内置分析器,如standard、whitespace、keyword等。若内置分析器不能满足特定需求,可自定义分析器,通过组合字符过滤器(Character Filters)、分词器(Tokenizer)和词元过滤器(Token Filters)来定制化文本处理流程。

{
  "analysis": {
    "analyzer": {
      "my_custom_analyzer": {
        "type": "custom",
        "tokenizer": "standard",
        "char_filter": ["html_strip"],
        "filter": ["lowercase", "asciifolding"]
      }
    }
  }
}

小结

本章详细介绍了Elasticsearch查询与过滤的基础与高级概念,从简单到复杂的查询构建,到深入全文检索原理与分析器定制,为高效检索数据提供了全面的理论与实践指导。掌握这些技能,你将能更加灵活地在Elasticsearch中执行复杂的数据搜索任务。接下来的《第5章 数据聚合与分析》将进一步探讨如何利用Elasticsearch强大的聚合功能,对数据进行深度分析与洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/761367.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从手工作坊到智能工厂:APS与MES的升级之路

一、APS:制造业的中枢 APS(AdvancedPlanningandScheduling),堪称制造业的数据接收和处理中枢,其借助前沿的算法与缜密的逻辑构建排程模型,全方位综合考量市场的多元需求、工厂的实际产能、物料的储备情况、…

Sentinel 采用的是什么限流算法?

引言:Sentinel 是一款由阿里巴巴开源的流量控制组件,提供了多种流控规则和限流算法,能够有效保护服务不被过载,同时实现服务的稳定运行。本文将深入探讨 Sentinel 所采用的主要限流算法,包括固定窗口计数器、滑动窗口计…

从0开始建SMARTFORMS表格

一、简介步骤 1、设置纸张的大小(页格式) 2、设置字体大小(样式) 3、设置表格模板 二、详细操作步骤 1、设置页格式 事务码:SPAD 参考操作:SAP Smartforms页格式创建与使用_sap 页格式-CSDN博客 SA…

【Altium】AD-焊盘介绍

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 介绍PCB设计工具中焊盘的组成 2、 知识点 为元件创建封装时,焊盘都是不可获取的部分,一个完整的焊盘,包含了哪些部分,各自又是什么作用。 3、软硬件环境 1&#xff…

深度学习 --- stanford cs231学习笔记六(训练神经网络之权重的初始化与批归一化)

权重矩阵的初始化与批归一化 3,权重矩阵的初始化 深度学习所学习的重点就是要根据损失函数训练权重矩阵中的系数。即便如此,权重函数也不能为空,总是需要初始化为某个值。 3,1 全都初始化为同一个常数可以吗? 首先要简…

英飞凌TC3xx之DMA工作原理及应用实例

英飞凌TC3xx之DMA工作原理及应用实例 1 DMA的架构2 必要的术语解释3 DMA请求3.1 DMA软件请求3.2 DMA硬件请求3.3 DMA 菊花链请求3.4 DMA自动启动请求3.5 总结4 小结DMA是直接存储访问Direct Memory Access的简称。它的唯一职能就是在不需要CPU参与的情况下,将数据从源地址搬运…

go Channel原理 (二)

Channel 设计原理 不要通过共享内存的方式进行通信,而是应该通过通信的方式共享内存。 在主流编程语言中,多个线程传递数据的方式一般都是共享内存。 Go 可以使用共享内存加互斥锁进行通信,同时也提供了一种不同的并发模型,即通…

复兴社:凝聚多方力量,共促乡村繁荣

复兴社自成立以来,始终肩负着推动全国经济发展、实现共同富裕的重任。乡村振兴作为实现这一目标的重要途径之一,一直是复兴社的工作重点。在李忠平会长的领导下,复兴社通过联合政府、企业和社会各界的资源,共同推进乡村振兴&#…

基于STM32的智能门锁控制系统

目录 引言环境准备智能门锁控制系统基础代码实现:实现智能门锁控制系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统实现4.4 用户界面与数据可视化应用场景:门锁管理与优化问题解决方案与优化收尾与总结 1. 引言 智能门锁控制系统通过使用STM32嵌…

Is ChatGPT a Good Personality Recognizer? A Preliminary Study?

ChatGPT是一个很好的人格识别者吗?初步调研 摘要1 介绍2 背景和相关工作3 实验3.1 数据集3.2 提示策略3.3 基线3.4 评估指标3.5 实现细节3.6 Overall Performance (RQ1)3.7 ChatGPT在人格识别上的公平性 (RQ2)3.8 ChatGPT对下游任务的人格识别能力(RQ3&a…

Java 面试指南合集

JVM 篇 线程篇 springBoot篇 SpringCloud篇 待更新 黑夜无论怎样悠长,白昼总会到来。 此文会一直更新哈 如果你希望成功,当以恒心为良友,以经验为参谋,以当心为兄弟,以希望为哨兵。

行业分析---造车新势力之极氪汽车

1 前言 在之前的博客中,笔者撰写了多篇行业类分析的文章(科技新能源): 《行业分析---我眼中的Apple Inc.》 《行业分析---马斯克的Tesla》 《行业分析---造车新势力之蔚来汽车》 《行业分析---造车新势力之小鹏汽车》 《行业分析-…

绘图黑系配色

随便看了几篇小论文,里面的黑配色挺喜欢的,虽然平时SCI系配色用的多,但看到纯黑配色与黑加蓝配色,那就是我最心上的最优style。

【JVM】JVM 内存结构

程序计数器 Cpu 要不停的切换执行线程,所以在切换回同一个线程的时候要知道程序执行到哪了,程序计数器(PC 计数器),用来存储指向下一条指令的地址,也就是将要执行的代码。 程序的分支、循环、跳转、异常处…

【论文解读】大模型的有效探索

一、简要介绍 论文提出的证据表明,通过有效地探索收集人类反馈以改进大型语言模型有实质性的好处。在论文的实验中,一个代理依次生成查询,同时拟合一个奖励模型的反馈收到。论文的最佳性能代理使用双汤普森抽样生成查询,其不确定性…

“香港世界”模型问世!颠覆传统SLAM技术,引领复杂定位新纪元!

论文标题: Hong Kong World: Leveraging Structural Regularity for Line-Based SLAM 论文作者: Haoang Li, Ji Zhao, Jean-Charles Bazin, Pyojin Kim, Kyungdon Joo, Zhenjun Zhao, Yun-Hui Liu 导读: 在视觉感知技术中,理解…

力扣 单链表元素删除解析及高频面试题

目录 删除元素的万能方法 构造虚拟头结点来应对删除链表头结点的情况 一、203.移除链表元素 题目 题解 二、19.删除链表中倒数第K个节点 题目 题解 三、 83.删除某个升序链表中的重复元素,使重复的元素都只出现一次 题目 题解 82.删除某个升序链表中的…

玛格家居从深交所转板北交所:营收净利润连年下滑,销售费用大增

《港湾商业观察》施子夫 近日,玛格家居股份有限公司(以下简称,玛格家居)发布公告,重庆证监局已经受理其北交所上市的备案申请,辅导机构为国泰君安证券。 公开信息显示,2022年1月,玛…

DreamView数据流

DreamView数据流 查看DV中界面启动dag,/apollo/modules/dreamview_plus/conf/hmi_modes/pnc.pb.txt可以看到点击界面的planning按钮,后台其实启动的是/apollo/modules/planning/planning_component/dag/planning.dag和/apollo/modules/external_command…

使用网络抓取器进行网络抓取--你需要了解的一切

什么是网页抓取? 网页抓取是一种计算机化过程,用于从网站上收集大量数据。它也常被称为网页数据提取或网页数据抓取。 网页抓取需要两个部分 - 爬虫和抓取器。 爬虫是一种AI算法,通过跟随互联网中的链接来搜索所需的特定数据。抓取器是一种…