话题中间件与数据库 › Elasticsearch

中间件与数据库:Elasticsearch

Elasticsearch 8.X 小技巧:使用存储脚本优化数据索引与转换过程

在 Elasticsearch 中,可以使用 Painless 脚本来实现一些非标准的处理结果。这些脚本可以直接嵌入到数据处理管道中,但为了使脚本与管道相互独立,还可以将脚本单独存储在 Elasticsearch 中,并在数据摄取管道(Ingest pipeline)中按需调用它们。

这种存储脚本的方式,咱们之前也有过介绍,Elasticsearch 中有个专有术语名词与之对应,叫:stored script 存储脚本。通过 stored script 方式,可以在不同的地方重复使用同一段脚本,而无需复制代码。

在Elasticsearch中使用 stored script 存储脚本是一种高效且灵活的方法,特别适用于那些需要在多个数据处理场景中重复使用相同逻辑的场合。通过这种方式,可以构建更加模块化、易于管理的数据处理管道。

Elasticsearch “指纹”去重机制,你实践中用到了吗?

在 Elasticsearch 中,Fingerprint(指纹)通常指的是一种机制,用于为数据生成一个唯一的标识符或指纹。这个指纹是基于数据内容的一个哈希值,可用于识别和区分数据项。

Elasticsearch 写入优化探索:是什么影响了refresh 耗时?

测试结果显示,影响Elasticsearch中refresh耗时的因素包括写入操作类型、deleted文档占比和索引配置。关闭soft delete可以降低refresh耗时,但不推荐修改soft delete参数。更新操作和较高的deleted文档占比会导致refresh耗时增加。然而,单纯的新增数据对refresh耗时影响较小。此外,测试还发现索引中的large segment策略对日常使用没有明显影响。

一口气看完43个关于 ElasticSearch 的使用建议

在使用Elasticsearch时需要注意以下几点:1)设置分片数不要超过节点数的3倍;2)单个分片数据量不要超过50GB;3)单个索引的规模控制在1TB以内,单个分片大小控制在30-50GB,Docs数控制在10亿内;4)避免使用字段动态映射功能,指定具体字段类型、子类型和分词器;5)对于不需要分词的字符串字段,使用Keyword类型;6)ES默认字段个数最大1000,建议不要超过100;7)对于不索引字段,Index属性设置为False;8)避免使用Nested或Parent/Child;9)禁用Norms对于不需要进行评分排序的字段;10)对于不需要聚合和排序的字段禁用列存Doc_Values。此外,对于有频繁且较为固定的Range查询字段,可以增加一个Pre-Indexing字段来加快聚合速度。对于需要聚合查询的高基数Keyword字段,可以启用Eager_Global_Ordinals,它可以在Keyword字段上运行Terms聚合,并结合多个Segment的结果。

Elasticsearch 查询革新:探索 Wildcard 类型的高效模糊匹配策略

wildcard字段类型满足模糊查询需求且具有较高查询性能。它在ngram分词器上有空间优势。然而,查询效率与数据区分度相关,在区分度较低的场景下性能仍受影响。相对ES在精确查询上的优势,wildcard字段在模糊查询场景下需根据实际情况进行选择。

Migrating From Elasticsearch 7.17 to Elasticsearch 8.x: Pitfalls and Learnings

在升级Elasticsearch集群的过程中,团队面临了一些挑战,但最终取得了成功。他们通过监控和警报确保数据同步,备份数据以及更新警报和检查。团队还发现了恢复数据的流程存在问题,并通过使用Kibana进行工作流程改进。总体而言,升级是成功的,团队准备着手下一次升级,并且不断进化。

线上ES集群参数配置引起的业务异常案例分析

一次排查Elasticsearch node_concurrent_recoveries 引发的性能问题的过程。

Elasticsearch 8.10 同义词管理新篇章:引入同义词 API

Elasticsearch 的同义词功能是一个重要的文本分析工具,特别是在全文搜索应用中。同义词机制使得用户能够建立一个同义词库,以处理一词多义、多词同义等情况,从而增强搜索的准确性和丰富性。

Elasticsearch 8.X:这个复杂的检索需求如何实现?

index中有这样四个字段:title content question answer。要查询这四个字段,支持最多输入5个关键词模糊查询,多关键词以空格隔开。

匹配度计算逻辑:

  • 关键词有序排列 ,权重依次降低,即排列在前的关键词权重最高,依此降低;检索顺序和结果顺序一致的排在前面。
  • title(question)较content(answer)权重高,比如权重高10倍
  • 词频(关键词出现次数)越高,匹配度越高
  • 在匹配度相同的条件下按更新时间倒序排列

源码剖析:Elasticsearch 段合并调度及优化手段

经常看到集群的merge限流耗时比较高,所以想分析其原因、造成的影响、以及反思merge的一些优化手段。

Elasticsearch 8.X 可以按照数组下标取数据吗?

在 Elasticsearch 中,数组并不是一种特殊的数据类型。

当你在JSON文档中有一个数组字段并将其索引到Elasticsearch时,Elasticsearch会将数组中的每个元素当作独立的值进行索引,但它不会存储数组的结构或顺序信息。

Elasticsearch 8.X reindex 源码剖析及提速指南

你是不是也有 reindex 迁移速度慢的烦恼?

Elasticsearch 8.X 复杂分词搞不定,怎么办?

我想停用所有纯数字的分词 , 官网上的这个方法好像对ik分词器无效!

Elasticsearch 8.X “图搜图”实战

"图搜图"指的是通过图像搜索的一种方法,用户可以通过上传一张图片,搜索引擎会返回类似或者相关的图片结果。这种搜索方式不需要用户输入文字,而是通过比较图片的视觉信息来找到相似或相关的图片。这项技术在许多不同的应用中都很有用,如找到相同或相似的图片,寻找图片的来源,或者识别图片中的物体等等。

图像搜索的技术基础主要包括图像处理和机器学习等方面。通过图像处理,可以提取图像的特征(如颜色、形状、纹理等),然后通过机器学习模型比较这些特征来寻找相似的图片。近年来,深度学习也在图像搜索中发挥了重要作用,使得搜索结果更加精确和高效。

Elasticsearch 集群某一节点修改 IP 后无法启动问题复盘

频繁更换 Elasticsearch 集群节点的 IP 地址可能会导致集群稳定性降低,节点发现困难,配置管理复杂化,数据复制和恢复问题,负载均衡配置困扰以及潜在的安全风险。因此,为了保持集群的稳定性和安全性,我们通常不建议频繁更改节点的 IP 地址。

不要将数据库中的“分库分表”理论盲目应用到 Elasticsearch

关系型数据库中的分库分表能否直接应用到 Elasticsearch ?

- 위키
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-12-17 05:54
浙ICP备14020137号-1 $방문자$