中间件与数据库：Elasticsearch的相关资料

Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序？

希望在查出的结果后，对结果进行后处理，对tags列表，根据depth进行排序。

ES分片均衡策略分析与改进

Elasticsearch 的分片均衡是指将索引的分片均匀地分布在集群中的各个节点上，以实现负载均衡和高可用性。

政采云技术

Elasticsearch 8.X 小技巧：使用存储脚本优化数据索引与转换过程

在 Elasticsearch 中，可以使用 Painless 脚本来实现一些非标准的处理结果。这些脚本可以直接嵌入到数据处理管道中，但为了使脚本与管道相互独立，还可以将脚本单独存储在 Elasticsearch 中，并在数据摄取管道（Ingest pipeline）中按需调用它们。

这种存储脚本的方式，咱们之前也有过介绍，Elasticsearch 中有个专有术语名词与之对应，叫：stored script 存储脚本。通过 stored script 方式，可以在不同的地方重复使用同一段脚本，而无需复制代码。

在Elasticsearch中使用 stored script 存储脚本是一种高效且灵活的方法，特别适用于那些需要在多个数据处理场景中重复使用相同逻辑的场合。通过这种方式，可以构建更加模块化、易于管理的数据处理管道。

Elasticsearch “指纹”去重机制，你实践中用到了吗？

在 Elasticsearch 中，Fingerprint（指纹）通常指的是一种机制，用于为数据生成一个唯一的标识符或指纹。这个指纹是基于数据内容的一个哈希值，可用于识别和区分数据项。

Elasticsearch 写入优化探索：是什么影响了refresh 耗时？

测试结果显示，影响Elasticsearch中refresh耗时的因素包括写入操作类型、deleted文档占比和索引配置。关闭soft delete可以降低refresh耗时，但不推荐修改soft delete参数。更新操作和较高的deleted文档占比会导致refresh耗时增加。然而，单纯的新增数据对refresh耗时影响较小。此外，测试还发现索引中的large segment策略对日常使用没有明显影响。

一口气看完43个关于 ElasticSearch 的使用建议

在使用Elasticsearch时需要注意以下几点：1）设置分片数不要超过节点数的3倍；2）单个分片数据量不要超过50GB；3）单个索引的规模控制在1TB以内，单个分片大小控制在30-50GB，Docs数控制在10亿内；4）避免使用字段动态映射功能，指定具体字段类型、子类型和分词器；5）对于不需要分词的字符串字段，使用Keyword类型；6）ES默认字段个数最大1000，建议不要超过100；7）对于不索引字段，Index属性设置为False；8）避免使用Nested或Parent/Child；9）禁用Norms对于不需要进行评分排序的字段；10）对于不需要聚合和排序的字段禁用列存Doc_Values。此外，对于有频繁且较为固定的Range查询字段，可以增加一个Pre-Indexing字段来加快聚合速度。对于需要聚合查询的高基数Keyword字段，可以启用Eager_Global_Ordinals，它可以在Keyword字段上运行Terms聚合，并结合多个Segment的结果。

得物技术

Elasticsearch 查询革新：探索 Wildcard 类型的高效模糊匹配策略

wildcard字段类型满足模糊查询需求且具有较高查询性能。它在ngram分词器上有空间优势。然而，查询效率与数据区分度相关，在区分度较低的场景下性能仍受影响。相对ES在精确查询上的优势，wildcard字段在模糊查询场景下需根据实际情况进行选择。

Migrating From Elasticsearch 7.17 to Elasticsearch 8.x: Pitfalls and Learnings

在升级Elasticsearch集群的过程中，团队面临了一些挑战，但最终取得了成功。他们通过监控和警报确保数据同步，备份数据以及更新警报和检查。团队还发现了恢复数据的流程存在问题，并通过使用Kibana进行工作流程改进。总体而言，升级是成功的，团队准备着手下一次升级，并且不断进化。

zalando技术

线上ES集群参数配置引起的业务异常案例分析

一次排查Elasticsearch node_concurrent_recoveries 引发的性能问题的过程。

vivo技术

Elasticsearch 8.10 同义词管理新篇章：引入同义词 API

Elasticsearch 的同义词功能是一个重要的文本分析工具，特别是在全文搜索应用中。同义词机制使得用户能够建立一个同义词库，以处理一词多义、多词同义等情况，从而增强搜索的准确性和丰富性。

Elasticsearch 8.X：这个复杂的检索需求如何实现？

index中有这样四个字段：title content question answer。要查询这四个字段，支持最多输入5个关键词模糊查询，多关键词以空格隔开。

匹配度计算逻辑：

关键词有序排列，权重依次降低，即排列在前的关键词权重最高，依此降低；检索顺序和结果顺序一致的排在前面。
title（question）较content（answer）权重高，比如权重高10倍
词频（关键词出现次数）越高，匹配度越高
在匹配度相同的条件下按更新时间倒序排列

中间件与数据库：Elasticsearch的相关资料

中间件与数据库：Elasticsearch

Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序？

ES分片均衡策略分析与改进

Elasticsearch 8.X 小技巧：使用存储脚本优化数据索引与转换过程

Elasticsearch “指纹”去重机制，你实践中用到了吗？

Elasticsearch 写入优化探索：是什么影响了refresh 耗时？

一口气看完43个关于 ElasticSearch 的使用建议

Elasticsearch 查询革新：探索 Wildcard 类型的高效模糊匹配策略

Migrating From Elasticsearch 7.17 to Elasticsearch 8.x: Pitfalls and Learnings

线上ES集群参数配置引起的业务异常案例分析

Elasticsearch 8.10 同义词管理新篇章：引入同义词 API

Elasticsearch 8.X：这个复杂的检索需求如何实现？

源码剖析：Elasticsearch 段合并调度及优化手段

Elasticsearch 8.X 可以按照数组下标取数据吗？

Elasticsearch 8.X reindex 源码剖析及提速指南

Elasticsearch 8.X 复杂分词搞不定，怎么办？

Elasticsearch 8.X “图搜图”实战