中间件与数据库：Elasticsearch的相关资料

Elasticsearch 8.X 向量检索和普通检索能否实现组合检索？如何实现？

Elasticsearch 8.X 组合检索企业级实战问题及方案探讨 \x26gt;\x26gt;

Elasticsearch 悬挂索引解析与管理指南

一道 Elasticsearch 8.X 面试题引发的思考和梳理\x26gt;\x26gt;

数据库不应放在容器中？- B站Kubernetes有状态服务实践(Elasticsearch/Clickhouse)

本文基于Elasticsearch/Clickhouse在B站生产环境的容器化/K8s编排能力落地，将阐述为何我们需要进行容器化/on k8s，容器化中遭遇的挑战以及解决方案，落地的技术细节以及收益。

哔哩哔哩技术

Using LlamaIndex with Elasticsearch for Enhanced Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG) is a technique that combines retrieval and generation capabilities. It effectively addresses some issues of large language models (LLMs), such as hallucinations and knowledge limitations. With the evolution of RAG, vector technology involved in RAG has gained attention, and vector databases have become more widely recognized. Established database providers now support vector retrieval, including Elasticsearch, which recently added support for vector retrieval in its latest version. This article introduces the deployment of Elasticsearch and embedding models in RAG, as well as how to use Elasticsearch for document indexing and retrieval within the LLM framework LlamaIndex.

Elasticsearch 如何实现文件名自定义排序？

在数字时代，图像数据的管理已成为数据架构的一部分。然而，随之而来的挑战是如何有效地索引和检索这些图像文件。

这不仅涉及存储，更重要的是如何根据特定的属性（如文件名中的数字）进行排序，以便用户可以按照预期的顺序查看图像。

Langchain 与 Elasticsearch：创新数据检索的融合实战

在信息爆炸的时代，有效地检索和处理数据变得至关重要。Langchain 和 Elasticsearch 的结合，为我们提供了一个强大的工具，以更智能的方式进行数据检索和分析。

Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序？

希望在查出的结果后，对结果进行后处理，对tags列表，根据depth进行排序。

ES分片均衡策略分析与改进

Elasticsearch 的分片均衡是指将索引的分片均匀地分布在集群中的各个节点上，以实现负载均衡和高可用性。

政采云技术

Elasticsearch 8.X 小技巧：使用存储脚本优化数据索引与转换过程

在 Elasticsearch 中，可以使用 Painless 脚本来实现一些非标准的处理结果。这些脚本可以直接嵌入到数据处理管道中，但为了使脚本与管道相互独立，还可以将脚本单独存储在 Elasticsearch 中，并在数据摄取管道（Ingest pipeline）中按需调用它们。

这种存储脚本的方式，咱们之前也有过介绍，Elasticsearch 中有个专有术语名词与之对应，叫：stored script 存储脚本。通过 stored script 方式，可以在不同的地方重复使用同一段脚本，而无需复制代码。

在Elasticsearch中使用 stored script 存储脚本是一种高效且灵活的方法，特别适用于那些需要在多个数据处理场景中重复使用相同逻辑的场合。通过这种方式，可以构建更加模块化、易于管理的数据处理管道。

Elasticsearch “指纹”去重机制，你实践中用到了吗？

在 Elasticsearch 中，Fingerprint（指纹）通常指的是一种机制，用于为数据生成一个唯一的标识符或指纹。这个指纹是基于数据内容的一个哈希值，可用于识别和区分数据项。

Elasticsearch 写入优化探索：是什么影响了refresh 耗时？

测试结果显示，影响Elasticsearch中refresh耗时的因素包括写入操作类型、deleted文档占比和索引配置。关闭soft delete可以降低refresh耗时，但不推荐修改soft delete参数。更新操作和较高的deleted文档占比会导致refresh耗时增加。然而，单纯的新增数据对refresh耗时影响较小。此外，测试还发现索引中的large segment策略对日常使用没有明显影响。

一口气看完43个关于 ElasticSearch 的使用建议

在使用Elasticsearch时需要注意以下几点：1）设置分片数不要超过节点数的3倍；2）单个分片数据量不要超过50GB；3）单个索引的规模控制在1TB以内，单个分片大小控制在30-50GB，Docs数控制在10亿内；4）避免使用字段动态映射功能，指定具体字段类型、子类型和分词器；5）对于不需要分词的字符串字段，使用Keyword类型；6）ES默认字段个数最大1000，建议不要超过100；7）对于不索引字段，Index属性设置为False；8）避免使用Nested或Parent/Child；9）禁用Norms对于不需要进行评分排序的字段；10）对于不需要聚合和排序的字段禁用列存Doc_Values。此外，对于有频繁且较为固定的Range查询字段，可以增加一个Pre-Indexing字段来加快聚合速度。对于需要聚合查询的高基数Keyword字段，可以启用Eager_Global_Ordinals，它可以在Keyword字段上运行Terms聚合，并结合多个Segment的结果。

得物技术