中间件与数据库:Elasticsearch
Elasticsearch 8.X:这个复杂的检索需求如何实现?
index中有这样四个字段:title content question answer。要查询这四个字段,支持最多输入5个关键词模糊查询,多关键词以空格隔开。
匹配度计算逻辑:
- 关键词有序排列 ,权重依次降低,即排列在前的关键词权重最高,依此降低;检索顺序和结果顺序一致的排在前面。
- title(question)较content(answer)权重高,比如权重高10倍
- 词频(关键词出现次数)越高,匹配度越高
- 在匹配度相同的条件下按更新时间倒序排列
源码剖析:Elasticsearch 段合并调度及优化手段
经常看到集群的merge限流耗时比较高,所以想分析其原因、造成的影响、以及反思merge的一些优化手段。
Elasticsearch 8.X 可以按照数组下标取数据吗?
在 Elasticsearch 中,数组并不是一种特殊的数据类型。
当你在JSON文档中有一个数组字段并将其索引到Elasticsearch时,Elasticsearch会将数组中的每个元素当作独立的值进行索引,但它不会存储数组的结构或顺序信息。
Elasticsearch 8.X reindex 源码剖析及提速指南
你是不是也有 reindex 迁移速度慢的烦恼?
Elasticsearch 8.X 复杂分词搞不定,怎么办?
我想停用所有纯数字的分词 , 官网上的这个方法好像对ik分词器无效!
Elasticsearch 8.X “图搜图”实战
"图搜图"指的是通过图像搜索的一种方法,用户可以通过上传一张图片,搜索引擎会返回类似或者相关的图片结果。这种搜索方式不需要用户输入文字,而是通过比较图片的视觉信息来找到相似或相关的图片。这项技术在许多不同的应用中都很有用,如找到相同或相似的图片,寻找图片的来源,或者识别图片中的物体等等。
图像搜索的技术基础主要包括图像处理和机器学习等方面。通过图像处理,可以提取图像的特征(如颜色、形状、纹理等),然后通过机器学习模型比较这些特征来寻找相似的图片。近年来,深度学习也在图像搜索中发挥了重要作用,使得搜索结果更加精确和高效。
Elasticsearch 集群某一节点修改 IP 后无法启动问题复盘
频繁更换 Elasticsearch 集群节点的 IP 地址可能会导致集群稳定性降低,节点发现困难,配置管理复杂化,数据复制和恢复问题,负载均衡配置困扰以及潜在的安全风险。因此,为了保持集群的稳定性和安全性,我们通常不建议频繁更改节点的 IP 地址。
不要将数据库中的“分库分表”理论盲目应用到 Elasticsearch
关系型数据库中的分库分表能否直接应用到 Elasticsearch ?
Elasticsearch 8.X 聚合查询下的精度问题及其解决方案
在Elasticsearch中,数据精度问题主要出现在聚合(aggregation)操作中。比如我们在做一些大数运算时,如求和(sum)、求平均值(avg),可能会遇到数据类型(double或long)导致的精度问题。这是因为Elasticsearch在进行聚合操作时,为了提高性能和效率,会使用一种叫做“浮点数计算”的方式来做大数运算,而这种计算方式在处理大数时往往会丢失一些精度。
ElasticSearch - 批量更新bulk死锁问题排查
在ES中经常会使用BulkProcessor来进行批量处理,然后异步提交update请求,并设置固定的时间间隔来提交批量update请求。同时为了保证异步提交请求的可靠性,还会设置重试策略,但是没想到这个异常重试发生了死锁问题。
Elasticsearch 如何把评分限定在0到1之间?
在 Elasticsearch 中,评分(或打分)通常在查询过程中进行,以判断文档的相关性。
默认的打分机制使用的是 BM25,但你也可以通过自定义的打分查询(function_score)来自定义评分机制。然而,如果你想要将评分范围限定在0到1之间,你可能需要在查询中使用脚本来实现。
Elasticsearch 的评分主要关注的是相关性排序,而不是确切的评分值,因此如果你想要让 Elasticsearch 的评分等比例地映射到0和1之间,你需要使用一些形式的归一化或缩放方法。但这并不是 Elasticsearch 内置的功能,你需要自己来实现。
Elasticsearch核心应用场景-日志优化实践
日志领域是Elasticsearch(ES)最重要也是规模最大的应用场景之一。这得益于 ES 有高性能倒排索引、灵活的 schema、易用的分布式架构,支持高吞吐写入、高性能查询,同时有强大的数据治理生态、端到端的完整解决方案。但原生 ES 在高吞吐写入、低成本存储、高性能查询等方面还有非常大的优化空间,本文重点剖析腾讯云大数据 ES 团队在这三个方面的内核增强优化。
Qunar万亿级Elasticsearch集群节点迁移实战
如何高效稳定完成万亿级ES集群节点迁移?本文带你体验一次Qunar的ES迁移之旅。
Elasticsearch 8.X 性能优化实战
本文提供了关于 Elasticsearch 部署最佳实践的建议。其中包括使用索引生命周期管理(ILM)和快照生命周期管理(SLM)自动化索引和快照的管理和维护,从而提高查询性能,降低存储成本,增强可扩展性。此外,文章还介绍了监控 Elasticsearch 集群性能的指标,包括集群健康状况、搜索和索引性能等。最后,作者强调了充分利用 Elasticsearch 需要计划、优化和监控部署,建议参考官方文档和性能测试结论,并根据实际情况做出优化调整。
Elasticsearch 整合机器学习强化排序
本文介绍如何将机器学习预测能力迁移至es内部,增强排序能力, 构建一个高性能、分布式搜排一体系统,并通过落地更多复杂模型特征和更深的计算,为业务带来新的增长点。
Elasticsearch 8.X 如何基于用户指定 ID 顺序召回数据?
Elasticsearch 8.X 如何基于用户指定 ID 顺序召回数据?