话题中间件与数据库 › Elasticsearch

中间件与数据库:Elasticsearch

ElasticSearch 海量数据查询性能优化

用好文件缓存是关键。

全方位深度解读 Elasticsearch 分页查询

问题1:想请问下,一次性获取索引上的某个字段的所有值(100 万左右),除了把 max_result_window 调大 ,还有没有啥方法?

问题2:关于 es 的分页,每次拿 20 条展示在前台,然后点击下一页,在查询后面的20条数据,应该要怎么写?

问题3:From+size、Scroll、search_after 的本质区别和应用场景分别是什么?

ElasticSearch 如何使用 TDigest 算法计算亿级数据的百分位数?

聚合分析中较为常见的 percentiles 百分位数分析。n 个数据按数值大小排列,处于 p% 位置的值称第 p 百分位数。比如说,每次网站请求访问的耗时,需要统计其 TP99,也就是整体请求中的 99% 的请求的最长耗时。

ElasticSearch 如何使用 ik 进行中文分词?

本篇文章着重分析 ElasticSearch 在全文搜索前如何使用 ik 进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。

Elasticsearch:从写入原理谈写入优化

Elasticsearch 写入问题涉及写入流程、写入原理及优化策略。

Elasticsearch 警惕使用 wildcard 检索!然后呢?

在寻求解决方案的时候,我们要先问一下:为什么大家喜欢用 wildcard 实现模糊检索?

得到的答复往往是:顺手,类似Mysql like 查询,短、平、快的达到了产品经理的要求,满足了项目需求。

但,这忽略了性能问题以及可能带来的灾难后果。

所以,解决方案应该从根源上入手,以寻求彻底解决。

Elasticsearch 自定义分词同义词环节的这个细节不大好理解......

自定义分词同义词这个细节官方文档解释的不细,死磕一把,探个究竟。

Elasticsearch 生产环境集群部署最佳实践

在生产环境搭建或维护 Elasticsearch 集群和个人搭建集群的小打小闹有非常大的不同。

如何不写一行代码把 Mysql json 字符串解析为 Elasticsearch 的独立字段

有数百万数据需要导入 Elasticsearch 做性能对比测试,但当前数据存储在 Mysql 中,且核心字段以 Json 字符串形式存储。有没有又快又好的方法?接收同事是非开发人员,如果不写一行代码(脚本)就更好了!

Elasticsearch 线程池和队列问题,请先看这一篇

Elasticsearch 线程池和队列问题,这篇说透了!

Elasticsearch Optimizations at Lyft

在Lyft,我们使用一个内部特性服务来存储ML模型使用的批处理和流式处理特性,使它们可以在离线模式(用于训练)和在线模式(用于推理)下访问。该服务将这些特征复制到Elasticsearch中,实现高级查询。对于增长型产品,我们使用Elasticsearch来支持内部工具,比如我们的客户数据平台,它使团队能够根据无数特征定义用户群。

2020年,新的健康与安全和实时计划对我们以前的Elasticsearch SLA发起了挑战。随着每周不同用例的涌入,我们很快就超出了现有的集群,延迟增加,AWS成本飙升。在这篇文章中,我们将分享我们测量和改变与Elasticsearch交互的各种方法,从而最终降低了延迟和成本。

Elasticsearch 如何实现类主流搜索引擎广告置顶显示效果?

pinned query 是 Elasticsearch 7.4.0 版本实现的增强检索功能。pinned:中文翻译为“固定”。pinned query 则可以解释为——固定某些结果首页置顶显示的检索方式。

如何解决模板式的冗余代码问题?

当项目中在使用到诸如 Elasticsearch 的中间件时,客户端对不同数据模型的 CRUD 操作存在着大量模版式的冗余代码,每次有新的业务数据需要 Elasticsearch 的管理时都会重写类似的 CRUD 逻辑,这些 CRUD 代码除了数据模型不同,通用功能的代码逻辑几乎一样。显然,在这种情况下,我们完全可以抽取出通用功能的代码,将其定义成一个模版。当接入具体的业务数据时,只需要进行模版实例化的代码书写,把因业务不同的数据模型嵌入到模版中,从而避免重复书写功能相同的代码,最终达到提高开发效率,降低开发成本的目的。

Elasticsearch 缓存深入详解

你还不了解的 Elasticsearch 缓存盲点。

Elasticsearch 高基数聚合性能提升3倍,改动了什么?

terms 聚合的性能可能会受到所聚合字段的基数的极大影响。基数(Cardinality)是指存储在特定字段中的值的唯一性。高基数:意味着一个字段包含很大比例的唯一值。举例:电子邮件地址可能会有数千万+唯一值,属于高基数。低基数:意味着一个字段包含很多重复的值。举例:因为世界上少于200个国家,国家名称就是低基数。

分布式搜索引擎Elasticsearch的架构分析

本文介绍ES的分布式架构,以及ES的存储原理和写索引机制。

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-21 20:24
浙ICP备14020137号-1 $访客地图$