中间件与数据库:ClickHouse
ClickHouse在百度MEG数据中台的落地和优化
在百度MEG数据中台构建的图灵3.0生态以及OneData+开发范式中,TDE-ClickHouse作为重要的基础引擎之一,我们主要从查询性能、数据导入和分布式架构三个方面对其进行了相应优化。
ClickHouse在京东能源管理平台的实践
京东综合能源管理平台多维数据分析引擎的架构和设计。
ClickHouse物化视图里常见的7个坑,你踩过几个?
一文解析ClickHouse物化视图
数据库不应放在容器中?- B站Kubernetes有状态服务实践(Elasticsearch/Clickhouse)
本文基于Elasticsearch/Clickhouse在B站生产环境的容器化/K8s编排能力落地, 将阐述为何我们需要进行容器化/on k8s, 容器化中遭遇的挑战以及解决方案, 落地的技术细节以及收益。
滴滴基于 Clickhouse 构建新一代日志存储系统
本文主要介绍滴滴日志检索场景从ES迁移到CK的技术探索。
ClickHouse在B站直播公会业务分析场景的应用实践
B站为外部公会提供了主播全生命周期的管理系统,包含主播的入退会管理、主播营收数据分析、主播开播看播数据分析、直播监控、营收账单结算等功能子模块。
架构探索之ClickHouse
ClickHouse是一款开源的列式数据库管理系统,适用于在线分析处理(OLAP)场景,本文通过介绍ClickHouse,帮助读者今后快速地处理大规模数据,并获得实时的分析结果,为业务提供有力支持。
ClickHouse is in the house
Insights gained and lessons learned from our long video analytics migration journey.
Druid Deprecation and ClickHouse Adoption at Lyft
ClickHouse是一个开源的高性能面向列的数据库,用于在线分析处理。Lyft决定扩展ClickHouse并废弃Druid,将现有的Druid用例迁移到ClickHouse。ClickHouse相对于Druid具有简化的基础设施管理、较低的学习曲线、数据去重、较低的成本和专门的引擎等优势。Lyft通过基准测试和性能分析来评估ClickHouse,并进行了平滑的迁移过程。他们在Lyft使用ClickHouse的架构是基于Altinity的Kubernetes Operator,在HA模式下运行,使用AWS M5类型的计算实例和EBS卷进行存储。数据的摄取主要通过Kafka和Kinesis进行,并通过内部代理和可视化工具进行读取查询。Lyft在ClickHouse上处理大量数据,并对查询性能进行了优化,包括使用排序键、跳过索引和投影等技术。他们在ClickHouse上处理多个用例,包括市场健康、政策报告、花费追踪、预测和实验等。然而,在使用ClickHouse过程中也遇到了一些问题,如查询缓存性能和与Kafka集成的问题。此外,Lyft计划进一步扩展ClickHouse的使用,包括稳定批处理架构和使用流式Kinesis摄取。他们还计划将Flink SQL迁移到ClickHouse,并考虑使用ClickHouse Keeper替代ZooKeeper以减少外部组件依赖。
映客基于Clickhouse的日志体系建设实践
作为线上定位问题和排查故障的重要手段,日志在可观测领域有着不可替代的作用。因此,日志系统需要追求稳定性、性能、成本、易用性、可扩展性等关键点。
目前我司的日志系统是基于ELK的,支持云主机、容器日志采集和特殊分类日志的综合采集等功能。但是随着公司的业务发展,日志应用场景逐渐遇到了一些瓶颈:
- 数据增长和处理需求增加:业务的不断扩张和数据量的增加,原有的日志系统无法满足现有的数据处理需求。数据处理速度变慢,存储空间不足等问题。
- 数据质量和可靠性要求提高:日志数据对于公司业务和运维至关重要,因此数据质量和可靠性要求越来越高。原有的日志系统存在日志丢失、日志收集慢等问题,需要进行改进。
现状:目前总共运行 8个 ES 集群,机器数量100+, Logstash 机器 50+,需要的硬件和维护成本很高,通过扩容的方法去满足业务场景,ES集群会太大会变动不稳定,创建独立集群,也需要更高成本,两者都会使得成本和维护工作量剧增。
鉴于这些问题,去年下半年开始探索新的日志系统架构,以彻底解决上面的问题。
火山引擎 ByteHouse:ClickHouse 如何保证海量数据一致性
用搭建轻量级流程引擎的方案,教你解决数据一致性难题。
ClickHouse 存算分离改造:小红书自研云原生数据仓库实践
REDck 通过云原生架构升级,能够处理万亿级数据规模,实现秒级 OLAP 查询,支持分钟级自动故障恢复、弹性扩缩容能力,成本优化效果显著。
基于ClickHouse解决活动海量数据问题
魔笛活动平台要记录每个活动的用户行为数据,帮助客服、运营、产品、研发等快速处理客诉、解决线上问题并进行相关数据分析和报警。可以预见到需要存储和分析海量数据,预估至少几十亿甚至上百亿的数据量,所以需要选择一款能存储海量数据的数据库。由于是通过接收MQ存储或者API方式存储,所以对实时写入性能也有一定要求。同时可能后续还需要一些实时数据分析等。
万字长文详述ClickHouse的探索与实践
京喜达技术部在社区团购场景下采用JDQ+Flink+Elasticsearch架构来打造实时数据报表。随着业务的发展 Elasticsearch开始暴露出一些弊端,不适合大批量的数据查询,高频次深度分页导出导致ES宕机、不能精确去重统计,多个字段聚合计算时性能下降明显。所以引入ClickHouse来处理这些弊端。
数据写入链路是业务数据(binlog)经过处理转换成固定格式的MQ消息,Flink订阅不同Topic来接收不同生产系统的表数据,进行关联、计算、过滤、补充基础数据等加工关联汇总成宽表,最后将加工后的DataStream数据流双写入ES和ClickHouse。查询服务通过JSF和物流网关对外暴露提供给外部进行展示,由于ClickHouse将所有计算能力都用在一次查询上,所以不擅长高并发查询。我们通过对部分实时聚合指标接口增加缓存,或者定时任务查询ClickHosue计算指标存储到ES,部分指标不再实时查ClickHouse而是查ES中计算好的指标来抗住并发,并且这种方式能够极大提高开发效率,易维护,能够统一指标口径。
在引入ClickHouse过程中经历各种困难,耗费大量精力去探索并一一解决,在这里记录一下希望能够给没有接触过ClickHouse的同学提供一些方向上的指引避免多走弯路,如果文中有错误也希望多包含给出指点,欢迎大家一起讨论ClickHouse相关的话题。
深入浅出 ClickHouse 物化视图
虽然官方文档记录了 ClickHouse 物化视图很多详细信息,但是使用物化视图还是有很多小细节需要注意,更别说一些最佳实践。本文总结了 ClickHouse 物化视图使用上的各种问题,并展示三个实际案例。
ByteHouse:基于ClickHouse 的实时计算能力升级
ByteHouse是火山引擎数智平台旗下云原生数据分析平台,为用户带来极速分析体验,能够支撑实时数据分析和海量离线数据分析;便捷的弹性扩缩容能力,极致的分析性能和丰富的企业级特性,助力客户数字化转型。
本文为字节跳动数据平台超话数据直播回顾文章,全篇将从字节内部发展链路、选择ClickHouse原因,基于ClickHouse的四个维度优化、多场景实践四个版块,介绍ByteHouse基于ClickHouse的实时计算能力升级。