中间件与数据库:Kafka
中原银行开源消息中间件的落地实践
中原银行从RabbitMQ转向Pulsar,解决了脑裂风险、扩展性不足等问题。Pulsar的存算分离架构提升了资源利用率,支持动态伸缩与云原生部署,增强了稳定性和容错能力。银行还对Pulsar进行了深度定制,优化了跨区域网络管理、客户端SDK功能和集群部署模式,实现了双活架构,显著提高了资源利用率和容灾能力。未来将探索消息平台的智能化,提升运维效率。
从Kafka到AutoMQ:爱奇艺实时流数据架构演进
爱奇艺流数据架构升级记:从私有云Kafka到AutoMQ的华丽转身!面对集群弹性差、成本高难题,团队先通过Stream平台+SDK实现业务与存储解耦,再引入公有云Kafka提升资源利用率。最终押注存算分离的AutoMQ,单副本设计+秒级弹性让成本直降70%。现在近半流量跑在云端,未来还要继续扩大AutoMQ版图~(138字)
RocketMQ高性能揭秘:承载万亿级流量的架构奥秘
RocketMQ作为高性能分布式消息中间件,采用生产者、消费者、NameServer和Broker四组件协同设计,实现消息全链路解耦。其核心架构优化包括NameServer的轻量级服务发现、Broker的消息存储与转发、Producer与Consumer的高效模型,以及高可用设计和刷盘策略优化,确保金融级可靠性和万亿级消息堆积能力。
Contributing to Debezium: Fixing Logical Replication at Scale
Zalando通过Debezium和PostgreSQL逻辑复制处理海量事件流,解决了WAL增长和LSN管理难题。贡献了lsn.flush.mode和offset.mismatch.strategy配置选项,允许用户根据需求选择LSN刷新和偏移量处理策略,防止低活跃数据库的WAL膨胀,并优化了重启时的偏移量同步问题。这些改进确保了逻辑复制的稳定性和灵活性,适用于大规模生产环境。
How Uber Indexes Streaming Data with Pull-Based Ingestion in OpenSearch™
Uber的搜索平台采用拉取式数据模型,基于Apache Kafka构建,实现了高可用性和全球一致性。通过多区域部署和流式数据处理,平台能够高效处理实时请求,确保数据新鲜度和系统稳定性。拉取式模型解决了传统推送模型在高流量下的性能瓶颈,简化了数据重放和优先级控制。Uber还将这一模型贡献给OpenSearch项目,推动了开源社区的发展。
From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake
Uber 重新设计了数据湖的摄取系统 IngestionNext,基于 Apache Flink 实现了流式处理,将数据新鲜度从小时级提升至分钟级,同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题,并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理,确保在故障时数据不丢失。未来,Uber 计划进一步扩展实时数据处理能力,以支持端到端的实时洞察和分析。
Blazing Fast OLAP on Uber’s Inventory and Catalog Data with Apache Pinot™
Uber Eats采用Apache Pinot™处理海量商品数据,支持实时搜索和低延迟分析。核心实体为“产品”和“商品”,通过Kafka实时更新数据,Pinot提供快速查询和聚合功能。优化了非拉丁文本搜索,引入UUID哈希函数减少内存占用,并升级Java运行时提升性能。通过小段合并任务,显著降低查询延迟和表大小,支持无限保留用例。
流式应用服务灾备体系建设实践与场景化应用
数据服务总线平台(NRDP)构建同城双中心级灾备集群,通过数据双写、主备双活及全方位监控,提升业务连续性与可靠性。用户可通过升级Kafka客户端SDK实现灾备切换,确保业务在各种场景下持续运行。NRDP还支持定制化灾备升级,帮助用户完成灾备建设,提升全行业务场景连续性。
Real-time data quality monitoring: Kafka stream contracts with syntactic and semantic test
数据质量监控是AI创新的基石,但Kafka流数据的语法和语义问题常导致下游故障。Coban平台创新性地通过数据契约定义、自动化测试和实时告警三大模块破解难题:用户可自定义字段级语义规则,平台通过FlinkSQL实时检测异常数据并精准定位问题字段,同时结合LLM智能推荐规则降低配置门槛。上线后已守护100+关键数据流,实现秒级问题拦截。未来将拓展数据溯源和跨字段校验能力,打造更立体的数据质量防护网。
Architecting AI Agent Auditing Systems in Agentforce: Overcoming Data Cloud and Kafka Integration Challenges
Madhavi Kavathekar领导的团队成功将AI审计系统与Data Cloud集成,解决了技术挑战,并通过Kafka处理了不可预测的AI流量。该系统支持500家企业客户,每月处理2000万次模型交互,确保信任、安全和合规。团队采用迭代开发,优化了数据管道架构,动态调整流量控制,提升了系统性能和可扩展性。
Kafka双活演练自动化及一次失败演练总结
Kafka双活建设完成后,通过自动化编排和切换验证备机房集群能力。切换流程包括修改Partition副本列表和分批选举Leader副本。自动化流程涵盖工单创建、数据编排、分批切换及一键回滚。演练中因幂等逻辑漏洞导致编排失败,通过排查定位问题并优化校验逻辑,确保后续演练顺利进行。
去哪儿 KAFKA 再度优化-提升服务上限35%
文章探讨了在节日流量高峰时,KAFKA集群面临的性能瓶颈,特别是生产压缩率低导致的服务端压力增大问题。通过优化Filebeat的批次发送参数和内存队列配置,提升了压缩率,减少了服务端的请求量和流量消耗。优化后,集群的CPU使用率、网络流量和磁盘存储均显著降低,KAFKA的处理能力提升了35%,有效保障了业务的稳定性和数据的完整性。
Event-Driven AI: Building a Research Assistant with Kafka and Flink
Agentic AI的兴起使得自主任务执行和复杂工作流成为可能,但在实际应用中面临架构挑战。通过事件驱动架构(EDA),可以实现灵活、高效的数据交换,避免依赖瓶颈。PodPrep AI是一个AI驱动的研究助理,展示了EDA如何在复杂的分布式系统中实现无缝数据集成和可扩展性。该系统使用实时数据流和Flink等工具,实现独立组件的高效协作,提升AI应用的效率和灵活性。
携程基于Kafka的数据校验代理在FinOps领域的应用
提升数据质量,构建度量及治理自助化自动化实践。
Kafka Streams 在监控场景的应用与实践
介绍 Kafka Streams 的原理架构,常见配置以及在监控场景的应用。
货拉拉消息中间件之Kafka架构演进
随着货拉拉业务的快速增长,Kafka集群流量和负载也呈现出明显的增长趋势。作为货拉拉业务核心的消息中间件,Kafka架构也做了相应架构演进。本篇文章将会重点介绍过去、现在kafka架构的演进历程。