中间件与数据库:Flink
How Uber Indexes Streaming Data with Pull-Based Ingestion in OpenSearch™
Uber的搜索平台采用拉取式数据模型,基于Apache Kafka构建,实现了高可用性和全球一致性。通过多区域部署和流式数据处理,平台能够高效处理实时请求,确保数据新鲜度和系统稳定性。拉取式模型解决了传统推送模型在高流量下的性能瓶颈,简化了数据重放和优先级控制。Uber还将这一模型贡献给OpenSearch项目,推动了开源社区的发展。
From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake
Uber 重新设计了数据湖的摄取系统 IngestionNext,基于 Apache Flink 实现了流式处理,将数据新鲜度从小时级提升至分钟级,同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题,并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理,确保在故障时数据不丢失。未来,Uber 计划进一步扩展实时数据处理能力,以支持端到端的实时洞察和分析。
Real-time data quality monitoring: Kafka stream contracts with syntactic and semantic test
数据质量监控是AI创新的基石,但Kafka流数据的语法和语义问题常导致下游故障。Coban平台创新性地通过数据契约定义、自动化测试和实时告警三大模块破解难题:用户可自定义字段级语义规则,平台通过FlinkSQL实时检测异常数据并精准定位问题字段,同时结合LLM智能推荐规则降低配置门槛。上线后已守护100+关键数据流,实现秒级问题拦截。未来将拓展数据溯源和跨字段校验能力,打造更立体的数据质量防护网。
抖音集团基于Flink的亿级RPS实时计算优化实践
抖音实时数据处理面临链路稳定性差、资源消耗大、任务恢复慢等挑战。通过分层建模优化、作业性能优化和链路保障优化,提升任务稳定性。大流量维表关联采用Flink Broadcast join,减少外部访问压力。直播场景通过自定义RocksDB CompactionFilter实现状态优化,支持30天累计指标。未来将进行通用和个性化场景优化,提升整体性能和资源利用率。
京东零售基于Flink的推荐系统智能数据体系
京东零售技术专家张颖在Flink峰会上揭秘了基于Flink构建的智能推荐数据体系。核心架构包含索引、样本、特征、可解释性和指标五大模块,通过实时+离线双链路保障数据一致性。重点解决了特征穿越、样本冷启动等难题,并创新采用分阶段窗口机制实现秒级实时样本拼接。可解释性模块能精准追踪推荐全链路决策过程,为效果优化提供数据支撑。整个体系日均处理PB级数据,显著提升了推荐系统的智能化水平。
Lalamove基于Flink实时湖仓演进之路
Lalamove利用Flink技术构建实时数仓,应对业务扩张带来的技术挑战,如多数据中心、时区差异和上游系统频繁改造。通过引入Paimon湖仓和Flink新特性,实现了数据模型兼容性、资源优化和成本降低。未来,Lalamove将继续探索湖流融合技术,进一步提升实时数仓的性能和效率。
京东物流基于Flink & StarRocks的湖仓建设实践
京东物流实时湖仓建设中,结合Flink与StarRocks,优化了数据流处理与存储架构。通过联邦查询与物化视图,实现了分钟级数据聚合与查询,支持复杂业务场景。存算分离策略降低了存储成本,提升了长周期数据的访问效率。未来将推广长周期数据存储服务,进一步优化数据分析体验。
基于Flink的配置化实时反作弊系统
基于Flink的实时反作弊流式过滤系统,通过秒级特征计算、高频策略热更新、模拟过滤验证及多场景数仓对接,解决了大流量场景下的复杂特征计算与策略迭代难题。系统优化了窗口触发机制与状态存储,提升高并发下的精准风控判定,支持实时监控与离线分析,为互联网业务提供高效、低延迟的反作弊解决方案。
Flink CDC YAML:面向数据集成的 API 设计
Flink CDC通过数据库日志捕获实现全量与增量数据的一体化读取,升级至3.0版本后支持从源到目的地的流畅数据集成。提供CDC YAML、Flink SQL和DataStream API,其中YAML API最推荐,支持Schema演化、行过滤等高级特性。相比传统方案,Flink CDC简化了流程,支持端到端亚秒级延迟和精确一次语义。Transform环节增强了数据加工能力,并支持与AI模型集成,实现实时数据同步和处理。
Event-Driven AI: Building a Research Assistant with Kafka and Flink
Agentic AI的兴起使得自主任务执行和复杂工作流成为可能,但在实际应用中面临架构挑战。通过事件驱动架构(EDA),可以实现灵活、高效的数据交换,避免依赖瓶颈。PodPrep AI是一个AI驱动的研究助理,展示了EDA如何在复杂的分布式系统中实现无缝数据集成和可扩展性。该系统使用实时数据流和Flink等工具,实现独立组件的高效协作,提升AI应用的效率和灵活性。
Flink+Paimon实时数据湖仓实践分享
随着Paimon近两年的推广普及,使用 Flink+Paimon 构建数据湖仓的实践也越来越多。本文主要分享了使用 Paimon 作为实时状态存储,并在 Flink 中通过 Lookup 维表 Join 的方式进行状态查询和更新的应用实践。
基于Flink的实时风控解决方案
大数据领域的数据处理从大的分类看有批处理和流式处理
Flink在同程艺龙实时计算平台的研发与应用实践
我们在18年初选择基于Flink开发同程艺龙新一代实时计算平台。目前已支撑近千个实时任务运行,服务公司的市场、机票、火车票、酒店、金服、国旅、研发等各个业务条线。下面主要结合实时计算平台分享下我们在Flink落地过程中的一些实践经验及思考。
基于图遍历的Flink任务画布模式下零代码开发实现方案
提交一个DataSteam 的 Flink应用,需要经过 StreamGraph、JobGraph、ExecutionGraph 三个阶段的转换生成可成执行的有向无环图(DAG),并在 Flink 集群上运行。
Flink CDC 在货拉拉的落地与实践
分享了货拉拉在 Flink CDC 生产实践落地,系统的介绍业务背景,技术选型,整体能力构建与收益,以及开源参与以及未来开展的工作和期望。
Flink CDC 在新能源制造业的实践
本文撰写自某新能源企业的研发工程师 单葛尧 老师。本文详细介绍该新能源企业的大数据平台中 CDC 技术架构选型和 Flink CDC 的最佳实践。