中间件与数据库：Flink的相关资料

Why We Ditched Flink Table API Joins: Cutting State by 75% with DataStream Unions

Flink SQL的优雅抽象在Zalando产品数据管道中遭遇状态爆炸问题，串联JOIN导致状态量级增长至240GB，引发频繁快照崩溃。团队通过DataStream API重构，开发MultiStreamJoinProcessor统一流处理，将状态压缩至56GB，降幅75%，同时快照时间从11分钟缩短至2.5分钟。手动状态管理虽牺牲SQL便捷性，但换来系统稳定性和13%成本优化，为高吞吐场景提供了实用解法。

zalando技术

Database Federation: Decentralized and ACL-Compliant Hive™ Databases

Uber的配送业务数据仓库因单一数据库设计导致性能瓶颈，如资源争用和权限管理混乱。团队通过分库策略，将数据集迁移至独立域库，利用Hive元数据指针实现零停机迁移，避免数据重复存储。系统包含引导迁移器、实时同步器等组件，确保数据一致性和高可用性。最终成功迁移数千数据集，节省PB级存储，提升资源管理效率。

uber技术

BSave - 数据切面工程在字节的大规模实践

数据切面工程通过在数据存储边界引入透明操作层，将通用数据操作从业务中剥离，实现透明加解密、压缩及访问追踪等功能。BSave系统覆盖数千在线服务与数据表，峰值QPS超145万。技术架构依托Sidecar与插件化生态，支持MySQL、Redis等协议解析与请求改写，提升数据治理效率与安全性。未来将探索AI驱动的智能数据访问与统一语义层。

字节跳动技术

Flink ClickHouse Sink：生产级高可用写入方案

Flink ClickHouse Sink生产级方案深度解析！针对开源组件痛点，创新实现本地表直写、动态分表路由、双触发攒批机制，通过HikariCP连接池优化与递归重试策略，完美支撑百万级TPS日志场景。方案涵盖流量控制、内存管理、异常隔离等核心设计，配合Checkpoint强一致性保障，为实时数仓提供高可靠写入能力。技术亮点层层拆解，最佳实践一目了然！

得物技术

百度流式计算开发平台的降本增效之路

云原生流式计算PaaS平台通过K8s容器化封装，将复杂的事件时间处理、窗口机制和状态管理等流式技术难点转化为配置化服务。该平台显著降低了开发门槛，用户只需SQL化配置即可完成实时作业开发，同时内置弹性扩缩和智能运维能力，让资源利用率提升30%以上。目前已在Push业务中实现分钟级迭代，未来将向Serverless方向演进，让实时计算更普惠。

百度技术

从Kafka到AutoMQ：爱奇艺实时流数据架构演进

爱奇艺流数据架构升级记：从私有云Kafka到AutoMQ的华丽转身！面对集群弹性差、成本高难题，团队先通过Stream平台+SDK实现业务与存储解耦，再引入公有云Kafka提升资源利用率。最终押注存算分离的AutoMQ，单副本设计+秒级弹性让成本直降70%。现在近半流量跑在云端，未来还要继续扩大AutoMQ版图~（138字）

爱奇艺技术

How Uber Indexes Streaming Data with Pull-Based Ingestion in OpenSearch™

Uber的搜索平台采用拉取式数据模型，基于Apache Kafka构建，实现了高可用性和全球一致性。通过多区域部署和流式数据处理，平台能够高效处理实时请求，确保数据新鲜度和系统稳定性。拉取式模型解决了传统推送模型在高流量下的性能瓶颈，简化了数据重放和优先级控制。Uber还将这一模型贡献给OpenSearch项目，推动了开源社区的发展。

uber技术

From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake

Uber 重新设计了数据湖的摄取系统 IngestionNext，基于 Apache Flink 实现了流式处理，将数据新鲜度从小时级提升至分钟级，同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题，并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理，确保在故障时数据不丢失。未来，Uber 计划进一步扩展实时数据处理能力，以支持端到端的实时洞察和分析。

uber技术

Real-time data quality monitoring: Kafka stream contracts with syntactic and semantic test

数据质量监控是AI创新的基石，但Kafka流数据的语法和语义问题常导致下游故障。Coban平台创新性地通过数据契约定义、自动化测试和实时告警三大模块破解难题：用户可自定义字段级语义规则，平台通过FlinkSQL实时检测异常数据并精准定位问题字段，同时结合LLM智能推荐规则降低配置门槛。上线后已守护100+关键数据流，实现秒级问题拦截。未来将拓展数据溯源和跨字段校验能力，打造更立体的数据质量防护网。

grab技术

抖音集团基于Flink的亿级RPS实时计算优化实践

抖音实时数据处理面临链路稳定性差、资源消耗大、任务恢复慢等挑战。通过分层建模优化、作业性能优化和链路保障优化，提升任务稳定性。大流量维表关联采用Flink Broadcast join，减少外部访问压力。直播场景通过自定义RocksDB CompactionFilter实现状态优化，支持30天累计指标。未来将进行通用和个性化场景优化，提升整体性能和资源利用率。

京东零售基于Flink的推荐系统智能数据体系

京东零售技术专家张颖在Flink峰会上揭秘了基于Flink构建的智能推荐数据体系。核心架构包含索引、样本、特征、可解释性和指标五大模块，通过实时+离线双链路保障数据一致性。重点解决了特征穿越、样本冷启动等难题，并创新采用分阶段窗口机制实现秒级实时样本拼接。可解释性模块能精准追踪推荐全链路决策过程，为效果优化提供数据支撑。整个体系日均处理PB级数据，显著提升了推荐系统的智能化水平。

京东技术

Lalamove基于Flink实时湖仓演进之路

Lalamove利用Flink技术构建实时数仓，应对业务扩张带来的技术挑战，如多数据中心、时区差异和上游系统频繁改造。通过引入Paimon湖仓和Flink新特性，实现了数据模型兼容性、资源优化和成本降低。未来，Lalamove将继续探索湖流融合技术，进一步提升实时数仓的性能和效率。

京东物流基于Flink & StarRocks的湖仓建设实践

京东物流实时湖仓建设中，结合Flink与StarRocks，优化了数据流处理与存储架构。通过联邦查询与物化视图，实现了分钟级数据聚合与查询，支持复杂业务场景。存算分离策略降低了存储成本，提升了长周期数据的访问效率。未来将推广长周期数据存储服务，进一步优化数据分析体验。

基于Flink的配置化实时反作弊系统

基于Flink的实时反作弊流式过滤系统，通过秒级特征计算、高频策略热更新、模拟过滤验证及多场景数仓对接，解决了大流量场景下的复杂特征计算与策略迭代难题。系统优化了窗口触发机制与状态存储，提升高并发下的精准风控判定，支持实时监控与离线分析，为互联网业务提供高效、低延迟的反作弊解决方案。

百度技术

Flink CDC YAML：面向数据集成的 API 设计

Flink CDC通过数据库日志捕获实现全量与增量数据的一体化读取,升级至3.0版本后支持从源到目的地的流畅数据集成。提供CDC YAML、Flink SQL和DataStream API,其中YAML API最推荐,支持Schema演化、行过滤等高级特性。相比传统方案,Flink CDC简化了流程,支持端到端亚秒级延迟和精确一次语义。Transform环节增强了数据加工能力,并支持与AI模型集成,实现实时数据同步和处理。

Event-Driven AI: Building a Research Assistant with Kafka and Flink

Agentic AI的兴起使得自主任务执行和复杂工作流成为可能，但在实际应用中面临架构挑战。通过事件驱动架构（EDA），可以实现灵活、高效的数据交换，避免依赖瓶颈。PodPrep AI是一个AI驱动的研究助理，展示了EDA如何在复杂的分布式系统中实现无缝数据集成和可扩展性。该系统使用实时数据流和Flink等工具，实现独立组件的高效协作，提升AI应用的效率和灵活性。