中间件与数据库：Flink的相关资料

Enhancing Flink Deployment with Shadow Testing

Flink应用部署时，生产环境特有的问题可能导致10分钟停机。Grab创新性地引入影子测试阶段：新版本（影子）与当前版本并行运行，隔离处理生产数据流，通过对比行为验证稳定性。影子应用部署在独立K8s命名空间，使用专属消费组和存储路径，1小时稳态测试通过后再发布主应用。该方案无缝集成现有流程，支持Kafka/CDC/S3等连接器动态配置，显著降低部署故障率。未来将扩展更多连接器支持，持续提升实时应用可靠性。

grab技术

Lyft’s Feature Store: Architecture, Optimization, and Evolution

Lyft的特征存储是其数据平台的核心基础设施，专为大规模机器学习特征的管理和部署优化。该系统通过批处理、在线和流式处理三种方式，简化了特征的生命周期管理，确保特征的一致性和高效访问。在线服务层结合DynamoDB和ValKey缓存，实现低延迟特征检索。系统还支持特征发现、版本控制和数据质量管理，显著提升了ML模型的开发效率和用户体验。

lyft技术

大禹平台：流批一体离线Dump平台的设计与应用

大禹平台是一个离线Dump平台，专注于搜索、推荐、广告场景的异构数据处理。平台采用流批一体架构，通过可视化DAG编排工具提升开发效率，确保数据质量与稳定性。其核心优化包括MySQL镜像至HBase、Binlog订阅平台化、状态大宽表消除反查等，支持任务复用与分层管理，显著加速数据处理与Dump流程。未来将持续增强算子体系与性能优化，深化与索引平台的协同，释放更多业务价值。

得物技术

Why We Ditched Flink Table API Joins: Cutting State by 75% with DataStream Unions

Flink SQL的优雅抽象在Zalando产品数据管道中遭遇状态爆炸问题，串联JOIN导致状态量级增长至240GB，引发频繁快照崩溃。团队通过DataStream API重构，开发MultiStreamJoinProcessor统一流处理，将状态压缩至56GB，降幅75%，同时快照时间从11分钟缩短至2.5分钟。手动状态管理虽牺牲SQL便捷性，但换来系统稳定性和13%成本优化，为高吞吐场景提供了实用解法。

zalando技术

Database Federation: Decentralized and ACL-Compliant Hive™ Databases

Uber的配送业务数据仓库因单一数据库设计导致性能瓶颈，如资源争用和权限管理混乱。团队通过分库策略，将数据集迁移至独立域库，利用Hive元数据指针实现零停机迁移，避免数据重复存储。系统包含引导迁移器、实时同步器等组件，确保数据一致性和高可用性。最终成功迁移数千数据集，节省PB级存储，提升资源管理效率。

uber技术

BSave - 数据切面工程在字节的大规模实践

数据切面工程通过在数据存储边界引入透明操作层，将通用数据操作从业务中剥离，实现透明加解密、压缩及访问追踪等功能。BSave系统覆盖数千在线服务与数据表，峰值QPS超145万。技术架构依托Sidecar与插件化生态，支持MySQL、Redis等协议解析与请求改写，提升数据治理效率与安全性。未来将探索AI驱动的智能数据访问与统一语义层。

字节跳动技术

Flink ClickHouse Sink：生产级高可用写入方案

Flink ClickHouse Sink生产级方案深度解析！针对开源组件痛点，创新实现本地表直写、动态分表路由、双触发攒批机制，通过HikariCP连接池优化与递归重试策略，完美支撑百万级TPS日志场景。方案涵盖流量控制、内存管理、异常隔离等核心设计，配合Checkpoint强一致性保障，为实时数仓提供高可靠写入能力。技术亮点层层拆解，最佳实践一目了然！

得物技术

百度流式计算开发平台的降本增效之路

云原生流式计算PaaS平台通过K8s容器化封装，将复杂的事件时间处理、窗口机制和状态管理等流式技术难点转化为配置化服务。该平台显著降低了开发门槛，用户只需SQL化配置即可完成实时作业开发，同时内置弹性扩缩和智能运维能力，让资源利用率提升30%以上。目前已在Push业务中实现分钟级迭代，未来将向Serverless方向演进，让实时计算更普惠。

百度技术

从Kafka到AutoMQ：爱奇艺实时流数据架构演进

爱奇艺流数据架构升级记：从私有云Kafka到AutoMQ的华丽转身！面对集群弹性差、成本高难题，团队先通过Stream平台+SDK实现业务与存储解耦，再引入公有云Kafka提升资源利用率。最终押注存算分离的AutoMQ，单副本设计+秒级弹性让成本直降70%。现在近半流量跑在云端，未来还要继续扩大AutoMQ版图~（138字）

爱奇艺技术

How Uber Indexes Streaming Data with Pull-Based Ingestion in OpenSearch™

Uber的搜索平台采用拉取式数据模型，基于Apache Kafka构建，实现了高可用性和全球一致性。通过多区域部署和流式数据处理，平台能够高效处理实时请求，确保数据新鲜度和系统稳定性。拉取式模型解决了传统推送模型在高流量下的性能瓶颈，简化了数据重放和优先级控制。Uber还将这一模型贡献给OpenSearch项目，推动了开源社区的发展。

uber技术

From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake

Uber 重新设计了数据湖的摄取系统 IngestionNext，基于 Apache Flink 实现了流式处理，将数据新鲜度从小时级提升至分钟级，同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题，并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理，确保在故障时数据不丢失。未来，Uber 计划进一步扩展实时数据处理能力，以支持端到端的实时洞察和分析。

uber技术

Real-time data quality monitoring: Kafka stream contracts with syntactic and semantic test

数据质量监控是AI创新的基石，但Kafka流数据的语法和语义问题常导致下游故障。Coban平台创新性地通过数据契约定义、自动化测试和实时告警三大模块破解难题：用户可自定义字段级语义规则，平台通过FlinkSQL实时检测异常数据并精准定位问题字段，同时结合LLM智能推荐规则降低配置门槛。上线后已守护100+关键数据流，实现秒级问题拦截。未来将拓展数据溯源和跨字段校验能力，打造更立体的数据质量防护网。

grab技术

抖音集团基于Flink的亿级RPS实时计算优化实践

抖音实时数据处理面临链路稳定性差、资源消耗大、任务恢复慢等挑战。通过分层建模优化、作业性能优化和链路保障优化，提升任务稳定性。大流量维表关联采用Flink Broadcast join，减少外部访问压力。直播场景通过自定义RocksDB CompactionFilter实现状态优化，支持30天累计指标。未来将进行通用和个性化场景优化，提升整体性能和资源利用率。

京东零售基于Flink的推荐系统智能数据体系

京东零售技术专家张颖在Flink峰会上揭秘了基于Flink构建的智能推荐数据体系。核心架构包含索引、样本、特征、可解释性和指标五大模块，通过实时+离线双链路保障数据一致性。重点解决了特征穿越、样本冷启动等难题，并创新采用分阶段窗口机制实现秒级实时样本拼接。可解释性模块能精准追踪推荐全链路决策过程，为效果优化提供数据支撑。整个体系日均处理PB级数据，显著提升了推荐系统的智能化水平。

京东技术

Lalamove基于Flink实时湖仓演进之路

Lalamove利用Flink技术构建实时数仓，应对业务扩张带来的技术挑战，如多数据中心、时区差异和上游系统频繁改造。通过引入Paimon湖仓和Flink新特性，实现了数据模型兼容性、资源优化和成本降低。未来，Lalamove将继续探索湖流融合技术，进一步提升实时数仓的性能和效率。

京东物流基于Flink & StarRocks的湖仓建设实践

京东物流实时湖仓建设中，结合Flink与StarRocks，优化了数据流处理与存储架构。通过联邦查询与物化视图，实现了分钟级数据聚合与查询，支持复杂业务场景。存算分离策略降低了存储成本，提升了长周期数据的访问效率。未来将推广长周期数据存储服务，进一步优化数据分析体验。