中间件与数据库:Flink
Flink在转转商业实时数仓的应用
作为第三代流处理引擎,Flink通过其优秀的吞吐能力和性能得到业内越来越多的认可,在转转商业实时数仓演进中起到关键作用,其灵活的API、强大的状态管理和容错机制,给研发人员留下深刻印象。
基于Flink+Starrocks建设之家广告实时数据
汽车之家广告主题离线数仓从2015年开始建设至今,一直能够满足车智投、DSP等广告业务的日常分析及报表支持。
字节跳动 Flink 状态查询实践与优化
本篇文章介绍了字节跳动在 Flink 状态查询方面所进行的优化,解决了查询 Flink 任务状态时开发成本高及无法查询状态元信息等问题,提出了 State Query on Flink SQL 的解决方案,让用户使用 Flink Batch SQL 就可以快速查询 Flink 任务状态。
字节跳动使用 Flink State 的经验分享
本文主要分享字节跳动在使用 Flink State 上的实践经验,内容包括 Flink State 相关实践以及部分字节内部在引擎上的优化,希望可以给 Flink 用户的开发及调优提供一些借鉴意义。
基于 Flink + Hudi 的实时数仓在 Shopee 的实践
Apache Hudi 是业内基于 Lakehouse 解决方案中的典型组件,本文将介绍 Shopee Marketplace 业务使用 Flink + Hudi 构建实时数据仓库的实践。
Apache Flink: Watermark对Window窗口的影响
Apache Flink流式数据处理中,如何针对时间维度乱序数据在Window中进行正确计算呢?准备一份含有时间维度的乱序数据。
7 Tips For Optimizing Apache Flink Applications
We’ve spent a lot of time on performance tuning our Apache Flink application. We’ll walk you through key lessons for optimizing large stateful Apache Flink applications.
Flink运维体系在贝壳的实践
Flink作为新一代的实时计算引擎在贝壳越来越多的应用场景下被应用,本篇文章将会讲述贝壳实时计算团队基于Flink指标在任务监控报警、资源分析与调优、运维提效以及容器化相关的实践。
Scaling Shopify's BFCM Live Map: An Apache Flink Redesign
A deep dive into how Shopify Data revamped the data infrastructure powering our BFCM live map using Apache Flink.
汽车之家基于Apache Flink的跨数据库实时物化视图探索
物化视图这一使用的功能想必大家都不陌生,我们可以通过使用物化视图,将预先设定好的复杂SQL逻辑,以增量迭代的形式实时(按照事务地)更新结果集,从而通过查询结果集来避免每次查询复杂的开销,从而节省时间与计算资源。
事实上,很多数据库系统和OLAP引擎都不同程度地支持了物化视图。另一方面,Streaming SQL本身就和物化视图有着很深的联系,那么基于Apche Flink(下称Flink) SQL去做一套实时物化视图系统是一件十分自然而然的事情了。
本文介绍了汽车之家(下称之家)在基于Flink的实时物化视图的一些实践经验与探索,并尝试让用户直接以批处理SQL的思路开发Flink Streaming SQL 任务。希望能给大家带来一些启发,共同探索这一领域。
Flink Sql Gateway的原理与实践
我们在使用Flink开发实时任务时,都会用到框架本身提供的DataStream API,这使得用户不能不用Java或者Scala甚至Python来编写业务逻辑;这种方式虽然灵活且表达性强,但对用户具有一定的开发门槛,并且随着版本的不断更新,DataStream API也有很多老版本不兼容的问题。
Real-Time Exactly-Once Ad Event Processing with Apache Flink and Kafka
Uber recently launched a new capability: Ads on UberEats. With this new ability came new challenges that needed to be solved at Uber, such as systems for ad auctions, bidding, attribution, reporting, and more. This article focuses on how we leveraged open source technology to build Uber’s first “near real-time” exactly-once events processing system. We’ll dive into the details of how we achieved exactly-once processing as well as the inner workings of our event processing jobs.
网易游戏 FlinkSQL 平台化实践
随着近年来流式 SQL 理论逐渐完善,在实时流计算场景中的提供与离线批计算类似的 SQL 开发体验成为可能。本文将介绍在网易游戏在 Flink SQL 平台化上的探索和实践。
Flink+Hologres在网校策略算法的实践和应用
网校的服务策略团队,专注于学员分班、师资调度、客服机器人等算法方向,该类业务场景下,需要实时获取用户的行为特征,通常是将行为日志以及相关数据库的Binlog写入kafka,再通过Flink消费Kafka数据产生实时行为特征或者统计指标后提供交互,这个过程中需要做几件事情,比如Preprocessing(预处理),Pre-aggregated(预聚合),在线训练过程中还需要关联一些维表或者聚合特征,这些特征可能会全量加载到计算节点里面,也有可能需要历史数据二次计算,就需要一个实时的OLAP平台和高并发的点查服务,形成一个交互过程,最后将实时产生的特征推到算法模块中。这个过程难点在于确定一个既可以提供实时的OLAP还能提供高并发点查服务数据库。
Unified Flink Source at Pinterest: Streaming Data Processing
To best serve Pinners, creators, and advertisers, Pinterest leverages Flink as its stream processing engine. Flink is a data processing engine for stateful computation over data streams. It provides rich streaming APIs, exact-once support, and state checkpointing, which are essential to build stable and scalable streaming applications. Nowadays Flink is widely used in companies like Alibaba, Netflix, and Uber in mission critical use cases.
Flink在唯品会的实践
唯品会自2017年开始基于k8s深入打造高性能、稳定、可靠、易用的实时计算平台,支持唯品会内部业务在平时以及大促的平稳运行。现平台支持Flink、Spark、Storm等主流框架。本文主要分享Flink的容器化实践应用以及产品化经验。