中间件与数据库:Flink
微盟Flink on Kubernetes实时平台建设实践
本文将侧重介绍部署 K8s 环境,在任务开发、任务部署以及任务监控方面的一些实践总结。
一年省七位数,得物自建HFDS在 Flink Checkpoint 场景下的应用实践
早期使用阿里云OSS作为Checkpoint数据存储,单个Bucket每1P数据量只有免费带宽10Gb/s,超出部分单独计费。为了控制这部分成本,得物开展了自建HDFS在Flink Checkpoint场景下的落地工作。
Apache Flink 在微信业务场景下的内核及应用优化
随着微信业务的飞速发展,大数据应用已经全面走向实时化,业务对流计算引擎的稳定性及性能有更高的要求。微信基于 Flink on K8S 深入打造了云原生、高性能、稳定可靠的实时计算平台,支撑了微信各业务的快速发展。
Flink on K8S 在网易传媒的落地实践
分享网易传媒在 Flink on K8S 落地过程中关键问题的解决方案和自研实时计算平台 Riverrun 的特色建设。
B站基于 Flink 的海量用户行为实时 ETL 应用实践
在数仓分层架构体系中,从 ODS层到 DWD层数据转换需要进行数据清洗、脱敏、列式压缩等步骤。
Flink Task调度部署机制
在日常Flink使用过程中,我们经常遇到Flink任务中某些Slot或者TM负载过重的问题,对日常的资源调配、运维以及降本都带来了很大的影响,所以我们对Flink的task部署机制进行了梳理和调研,准备在后续的工作中进行优化。
基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地
内容主要包括五个方面:
- 京东零售实时计算的现状
- 实时计算框架
- 场景优化:TopN
- 场景优化:动线分析
- 场景优化:FLINK 一站式机器学习
钱大妈基于 Flink 的实时风控实践
钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失。
有赞实时计算 Flink 1.13 升级实践
随着有赞实时计算业务场景全部以Flink SQL的方式接入,对有赞现有的引擎版本—Flink 1.10的SQL能力提出了越来越多无法满足的需求以及可以优化的功能点。目前有赞的Flink SQL是在Yarn上运行,但是在公司应用容器化的背景下,可以统一使用公司K8S资源池,同时考虑到任务之间的隔离性以及任务的弹性调度,Flink SQL任务K8S化是必须进行的,所以我们也希望通过这次升级直接利社区的on K8S能力,直接将FlinkSQL集群迁移到K8S上。特别是社区在Flink 1.13中on Native K8S能力的支持完善,为了紧跟社区同时提升有赞实时计算引擎的能力,经过一些列调研,我们决定将有赞实时计算引擎由Flink 1.10升级到Flink 1.13.2。
3 (More) Tips for Optimizing Apache Flink Applications
Earlier this year, we shared our tips for optimizing large stateful Apache Flink applications. Below we’ll walk you through 3 more best practices.
Apache Flink运行时在B站的稳定性优化与实践
以Flink为基础的实时计算在B站有着广泛而深入的应用。
Flink SQL在B站的实践
目前在B站,线上大概有4000+的flink实时任务,主要支撑数据集成,实时数仓,模型训练,特征指标计算,以及增量化等业务。
Flink Unaligned Checkpoint 在 Shopee 的优化和实践
Flink 做为大数据流计算的标杆,通过 Checkpoint 和 State 保证了 Exactly Once 语义。在生产实践中,Shopee 遇到了很多 Checkpoint 的问题,并尝试引入 Flink 的 Unaligned Checkpoint 去解决。但调研后发现效果与预期有一定差距,所以在内部版本对其进行了深度改进,并将大部分改进已经反馈给了 Flink 社区。
本文会介绍 Checkpoint 存在的问题、Unaligned Checkpoint 原理、Shopee 对 Unaligned Checkpoint 的改进、对 Flink 社区的贡献以及内部的实践和落地。
JRC Flink流作业调优指南
Apache Flink作为Google Dataflow Model的工业级实现,经过多年的发展,如今已经成为流式计算开源领域的事实标准。它具有高吞吐、低时延、原生流批一体、高一致性、高可用性、高伸缩性的特征,同时提供丰富的层级化API、时间窗口、状态化计算等语义,方便用户快速入门实时开发,构建实时计算体系。
古语有云,工欲善其事,必先利其器。要想让大规模、大流量的Flink作业高效运行,就必然要进行调优,并且理解其背后的原理。本文是笔者根据过往经验以及调优实践,结合京东实时计算平台(JRC)背景产出的面向专业人员的Flink流作业调优指南。主要包含以下四个方面:
- TaskManager内存模型调优
- 网络栈调优
- RocksDB与状态调优
- 其他调优项
本文基于Flink 1.12版本。阅读之前,建议读者对Flink基础组件、编程模型和运行时有较深入的了解。
Flink在转转商业实时数仓的应用
作为第三代流处理引擎,Flink通过其优秀的吞吐能力和性能得到业内越来越多的认可,在转转商业实时数仓演进中起到关键作用,其灵活的API、强大的状态管理和容错机制,给研发人员留下深刻印象。
基于Flink+Starrocks建设之家广告实时数据
汽车之家广告主题离线数仓从2015年开始建设至今,一直能够满足车智投、DSP等广告业务的日常分析及报表支持。