中间件与数据库:Flink
Flink在同程艺龙实时计算平台的研发与应用实践
我们在18年初选择基于Flink开发同程艺龙新一代实时计算平台。目前已支撑近千个实时任务运行,服务公司的市场、机票、火车票、酒店、金服、国旅、研发等各个业务条线。下面主要结合实时计算平台分享下我们在Flink落地过程中的一些实践经验及思考。
基于图遍历的Flink任务画布模式下零代码开发实现方案
提交一个DataSteam 的 Flink应用,需要经过 StreamGraph、JobGraph、ExecutionGraph 三个阶段的转换生成可成执行的有向无环图(DAG),并在 Flink 集群上运行。
Flink CDC 在货拉拉的落地与实践
分享了货拉拉在 Flink CDC 生产实践落地,系统的介绍业务背景,技术选型,整体能力构建与收益,以及开源参与以及未来开展的工作和期望。
Flink CDC 在新能源制造业的实践
本文撰写自某新能源企业的研发工程师 单葛尧 老师。本文详细介绍该新能源企业的大数据平台中 CDC 技术架构选型和 Flink CDC 的最佳实践。
Apache Flink® on Kubernetes
At Airbnb, Apache Flink was introduced in 2018 as a supplementary solution for stream processing. It ran alongside Apache Spark™ Streaming for several years before transitioning to become the primary stream processing platform. In this blog post, we will delve into the evolution of Flink architecture at Airbnb and compare our prior Hadoop Yarn platform with the current Kubernetes-based architecture. Additionally, we will discuss the efforts undertaken throughout the migration process and explore the challenges that arose during this journey. In the end we will summarize the impact, learnings along the way and future plans.
得物Flink内核探索实践
在众多实时处理框架中,Apache Flink以其强大的流处理能力和丰富的功能集,受到了广泛关注和应用。本次分享将重点介绍得物在Flink内核方面的探索与实践,探讨如何通过深度优化和定制,实现更加高效和稳定的数据处理能力。
芒果 TV 基于 Flink 的实时数仓建设实践
基于 Flink 技术的特点,芒果 TV 在未来的数仓建设中将注重实现湖仓一体的架构,以实现对数据的全面管理和利用。
基于 Flink 的实时数仓在曹操出行运营中的应用
本次分享将为大家介绍实时数仓在曹操出行(互联网网约车出行企业)的实时数仓应用场景,以及通过离线场景向实时场景下加速升级而获得的业务价值。
利用 JuiceFS 实现 Flink 动态镜像
Flink是一种流处理框架,广泛应用于处理PB级数据。在知乎内部,他们使用Flink处理数据,采用Flink官方提供的native kubernetes部署方式。为解决HDFS的痛点,他们将依赖存放在分布式文件系统中,容器启动时下载进容器,并根据依赖的稳定性进行分类。任务启动流程包括依赖注入和任务启动。这样可以避免Namenode压力过大、跨数据中心拉文件和一些特殊任务不依赖HDFS的问题。
TiDB x Flink 数据集成实践
知乎使用了开源分布式关系型数据库TiDB,用于替代MySQL解决扩展能力问题。为了解决数据分片导致的数据版本不一致和分区字段连续性问题,在数据集成平台中,知乎基于Flink构建了实时和离线的数据同步及清洗功能。这样,用户可以将不同数据源的数据导入到相同的数据源中进行进一步分析处理。然而,使用flink-jdbc-connector时仍存在数据分区设置不智能和唯一键约束字段不连续的问题。
Flink 实时计算平台在知乎的演进
知乎引入Flink作为实时计算引擎,构建了实时计算平台Skytree。平台支持业务的日志落地、实时数仓、广告实时特征等需求。为推广平台,引入了Flink SQL并上线了Mipha。Mipha基于Flink SQL Gateway构建,引入了Mipha MetaStore作为统一的元数据管理组件。初版平台部署在Kubernetes上,支持Flink Jar任务、监控和报警机制。然而,平台存在管理问题,如任务源代码丢失。因此,决定通过重新设计整个平台,面向SQL,推出实时计算平台2.0 Mipha。
贝壳找房基于Flink+Paimon进行全量数据实时分组排序的实践
本文投稿自贝壳家装数仓团队,在结合家装业务场景下所探索出的一种基于 Flink+Paimon 的排序方案。这种方案可以在实时环境对全量数据进行准确的分组排序,同时减少对内存资源的消耗。
微信安全基于 Flink 实时特征开发平台实践
本文介绍了微信风控团队面临的挑战和业务安全风控的流程。团队需要解决人力不足、业务场景覆盖和对抗激烈等问题。业务安全风控流程包括分析、特征开发、策略和数据验证。特征开发在风控中至关重要,特征是策略的基石。团队经历了三个阶段建设了一站式的实时特征开发平台,提高了效率。数据质量对用户体验有直接影响,特征质量要高。平台架构采用了平台化方式,提供开箱即用的能力组件解决问题。
Apache Flink类型及序列化研读&生产应用
序列化是指将数据从内存中的对象序列化为字节流,以便在网络中传输或持久化存储。序列化在Apache Flink中非常重要,因为它涉及到数据传输和状态管理等关键部分。
flink 规则引擎技术实现
当前有两类实时任务需要频繁重启:第一类任务是,实时报表新增维度,此类任务中,Flink 消费 Kafka 实时数据,处理后按照维度聚合,使用聚合函数计算出指标后写入 StarRocks ;第二类任务是实时 ETL 任务,此类任务中,Flink 消费 Kafka 实时数据,经过字段提取、数据过滤再将结果回写…
基于Flink+Hudi在兴盛优选营销域实时数仓的实践
Apache Flink是一种流处理系统,用于实时数仓建设。数据同步使用cannal监控数据库的binlog日志,并发送到kafka队列。Flink对数据进行加工打宽,再回写到kafka中。数据的落地使用SparkStreaming写入到hudi。Hudi是幂等的、支持事务的表,适用于电商业务。hudi表可以快照查询、增量查询和读优化。使用OLAP引擎(presto)进行即席查询,也可以将数据同步到华为的Gaussdb,实现秒级时延和更优的查询性能。