中间件与数据库:Flink

Flink消费kafka数据同步问题排查

我们有一个flink任务,消费的kafka的数据,写入到es,非常简单的逻辑,但是出现了数据丢失的情况。

美团 Flink 资源调度优化实践

本文整理自美团数据平台计算引擎组工程师冯斐,在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分:

  1. 相关背景和问题
  2. 解决思路分析
  3. 资源调度优化实践
  4. 后续规划

专家带你吃透 Flink 架构:一个新版 Connector 的实现

Flink 可以说已经是流计算领域的事实标准,其开源社区发展迅速,提出了很多改进计划(Flink Improvement Proposals,简称 FLIP)并不断迭代,几乎每个新的版本在功能、性能和使用便捷性上都有所提高。Flink 提供了丰富的数据连接器(connecotr)来连接各种数据源,内置了 kafka、jdbc、hive、hbase、elasticsearch、file system 等常见的 connector,此外 Flink 还提供了灵活的机制方便开发者开发新的 connector。对于 source connector 的开发,有基于传统的 SourceFunction 的方式和基于 Flink 改进计划 FLIP-27 的 Source 新架构的方式。本文首先介绍基于 SourceFunction 方式的不足,接着介绍 Source 新架构以及其设计上的深层思考,然后基于 Flink 1.13 ,以从零开发一个简单的 FileSource connector 为例,介绍开发 source connector 的基本要素,尽量做到理论与实践相结合加深大家的理解。

流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。流计算 Oceanus 提供了便捷的控制台环境,方便用户编写 SQL 分析语句、ETL 作业或者上传运行自定义 JAR 包,支持作业运维管理。欢迎大家试用,目前还有新用户1元秒杀活动,机会难得,不容错过。

Where’s My Data — A Unique Encounter with Flink Streaming’s Kinesis Connector

For years now, Lyft has not only been a proponent of but also a contributor to Apache Flink. Lyft’s pipelines have evolved drastically over the years, yet, time and time again, we run into unique cases that stretch Flink to its breaking points — this is one of those times.

OPPO大数据诊断平台Compass Flink版本开源

继OPPO大数据平台开源基于Spark诊断产品Compass(代号“罗盘”)之后,我们又持续迭代开发集成了实时Flink引擎诊断,可用于诊断Flink作业的资源使用情况以及异常问题。在资源诊断方面,Compass给出Flink作业的建议资源参数, 可以缩容或扩容,让作业达到合理的资源使用状态;在异常问题诊断方面,定位Flink作业的运行异常问题,给出改善建议。Compass Flink版本不仅集成DolphinScheduler调度器,即可诊断DolphinScheduler上运行的Flink实时作业,还可以用于可自定义诊断自动上报Flink作业。我们希望通过Compass回馈开源社区,也希望更多人参与进来,共同解决任务诊断的痛点和难题。

Tuning Flink Clusters for Stability and Efficiency

At Pinterest, stream data processing powers a wide range of real-time use cases. Our Flink clusters are multitenant and run jobs that concurrently process more than 20M msgs/sec across 12 clusters. Over the course of 2022 and early 2023, we’ve spent a significant period of time optimizing our Flink runtime environment and cluster configurations, and we’d like to share our learnings with you.

微盟Flink on Kubernetes实时平台建设实践

本文将侧重介绍部署 K8s 环境,在任务开发、任务部署以及任务监控方面的一些实践总结。

一年省七位数,得物自建HFDS在 Flink Checkpoint 场景下的应用实践

早期使用阿里云OSS作为Checkpoint数据存储,单个Bucket每1P数据量只有免费带宽10Gb/s,超出部分单独计费。为了控制这部分成本,得物开展了自建HDFS在Flink Checkpoint场景下的落地工作。

Apache Flink 在微信业务场景下的内核及应用优化

随着微信业务的飞速发展,大数据应用已经全面走向实时化,业务对流计算引擎的稳定性及性能有更高的要求。微信基于 Flink on K8S 深入打造了云原生、高性能、稳定可靠的实时计算平台,支撑了微信各业务的快速发展。

Flink on K8S 在网易传媒的落地实践

分享网易传媒在 Flink on K8S 落地过程中关键问题的解决方案和自研实时计算平台 Riverrun 的特色建设。

B站基于 Flink 的海量用户行为实时 ETL 应用实践

在数仓分层架构体系中,从 ODS层到 DWD层数据转换需要进行数据清洗、脱敏、列式压缩等步骤。

Flink Task调度部署机制

在日常Flink使用过程中,我们经常遇到Flink任务中某些Slot或者TM负载过重的问题,对日常的资源调配、运维以及降本都带来了很大的影响,所以我们对Flink的task部署机制进行了梳理和调研,准备在后续的工作中进行优化。

基于 Apache Flink 的实时计算数据流业务引擎在京东零售的实践和落地

内容主要包括五个方面:

  1. 京东零售实时计算的现状
  2. 实时计算框架
  3. 场景优化:TopN
  4. 场景优化:动线分析
  5. 场景优化:FLINK 一站式机器学习

钱大妈基于 Flink 的实时风控实践

钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失。

有赞实时计算 Flink 1.13 升级实践

随着有赞实时计算业务场景全部以Flink SQL的方式接入,对有赞现有的引擎版本—Flink 1.10的SQL能力提出了越来越多无法满足的需求以及可以优化的功能点。目前有赞的Flink SQL是在Yarn上运行,但是在公司应用容器化的背景下,可以统一使用公司K8S资源池,同时考虑到任务之间的隔离性以及任务的弹性调度,Flink SQL任务K8S化是必须进行的,所以我们也希望通过这次升级直接利社区的on K8S能力,直接将FlinkSQL集群迁移到K8S上。特别是社区在Flink 1.13中on Native K8S能力的支持完善,为了紧跟社区同时提升有赞实时计算引擎的能力,经过一些列调研,我们决定将有赞实时计算引擎由Flink 1.10升级到Flink 1.13.2。

3 (More) Tips for Optimizing Apache Flink Applications

Earlier this year, we shared our tips for optimizing large stateful Apache Flink applications. Below we’ll walk you through 3 more best practices.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.123.1. UTC+08:00, 2024-03-29 21:24
浙ICP备14020137号-1 $访客地图$