中间件与数据库：Flink的相关资料

贝壳找房基于Flink+Paimon进行全量数据实时分组排序的实践

本文投稿自贝壳家装数仓团队，在结合家装业务场景下所探索出的一种基于 Flink+Paimon 的排序方案。这种方案可以在实时环境对全量数据进行准确的分组排序，同时减少对内存资源的消耗。

微信安全基于 Flink 实时特征开发平台实践

本文介绍了微信风控团队面临的挑战和业务安全风控的流程。团队需要解决人力不足、业务场景覆盖和对抗激烈等问题。业务安全风控流程包括分析、特征开发、策略和数据验证。特征开发在风控中至关重要，特征是策略的基石。团队经历了三个阶段建设了一站式的实时特征开发平台，提高了效率。数据质量对用户体验有直接影响，特征质量要高。平台架构采用了平台化方式，提供开箱即用的能力组件解决问题。

Apache Flink类型及序列化研读&生产应用

序列化是指将数据从内存中的对象序列化为字节流，以便在网络中传输或持久化存储。序列化在Apache Flink中非常重要，因为它涉及到数据传输和状态管理等关键部分。

得物技术

flink 规则引擎技术实现

当前有两类实时任务需要频繁重启：第一类任务是，实时报表新增维度，此类任务中，Flink 消费 Kafka 实时数据，处理后按照维度聚合，使用聚合函数计算出指标后写入 StarRocks ；第二类任务是实时 ETL 任务，此类任务中，Flink 消费 Kafka 实时数据，经过字段提取、数据过滤再将结果回写…

七猫技术

Apache Flink是一种流处理系统，用于实时数仓建设。数据同步使用cannal监控数据库的binlog日志，并发送到kafka队列。Flink对数据进行加工打宽，再回写到kafka中。数据的落地使用SparkStreaming写入到hudi。Hudi是幂等的、支持事务的表，适用于电商业务。hudi表可以快照查询、增量查询和读优化。使用OLAP引擎（presto）进行即席查询，也可以将数据同步到华为的Gaussdb，实现秒级时延和更优的查询性能。

兴盛技术

Flink Keyed State的优化与实践

本文的内容主要是从业务场景跟进到RocksDB的读写行为，来优化RT耗时高的问题，并使用优化方案缓解compaction的压力。

哔哩哔哩技术

滴滴 Flink 指标系统的架构设计与实践

Flink 指标系统做为非常重要的一层基础设施，有必要对其原理做深入理解，这也是灵活应用 Flink 指标系统的基础。

滴滴技术

Flink消费kafka数据同步问题排查

我们有一个flink任务，消费的kafka的数据，写入到es，非常简单的逻辑，但是出现了数据丢失的情况。

哈啰技术

美团 Flink 资源调度优化实践

本文整理自美团数据平台计算引擎组工程师冯斐，在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分：

相关背景和问题
解决思路分析
资源调度优化实践
后续规划

专家带你吃透 Flink 架构：一个新版 Connector 的实现

Flink 可以说已经是流计算领域的事实标准，其开源社区发展迅速，提出了很多改进计划（Flink Improvement Proposals，简称 FLIP）并不断迭代，几乎每个新的版本在功能、性能和使用便捷性上都有所提高。Flink 提供了丰富的数据连接器（connecotr）来连接各种数据源，内置了 kafka、jdbc、hive、hbase、elasticsearch、file system 等常见的 connector，此外 Flink 还提供了灵活的机制方便开发者开发新的 connector。对于 source connector 的开发，有基于传统的 SourceFunction 的方式和基于 Flink 改进计划 FLIP-27 的 Source 新架构的方式。本文首先介绍基于 SourceFunction 方式的不足，接着介绍 Source 新架构以及其设计上的深层思考，然后基于 Flink 1.13 ，以从零开发一个简单的 FileSource connector 为例，介绍开发 source connector 的基本要素，尽量做到理论与实践相结合加深大家的理解。

流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。流计算 Oceanus 提供了便捷的控制台环境，方便用户编写 SQL 分析语句、ETL 作业或者上传运行自定义 JAR 包，支持作业运维管理。欢迎大家试用，目前还有新用户1元秒杀活动，机会难得，不容错过。

Where’s My Data — A Unique Encounter with Flink Streaming’s Kinesis Connector

For years now, Lyft has not only been a proponent of but also a contributor to Apache Flink. Lyft’s pipelines have evolved drastically over the years, yet, time and time again, we run into unique cases that stretch Flink to its breaking points — this is one of those times.

lyft技术

OPPO大数据诊断平台Compass Flink版本开源

继OPPO大数据平台开源基于Spark诊断产品Compass（代号“罗盘”）之后，我们又持续迭代开发集成了实时Flink引擎诊断，可用于诊断Flink作业的资源使用情况以及异常问题。在资源诊断方面，Compass给出Flink作业的建议资源参数, 可以缩容或扩容，让作业达到合理的资源使用状态；在异常问题诊断方面，定位Flink作业的运行异常问题，给出改善建议。Compass Flink版本不仅集成DolphinScheduler调度器，即可诊断DolphinScheduler上运行的Flink实时作业，还可以用于可自定义诊断自动上报Flink作业。我们希望通过Compass回馈开源社区，也希望更多人参与进来，共同解决任务诊断的痛点和难题。

OPPO技术

Tuning Flink Clusters for Stability and Efficiency

At Pinterest, stream data processing powers a wide range of real-time use cases. Our Flink clusters are multitenant and run jobs that concurrently process more than 20M msgs/sec across 12 clusters. Over the course of 2022 and early 2023, we’ve spent a significant period of time optimizing our Flink runtime environment and cluster configurations, and we’d like to share our learnings with you.

pinterest技术