利用 JuiceFS 实现 Flink 动态镜像

摘要

Flink是一种流处理框架,广泛应用于处理PB级数据。在知乎内部,他们使用Flink处理数据,采用Flink官方提供的native kubernetes部署方式。为解决HDFS的痛点,他们将依赖存放在分布式文件系统中,容器启动时下载进容器,并根据依赖的稳定性进行分类。任务启动流程包括依赖注入和任务启动。这样可以避免Namenode压力过大、跨数据中心拉文件和一些特殊任务不依赖HDFS的问题。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-07-08 04:31
浙ICP备14020137号-1 $Map of visitor$