Apache Celeborn在中通的探索实践

bài viết
gói
sách
album ảnh

Apache Celeborn 在中通的探索实践

出处：mp.weixin.qq.com

摘要

随着公司业务体量不断发展，多个业务线依赖于大数据平台开展数据业务，大数据底层系统的稳定和高效成为了公司业务正常运转的基石。中通的大数据平台的基座依托于Hadoop，目前公司90%的ETL任务基于Spark-Sql引擎构建的，每天线上运行的 Spark任务有12w+，每天Shuffle产生的数据规模达6PB以上，同时单次Shuffle数据最大规模达数百TB以上，巨大的Shuffle数据量和复杂的计算环境使得Spark的Shuffle过程面临巨大挑战。因此保证Shuffle稳定性对Spark任务的执行效率和稳定性显得至关重要。

阅读原文

xiaozi 于 2023-12-14 分享

3537

关联话题： #中通

欢迎在评论区写下你对这篇文章的看法。

Apache Celeborn在中通的探索实践

Apache Celeborn 在中通的探索实践

摘要

评论

文库