Apache Celeborn 在中通的探索实践
摘要
随着公司业务体量不断发展,多个业务线依赖于大数据平台开展数据业务,大数据底层系统的稳定和高效成为了公司业务正常运转的基石。中通的大数据平台的基座依托于Hadoop,目前公司90%的ETL任务基于Spark-Sql引擎构建的,每天线上运行的 Spark任务有12w+,每天Shuffle产生的数据规模达6PB以上,同时单次Shuffle数据最大规模达数百TB以上,巨大的Shuffle数据量和复杂的计算环境使得Spark的Shuffle过程面临巨大挑战。因此保证Shuffle稳定性对Spark任务的执行效率和稳定性显得至关重要。
欢迎在评论区写下你对这篇文章的看法。