知乎基于 Celeborn 优化 Spark Shuffle 的实践

摘要

知乎使用Hadoop和Spark集群进行大量作业处理,每天的Shuffle量达到3PB以上,单个作业的Shuffle量最大接近100TB。为了保证稳定性,知乎使用了ESS作为Spark的Shuffle服务。然而,ESS存在一些限制,如大量的随机IO导致磁盘IOPS瓶颈,降低作业性能和稳定性。知乎经常遇到IO负载高的节点导致作业耗时不稳定、失败等问题。解决这些问题的方法是减少Shuffle Read Block的数量和大小。

欢迎在评论区写下你对这篇文章的看法。

评论

inicio - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-07-01 19:13
浙ICP备14020137号-1 $mapa de visitantes$