知乎基于 Gluten 优化 Spark 作业的实践

摘要

知乎团队迁移Spark作业到Gluten引擎,经历多次尝试后成功迁移2446个作业,资源消耗平均降低40%以上。迁移中解决了大量数据一致性、性能与稳定性问题,包括GCC优化Bug、JSON函数差异、Parquet版本兼容等。未来计划优化剩余失败作业,并探索数据同步、Flink迁移。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-22 19:28
浙ICP备14020137号-1 $bản đồ khách truy cập$