Next Gen Data Processing at Massive Scale At Pinterest With Moka (Part 1 of 2)
摘要
Pinterest数据工程团队基于Kubernetes构建了新一代大数据处理平台Moka,以替代老化的Hadoop系统。Moka采用Spark on EKS架构,整合了Spark Operator、YuniKorn调度器和Celeborn远程混洗服务,支持ARM/Graviton实例和容器化部署。平台通过Archer作业提交系统实现与现有工作流的无缝集成,并引入自动化验证流程确保迁移稳定性。目前已完成70%批处理作业迁移,性能提升5%,同时通过资源隔离和队列管理优化了成本效益。
欢迎在评论区写下你对这篇文章的看法。