中间件与数据库:Spark

深入剖析Spark UI界面:参数与界面详解

Spark UI作为Apache Spark的内置Web监控工具,提供了作业、阶段、任务、SQL执行计划等关键信息的实时可视化展示,帮助开发者和运维人员快速定位性能瓶颈并优化应用。通过Executors、Environment、Storage、SQL等一级入口,以及SQL、Jobs、Stages的二级详情页,用户可深入分析资源使用、任务负载、执行计划等细节,精准诊断数据倾斜、Shuffle开销等问题,优化内存与并行度配置,提升Spark应用的执行效率。

Database Federation: Decentralized and ACL-Compliant Hive™ Databases

Uber的配送业务数据仓库因单一数据库设计导致性能瓶颈,如资源争用和权限管理混乱。团队通过分库策略,将数据集迁移至独立域库,利用Hive元数据指针实现零停机迁移,避免数据重复存储。系统包含引导迁移器、实时同步器等组件,确保数据一致性和高可用性。最终成功迁移数千数据集,节省PB级存储,提升资源管理效率。

Drastically Reducing Out-of-Memory Errors in Apache Spark at Pinterest

Pinterest通过引入Auto Memory Retries功能,大幅减少了Spark应用中的内存溢出(OOM)错误。该功能自动识别高内存需求任务,并在更大执行器上重试,使内存配置无需为最大需求调整,而是基于P90内存使用。实施后,OOM故障率下降了96%,显著降低了平台成本和运维压力,同时支持了平台的有机增长。

BSave - 数据切面工程在字节的大规模实践

数据切面工程通过在数据存储边界引入透明操作层,将通用数据操作从业务中剥离,实现透明加解密、压缩及访问追踪等功能。BSave系统覆盖数千在线服务与数据表,峰值QPS超145万。技术架构依托Sidecar与插件化生态,支持MySQL、Redis等协议解析与请求改写,提升数据治理效率与安全性。未来将探索AI驱动的智能数据访问与统一语义层。

Ray异构融合底座重构数据管道:架构演进与万卡落地实践

传统大数据引擎在AI数据管道中面临资源调度、Python生态兼容等局限。基于Ray重构的混元数据管道,通过云原生调度融合、计算范式统一,构建高效灵活的AI数据底座。Ray支持异构资源调度和Python Native生态,优化了容错、资源利用率、规模化和可观测性,显著提升数据处理和模型推理效率,推动AI数据管道革新。

Inside the feature store powering real-time AI in Dropbox Dash

Dropbox Dash通过AI整合文件、聊天记录和公司内容,提升搜索效率。其核心功能依赖特征存储系统,结合实时机器学习,快速定位相关文档。系统采用混合架构,结合Feast、Spark和Dynovault,确保低延迟和高并发处理。通过批处理、流处理和直接写入三种数据摄取方式,保持特征数据的新鲜度,优化搜索排名体验。

Powering Billion-Scale Vector Search with OpenSearch

Uber从Apache Lucene转向Amazon OpenSearch,以应对大规模向量搜索需求。OpenSearch的灵活性、扩展性和GPU加速潜力使其成为理想选择。通过优化批量索引和查询配置,Uber将索引时间从12小时缩短至2.5小时,查询P99延迟从250毫秒降至120毫秒。未来计划探索GPU加速、读写分离和实时更新,以进一步提升搜索性能。

From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake

Uber 重新设计了数据湖的摄取系统 IngestionNext,基于 Apache Flink 实现了流式处理,将数据新鲜度从小时级提升至分钟级,同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题,并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理,确保在故障时数据不丢失。未来,Uber 计划进一步扩展实时数据处理能力,以支持端到端的实时洞察和分析。

vivo Celeborn PB级Shuffle优化处理实践

vivo大数据团队采用Celeborn作为Shuffle服务核心方案,通过硬件适配、性能调优和稳定性优化,日均支撑PB级数据量。针对高负载场景,创新设计了小文件缓存和磁盘级线程控制策略,显著提升吞吐量。未来将推进运维平台化并跟进社区版本升级,持续优化混部集群性能。(139字)

Next Gen Data Processing at Massive Scale At Pinterest With Moka (Part 1 of 2)

Pinterest数据工程团队基于Kubernetes构建了新一代大数据处理平台Moka,以替代老化的Hadoop系统。Moka采用Spark on EKS架构,整合了Spark Operator、YuniKorn调度器和Celeborn远程混洗服务,支持ARM/Graviton实例和容器化部署。平台通过Archer作业提交系统实现与现有工作流的无缝集成,并引入自动化验证流程确保迁移稳定性。目前已完成70%批处理作业迁移,性能提升5%,同时通过资源隔离和队列管理优化了成本效益。

作业帮Spark全面替换Hive实践

作业帮将Hive计算引擎替换为Spark SQL,以应对Hive在资源利用和稳定性上的局限。通过工具化迁移和优化,Spark任务覆盖率达80%,资源节省54%。优化包括内存控制、并发提交、结果集返回、向量化读和JVM GC调优,显著提升性能和稳定性,为未来技术演进奠定基础。

Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说通过引入阿里云EMR Serverless Spark,解决了原有架构在弹性资源管理、费用、性能、运维、监控和扩容方面的痛点。新方案利用Fusion引擎加速任务执行,提升效率,降低成本,并实现按量付费,显著提高了任务稳定性和资源利用率。未来,流利说计划与阿里云合作,进一步优化湖仓场景解决方案。

How Uber Migrated from Hive to Spark SQL for ETL Workloads

Uber将Hive迁移至Spark SQL,以提升计算效率和性能。通过自动化迁移服务(AMS),实现了Hive查询的并行影子测试和数据验证,确保数据一致性和性能优化。迁移过程中克服了语法差异、安全运行等挑战,并开发了查询翻译服务(QTS)以支持复杂查询的转换。最终,迁移成功减少了50%的运行时间和资源使用。

Spark on K8s 在vivo大数据平台的混部实战

vivo通过Spark Operator方案实现了离线Spark任务在混部集群的容器化改造,优化了K8s资源调度与任务提交流程。借助弹性调度系统动态管理资源水位线,合理分配任务至多集群,显著提升CPU利用率,高峰期达30%。未来还将扩大任务类型覆盖并优化调度策略,进一步提升混部收益与资源填充效率。

Building a Spark observability product with StarRocks: Real-time and historical performance analysis

Grab 的 Spark 可观测性工具 Iris 通过引入 StarRocks 数据库,解决了实时和历史数据管理的挑战。新架构简化了数据流,支持复杂查询和实时监控,提升了查询性能和用户体验。通过 Kafka 直接数据摄入、物化视图和动态分区优化,Iris 实现了高效的数据存储与分析,为 Spark 作业提供了更强大的监控和调试能力,推动了资源管理和决策效率的提升。

How Uber Uses Ray® to Optimize the Rides Business

Computational efficiency is a significant challenge when scaling solutions to a marketplace as large and as complex as Uber. The running and tuning of the Uber rides business relies on substantial…

trang chủ - Wiki
Copyright © 2011-2026 iteam. Current version is 2.154.0. UTC+08:00, 2026-03-03 01:47
浙ICP备14020137号-1 $bản đồ khách truy cập$