中间件与数据库:Spark

Lyft’s Feature Store: Architecture, Optimization, and Evolution

Lyft的特征存储是其数据平台的核心基础设施,专为大规模机器学习特征的管理和部署优化。该系统通过批处理、在线和流式处理三种方式,简化了特征的生命周期管理,确保特征的一致性和高效访问。在线服务层结合DynamoDB和ValKey缓存,实现低延迟特征检索。系统还支持特征发现、版本控制和数据质量管理,显著提升了ML模型的开发效率和用户体验。

百度MEG数据中台ClickHouse在数据湖仓中的探索和应用

百度MEG数据中台构建了存算分离的湖仓一体架构,解决了传统ClickHouse面临的长周期存储成本高、即席探索链路冗长、故障恢复缓慢等问题。通过冷热分层缓存、数据上卷及布局优化,显著提升了查询性能。同时,引入统一查询网关,支持将复杂查询透明降级至Spark运行,确保系统稳定性。该架构已在多个业务线成功应用,提升了数据分析效率和用户体验。

大禹平台:流批一体离线Dump平台的设计与应用

大禹平台是一个离线Dump平台,专注于搜索、推荐、广告场景的异构数据处理。平台采用流批一体架构,通过可视化DAG编排工具提升开发效率,确保数据质量与稳定性。其核心优化包括MySQL镜像至HBase、Binlog订阅平台化、状态大宽表消除反查等,支持任务复用与分层管理,显著加速数据处理与Dump流程。未来将持续增强算子体系与性能优化,深化与索引平台的协同,释放更多业务价值。

基于Spark的配置化离线反作弊系统

百度构建了一套基于Spark的离线反作弊挖掘框架,涵盖Extract、Accumulate、Join、Policy四大核心模块,支持全量历史重算与大规模Shuffle计算。通过配置化设计,实现了字段抽取、特征定义与策略判定的解耦,大幅提升了策略迭代效率与系统稳定性。框架结合数据倾斜治理、列裁剪优化等工程实践,成为风控体系的重要计算底座。

深入剖析Spark UI界面:参数与界面详解

Spark UI作为Apache Spark的内置Web监控工具,提供了作业、阶段、任务、SQL执行计划等关键信息的实时可视化展示,帮助开发者和运维人员快速定位性能瓶颈并优化应用。通过Executors、Environment、Storage、SQL等一级入口,以及SQL、Jobs、Stages的二级详情页,用户可深入分析资源使用、任务负载、执行计划等细节,精准诊断数据倾斜、Shuffle开销等问题,优化内存与并行度配置,提升Spark应用的执行效率。

Database Federation: Decentralized and ACL-Compliant Hive™ Databases

Uber的配送业务数据仓库因单一数据库设计导致性能瓶颈,如资源争用和权限管理混乱。团队通过分库策略,将数据集迁移至独立域库,利用Hive元数据指针实现零停机迁移,避免数据重复存储。系统包含引导迁移器、实时同步器等组件,确保数据一致性和高可用性。最终成功迁移数千数据集,节省PB级存储,提升资源管理效率。

Drastically Reducing Out-of-Memory Errors in Apache Spark at Pinterest

Pinterest通过引入Auto Memory Retries功能,大幅减少了Spark应用中的内存溢出(OOM)错误。该功能自动识别高内存需求任务,并在更大执行器上重试,使内存配置无需为最大需求调整,而是基于P90内存使用。实施后,OOM故障率下降了96%,显著降低了平台成本和运维压力,同时支持了平台的有机增长。

BSave - 数据切面工程在字节的大规模实践

数据切面工程通过在数据存储边界引入透明操作层,将通用数据操作从业务中剥离,实现透明加解密、压缩及访问追踪等功能。BSave系统覆盖数千在线服务与数据表,峰值QPS超145万。技术架构依托Sidecar与插件化生态,支持MySQL、Redis等协议解析与请求改写,提升数据治理效率与安全性。未来将探索AI驱动的智能数据访问与统一语义层。

Ray异构融合底座重构数据管道:架构演进与万卡落地实践

传统大数据引擎在AI数据管道中面临资源调度、Python生态兼容等局限。基于Ray重构的混元数据管道,通过云原生调度融合、计算范式统一,构建高效灵活的AI数据底座。Ray支持异构资源调度和Python Native生态,优化了容错、资源利用率、规模化和可观测性,显著提升数据处理和模型推理效率,推动AI数据管道革新。

Inside the feature store powering real-time AI in Dropbox Dash

Dropbox Dash通过AI整合文件、聊天记录和公司内容,提升搜索效率。其核心功能依赖特征存储系统,结合实时机器学习,快速定位相关文档。系统采用混合架构,结合Feast、Spark和Dynovault,确保低延迟和高并发处理。通过批处理、流处理和直接写入三种数据摄取方式,保持特征数据的新鲜度,优化搜索排名体验。

Powering Billion-Scale Vector Search with OpenSearch

Uber从Apache Lucene转向Amazon OpenSearch,以应对大规模向量搜索需求。OpenSearch的灵活性、扩展性和GPU加速潜力使其成为理想选择。通过优化批量索引和查询配置,Uber将索引时间从12小时缩短至2.5小时,查询P99延迟从250毫秒降至120毫秒。未来计划探索GPU加速、读写分离和实时更新,以进一步提升搜索性能。

From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake

Uber 重新设计了数据湖的摄取系统 IngestionNext,基于 Apache Flink 实现了流式处理,将数据新鲜度从小时级提升至分钟级,同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题,并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理,确保在故障时数据不丢失。未来,Uber 计划进一步扩展实时数据处理能力,以支持端到端的实时洞察和分析。

vivo Celeborn PB级Shuffle优化处理实践

vivo大数据团队采用Celeborn作为Shuffle服务核心方案,通过硬件适配、性能调优和稳定性优化,日均支撑PB级数据量。针对高负载场景,创新设计了小文件缓存和磁盘级线程控制策略,显著提升吞吐量。未来将推进运维平台化并跟进社区版本升级,持续优化混部集群性能。(139字)

Next Gen Data Processing at Massive Scale At Pinterest With Moka (Part 1 of 2)

Pinterest数据工程团队基于Kubernetes构建了新一代大数据处理平台Moka,以替代老化的Hadoop系统。Moka采用Spark on EKS架构,整合了Spark Operator、YuniKorn调度器和Celeborn远程混洗服务,支持ARM/Graviton实例和容器化部署。平台通过Archer作业提交系统实现与现有工作流的无缝集成,并引入自动化验证流程确保迁移稳定性。目前已完成70%批处理作业迁移,性能提升5%,同时通过资源隔离和队列管理优化了成本效益。

作业帮Spark全面替换Hive实践

作业帮将Hive计算引擎替换为Spark SQL,以应对Hive在资源利用和稳定性上的局限。通过工具化迁移和优化,Spark任务覆盖率达80%,资源节省54%。优化包括内存控制、并发提交、结果集返回、向量化读和JVM GC调优,显著提升性能和稳定性,为未来技术演进奠定基础。

Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说通过引入阿里云EMR Serverless Spark,解决了原有架构在弹性资源管理、费用、性能、运维、监控和扩容方面的痛点。新方案利用Fusion引擎加速任务执行,提升效率,降低成本,并实现按量付费,显著提高了任务稳定性和资源利用率。未来,流利说计划与阿里云合作,进一步优化湖仓场景解决方案。

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-24 22:43
浙ICP备14020137号-1 $访客地图$