中间件与数据库：Spark的相关资料

Lyft’s Feature Store: Architecture, Optimization, and Evolution

Lyft的特征存储是其数据平台的核心基础设施，专为大规模机器学习特征的管理和部署优化。该系统通过批处理、在线和流式处理三种方式，简化了特征的生命周期管理，确保特征的一致性和高效访问。在线服务层结合DynamoDB和ValKey缓存，实现低延迟特征检索。系统还支持特征发现、版本控制和数据质量管理，显著提升了ML模型的开发效率和用户体验。

lyft技术

百度MEG数据中台ClickHouse在数据湖仓中的探索和应用

百度MEG数据中台构建了存算分离的湖仓一体架构，解决了传统ClickHouse面临的长周期存储成本高、即席探索链路冗长、故障恢复缓慢等问题。通过冷热分层缓存、数据上卷及布局优化，显著提升了查询性能。同时，引入统一查询网关，支持将复杂查询透明降级至Spark运行，确保系统稳定性。该架构已在多个业务线成功应用，提升了数据分析效率和用户体验。

大禹平台：流批一体离线Dump平台的设计与应用

大禹平台是一个离线Dump平台，专注于搜索、推荐、广告场景的异构数据处理。平台采用流批一体架构，通过可视化DAG编排工具提升开发效率，确保数据质量与稳定性。其核心优化包括MySQL镜像至HBase、Binlog订阅平台化、状态大宽表消除反查等，支持任务复用与分层管理，显著加速数据处理与Dump流程。未来将持续增强算子体系与性能优化，深化与索引平台的协同，释放更多业务价值。

得物技术

基于Spark的配置化离线反作弊系统

百度构建了一套基于Spark的离线反作弊挖掘框架，涵盖Extract、Accumulate、Join、Policy四大核心模块，支持全量历史重算与大规模Shuffle计算。通过配置化设计，实现了字段抽取、特征定义与策略判定的解耦，大幅提升了策略迭代效率与系统稳定性。框架结合数据倾斜治理、列裁剪优化等工程实践，成为风控体系的重要计算底座。

百度技术

Spark UI作为Apache Spark的内置Web监控工具，提供了作业、阶段、任务、SQL执行计划等关键信息的实时可视化展示，帮助开发者和运维人员快速定位性能瓶颈并优化应用。通过Executors、Environment、Storage、SQL等一级入口，以及SQL、Jobs、Stages的二级详情页，用户可深入分析资源使用、任务负载、执行计划等细节，精准诊断数据倾斜、Shuffle开销等问题，优化内存与并行度配置，提升Spark应用的执行效率。

得物技术

Database Federation: Decentralized and ACL-Compliant Hive™ Databases

Uber的配送业务数据仓库因单一数据库设计导致性能瓶颈，如资源争用和权限管理混乱。团队通过分库策略，将数据集迁移至独立域库，利用Hive元数据指针实现零停机迁移，避免数据重复存储。系统包含引导迁移器、实时同步器等组件，确保数据一致性和高可用性。最终成功迁移数千数据集，节省PB级存储，提升资源管理效率。

uber技术

Drastically Reducing Out-of-Memory Errors in Apache Spark at Pinterest

Pinterest通过引入Auto Memory Retries功能，大幅减少了Spark应用中的内存溢出（OOM）错误。该功能自动识别高内存需求任务，并在更大执行器上重试，使内存配置无需为最大需求调整，而是基于P90内存使用。实施后，OOM故障率下降了96%，显著降低了平台成本和运维压力，同时支持了平台的有机增长。

pinterest技术

BSave - 数据切面工程在字节的大规模实践

数据切面工程通过在数据存储边界引入透明操作层，将通用数据操作从业务中剥离，实现透明加解密、压缩及访问追踪等功能。BSave系统覆盖数千在线服务与数据表，峰值QPS超145万。技术架构依托Sidecar与插件化生态，支持MySQL、Redis等协议解析与请求改写，提升数据治理效率与安全性。未来将探索AI驱动的智能数据访问与统一语义层。

字节跳动技术

Ray异构融合底座重构数据管道：架构演进与万卡落地实践

传统大数据引擎在AI数据管道中面临资源调度、Python生态兼容等局限。基于Ray重构的混元数据管道，通过云原生调度融合、计算范式统一，构建高效灵活的AI数据底座。Ray支持异构资源调度和Python Native生态，优化了容错、资源利用率、规模化和可观测性，显著提升数据处理和模型推理效率，推动AI数据管道革新。

腾讯技术

Inside the feature store powering real-time AI in Dropbox Dash

Dropbox Dash通过AI整合文件、聊天记录和公司内容，提升搜索效率。其核心功能依赖特征存储系统，结合实时机器学习，快速定位相关文档。系统采用混合架构，结合Feast、Spark和Dynovault，确保低延迟和高并发处理。通过批处理、流处理和直接写入三种数据摄取方式，保持特征数据的新鲜度，优化搜索排名体验。

dropbox技术

Powering Billion-Scale Vector Search with OpenSearch

Uber从Apache Lucene转向Amazon OpenSearch，以应对大规模向量搜索需求。OpenSearch的灵活性、扩展性和GPU加速潜力使其成为理想选择。通过优化批量索引和查询配置，Uber将索引时间从12小时缩短至2.5小时，查询P99延迟从250毫秒降至120毫秒。未来计划探索GPU加速、读写分离和实时更新，以进一步提升搜索性能。

uber技术

From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake

Uber 重新设计了数据湖的摄取系统 IngestionNext，基于 Apache Flink 实现了流式处理，将数据新鲜度从小时级提升至分钟级，同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题，并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理，确保在故障时数据不丢失。未来，Uber 计划进一步扩展实时数据处理能力，以支持端到端的实时洞察和分析。

uber技术

vivo Celeborn PB级Shuffle优化处理实践

vivo大数据团队采用Celeborn作为Shuffle服务核心方案，通过硬件适配、性能调优和稳定性优化，日均支撑PB级数据量。针对高负载场景，创新设计了小文件缓存和磁盘级线程控制策略，显著提升吞吐量。未来将推进运维平台化并跟进社区版本升级，持续优化混部集群性能。（139字）

vivo技术

Next Gen Data Processing at Massive Scale At Pinterest With Moka (Part 1 of 2)

Pinterest数据工程团队基于Kubernetes构建了新一代大数据处理平台Moka，以替代老化的Hadoop系统。Moka采用Spark on EKS架构，整合了Spark Operator、YuniKorn调度器和Celeborn远程混洗服务，支持ARM/Graviton实例和容器化部署。平台通过Archer作业提交系统实现与现有工作流的无缝集成，并引入自动化验证流程确保迁移稳定性。目前已完成70%批处理作业迁移，性能提升5%，同时通过资源隔离和队列管理优化了成本效益。

pinterest技术

作业帮Spark全面替换Hive实践

作业帮将Hive计算引擎替换为Spark SQL，以应对Hive在资源利用和稳定性上的局限。通过工具化迁移和优化，Spark任务覆盖率达80%，资源节省54%。优化包括内存控制、并发提交、结果集返回、向量化读和JVM GC调优，显著提升性能和稳定性，为未来技术演进奠定基础。

作业帮技术

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说通过引入阿里云EMR Serverless Spark，解决了原有架构在弹性资源管理、费用、性能、运维、监控和扩容方面的痛点。新方案利用Fusion引擎加速任务执行，提升效率，降低成本，并实现按量付费，显著提高了任务稳定性和资源利用率。未来，流利说计划与阿里云合作，进一步优化湖仓场景解决方案。

流利说技术