中间件与数据库：Spark的相关资料

From SSH to REST: A Security-Driven Modernization of Slack’s EMR Data Pipelines

通过REST架构替代SSH，Slack完成了700多个数据管道的现代化改造。YARN分布式Shell技术成为关键突破，支持任意命令行任务在容器化环境中运行。迁移过程采用分阶段策略，解决了虚拟内存检查、网络隔离等多区域挑战，最终实现零停机升级。新架构不仅消除了SSH安全风险，还提升了作业可靠性和可观测性，为后续Spark on Kubernetes等现代化部署铺平道路。

slack技术

Next-Gen Restaurant Recommendation with Generative Modeling and Real-Time Features

Uber Eats用序列特征和Transformer重构推荐系统，从统计特征转向实时用户行为建模，实现近实时特征与生成式推荐。新架构采用列表式并行推理，提升效率，并规划账户全生命周期学习与二维页面个性化。

uber技术

Accelerating Search and Ingestion with High-Performance gRPC™ in OpenSearch™

Uber在OpenSearch中引入原生gRPC支持，解决了REST/JSON在高流量、大数据量下的性能瓶颈。通过gRPC与Protobuf结合，显著提升了搜索和批量写入的延迟与吞吐量，特别是在向量搜索和大数据场景下表现突出。此举不仅简化了系统集成，还为高吞吐量任务提供了更高效的传输方式，推动了OpenSearch生态的进一步发展。

uber技术

Reducing Agentforce AI Debugging from Two Weeks to Same-Day with Query-Driven Observability

爱因斯坦笔记本平台通过Spark工作流，将AI调试时间从两周缩短至一天，支持超4亿条记录和800GB数据的实时查询。团队开发了统一工作流，实现生产数据的直接访问，解决了传统日志和指标的局限性。通过多租户隔离和高性能架构，确保安全的查询驱动调试，提升AI代理行为透明度和调试效率。

salesforce技术

Lyft’s Feature Store: Architecture, Optimization, and Evolution

Lyft的特征存储是其数据平台的核心基础设施，专为大规模机器学习特征的管理和部署优化。该系统通过批处理、在线和流式处理三种方式，简化了特征的生命周期管理，确保特征的一致性和高效访问。在线服务层结合DynamoDB和ValKey缓存，实现低延迟特征检索。系统还支持特征发现、版本控制和数据质量管理，显著提升了ML模型的开发效率和用户体验。

lyft技术

百度MEG数据中台ClickHouse在数据湖仓中的探索和应用

百度MEG数据中台构建了存算分离的湖仓一体架构，解决了传统ClickHouse面临的长周期存储成本高、即席探索链路冗长、故障恢复缓慢等问题。通过冷热分层缓存、数据上卷及布局优化，显著提升了查询性能。同时，引入统一查询网关，支持将复杂查询透明降级至Spark运行，确保系统稳定性。该架构已在多个业务线成功应用，提升了数据分析效率和用户体验。

大禹平台：流批一体离线Dump平台的设计与应用

大禹平台是一个离线Dump平台，专注于搜索、推荐、广告场景的异构数据处理。平台采用流批一体架构，通过可视化DAG编排工具提升开发效率，确保数据质量与稳定性。其核心优化包括MySQL镜像至HBase、Binlog订阅平台化、状态大宽表消除反查等，支持任务复用与分层管理，显著加速数据处理与Dump流程。未来将持续增强算子体系与性能优化，深化与索引平台的协同，释放更多业务价值。

得物技术

基于Spark的配置化离线反作弊系统

百度构建了一套基于Spark的离线反作弊挖掘框架，涵盖Extract、Accumulate、Join、Policy四大核心模块，支持全量历史重算与大规模Shuffle计算。通过配置化设计，实现了字段抽取、特征定义与策略判定的解耦，大幅提升了策略迭代效率与系统稳定性。框架结合数据倾斜治理、列裁剪优化等工程实践，成为风控体系的重要计算底座。

百度技术

Spark UI作为Apache Spark的内置Web监控工具，提供了作业、阶段、任务、SQL执行计划等关键信息的实时可视化展示，帮助开发者和运维人员快速定位性能瓶颈并优化应用。通过Executors、Environment、Storage、SQL等一级入口，以及SQL、Jobs、Stages的二级详情页，用户可深入分析资源使用、任务负载、执行计划等细节，精准诊断数据倾斜、Shuffle开销等问题，优化内存与并行度配置，提升Spark应用的执行效率。

得物技术

Database Federation: Decentralized and ACL-Compliant Hive™ Databases

Uber的配送业务数据仓库因单一数据库设计导致性能瓶颈，如资源争用和权限管理混乱。团队通过分库策略，将数据集迁移至独立域库，利用Hive元数据指针实现零停机迁移，避免数据重复存储。系统包含引导迁移器、实时同步器等组件，确保数据一致性和高可用性。最终成功迁移数千数据集，节省PB级存储，提升资源管理效率。

uber技术

Drastically Reducing Out-of-Memory Errors in Apache Spark at Pinterest

Pinterest通过引入Auto Memory Retries功能，大幅减少了Spark应用中的内存溢出（OOM）错误。该功能自动识别高内存需求任务，并在更大执行器上重试，使内存配置无需为最大需求调整，而是基于P90内存使用。实施后，OOM故障率下降了96%，显著降低了平台成本和运维压力，同时支持了平台的有机增长。

pinterest技术

BSave - 数据切面工程在字节的大规模实践

数据切面工程通过在数据存储边界引入透明操作层，将通用数据操作从业务中剥离，实现透明加解密、压缩及访问追踪等功能。BSave系统覆盖数千在线服务与数据表，峰值QPS超145万。技术架构依托Sidecar与插件化生态，支持MySQL、Redis等协议解析与请求改写，提升数据治理效率与安全性。未来将探索AI驱动的智能数据访问与统一语义层。

字节跳动技术

Ray异构融合底座重构数据管道：架构演进与万卡落地实践

传统大数据引擎在AI数据管道中面临资源调度、Python生态兼容等局限。基于Ray重构的混元数据管道，通过云原生调度融合、计算范式统一，构建高效灵活的AI数据底座。Ray支持异构资源调度和Python Native生态，优化了容错、资源利用率、规模化和可观测性，显著提升数据处理和模型推理效率，推动AI数据管道革新。

腾讯技术

Inside the feature store powering real-time AI in Dropbox Dash

Dropbox Dash通过AI整合文件、聊天记录和公司内容，提升搜索效率。其核心功能依赖特征存储系统，结合实时机器学习，快速定位相关文档。系统采用混合架构，结合Feast、Spark和Dynovault，确保低延迟和高并发处理。通过批处理、流处理和直接写入三种数据摄取方式，保持特征数据的新鲜度，优化搜索排名体验。

dropbox技术

Powering Billion-Scale Vector Search with OpenSearch

Uber从Apache Lucene转向Amazon OpenSearch，以应对大规模向量搜索需求。OpenSearch的灵活性、扩展性和GPU加速潜力使其成为理想选择。通过优化批量索引和查询配置，Uber将索引时间从12小时缩短至2.5小时，查询P99延迟从250毫秒降至120毫秒。未来计划探索GPU加速、读写分离和实时更新，以进一步提升搜索性能。

uber技术

From Batch to Streaming: Accelerating Data Freshness in Uber’s Data Lake

Uber 重新设计了数据湖的摄取系统 IngestionNext，基于 Apache Flink 实现了流式处理，将数据新鲜度从小时级提升至分钟级，同时降低了计算成本。该系统解决了小文件生成、分区倾斜等问题，并通过行组合并优化了 Parquet 文件的压缩效率。IngestionNext 还增强了容错性和自动化管理，确保在故障时数据不丢失。未来，Uber 计划进一步扩展实时数据处理能力，以支持端到端的实时洞察和分析。

uber技术