中间件与数据库：Spark的相关资料

基于SPARK的大规模网络表征算法及其在腾讯游戏中的应用

腾讯游戏社交算法团队开发了一种分布式网络表征算法，用于处理大规模图数据。他们提出了基于递归图分割的算法，将图分割为多个子图，并在每个子图上运行网络表征算法，然后将子图的表征进行融合。该算法已在超过5款游戏的多个业务场景中应用，并取得了显著的效果提升。

腾讯技术

基于Spark的大规模推荐系统特征工程

特征工程在推荐系统中有着举足轻重的作用，大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎FESQL。

Apache Spark 在爱奇艺的应用实践

爱奇艺大数据平台架构升级过程中，对Spark服务进行改造，大幅提升效率，节省上千万成本。

爱奇艺技术

爱奇艺大数据加速：从Hive到Spark SQL

从Hive到Spark SQL，加速67%，助力爱奇艺大数据业务提效增收。

爱奇艺技术

Spark Analysers: Catching Anti-Patterns In Spark Apps

Apache Spark™ is a widely used open source distributed computing engine. It is one of the main components of Uber’s data stack.

Spark is the primary batch compute engine at Uber. Like any other framework, Spark comes with its own set of tradeoffs.

uber技术

Hive 和 Spark 分区策略剖析

在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。

vivo技术

Hadoop 及 Spark 分布式HA运行环境搭建

工欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地 Hadoop 和 Spark 运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境，文中不拖泥带水过多讲述基础知识，结合 Hadoop 和 Spark 最新版本，帮助大家跟着步骤一步步实践环境搭建。

京东技术

Spark AQE SkewedJoin 在字节跳动的实践和优化

一篇文章读懂Spark AQE SkewedJoin该如何使用。

字节跳动技术

Spark App 血缘解析方案

本文基于开源 spline 方案的调研，对如何丰富 Spark APP 的血缘解析，提供了方案和深入的原理剖析。

有赞技术

Uber’s Highly Scalable and Distributed Shuffle as a Service

Uber is a data-driven company that heavily relies on offline and online analytics for decision-making. As Uber’s data grows exponentially every year, it’s crucial to process this data very efficiently and with minimum cost. Over the years, Apache Spark™ has become the primary compute engine at Uber to satisfy such data needs. Spark empowers many business-critical use cases at Uber with its unique features, including Uber rides, Uber Eats, autonomous vehicles, ETAs, Maps, and many more. Spark is the primary engine for data warehousing, data science, and AI/ML. In the last few years, Uber’s Spark usage has grown exponentially year over year, running on more than 10,000 nodes in production. Spark jobs now account for more than 95% of analytics cluster compute resources which process hundreds of petabytes of data every day.

uber技术

中间件与数据库：Spark的相关资料

中间件与数据库：Spark

基于SPARK的大规模网络表征算法及其在腾讯游戏中的应用

基于Spark的大规模推荐系统特征工程

BIGO大数据计算引擎本地化-Apache Spark篇

Apache Spark 在爱奇艺的应用实践

爱奇艺大数据加速：从Hive到Spark SQL

Spark Analysers: Catching Anti-Patterns In Spark Apps

Hive 和 Spark 分区策略剖析

Hadoop 及 Spark 分布式HA运行环境搭建

Spark AQE SkewedJoin 在字节跳动的实践和优化

Spark App 血缘解析方案

推荐系统-协同过滤在Spark中的实现

Uber’s Highly Scalable and Distributed Shuffle as a Service

Spark离线开发框架设计与实现

How to Optimize Your Apache Spark Application with Partitions

Shuttle：高可用高性能 Spark Remote Shuffle Service

Spark SQL 字段血缘在 vivo 互联网的实践