中间件与数据库:Spark
由Decimal操作计算引发的Spark数据丢失问题
eBay Hadoop Team分享一次数据质量相关问题及相应解决方案。
从Spark Streaming到Apache Flink: 实时数据流在爱奇艺的演进
实时数据平台如何选型?如何落地?表现如何?都是业界普遍关注的问题。本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程,以及从Spark Streaming到Apache Flink的演进过程。
基于Spark GraphX实现微博二度关系推荐
二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。看微博如何通过二度关系实现了潜在用户的推荐。
Spark性能优化指南——基础篇
想要用好Spark,就必须进行合理的性能优化,才能充分发挥出它的优势。本文主要讲解了笔者实际工作中积累的Spark性能优化方案中的基础内容,包括开发调优以及资源调优。