Gotchas of Stream Processing: Data Skewness

摘要

近年来,使用流处理作为一种数据处理技术以及为支持它而设计的框架已经变得无处不在,因为它在构建关键业务系统方面释放了巨大的潜力。在Lyft的Marketplace团队中,我们使用Apache Beam(Flink Runner)流处理框架来驱动我们的功能工程和模型执行协调工作。在过去的几年里,我们已经建立并扩展了几个管道,以极低的延迟处理实时事件。分享一些统计数据,我们每分钟为约300万gehashes生成约100个特征(每天约4000亿个特征)。

为了给我们一些需要黄金时间的关键产品提供动力(它是动态定价,以控制任何特定区域的需求和供应)或识别热点,我们重新设计了我们的架构,以依靠事件驱动的系统来提供实时洞察。在这一历程中,我们在尝试扩展平台时遇到了不少障碍。找出根源并解决这类问题的过程,让我们深入了解了如何设计一个无缝扩展的管道。我们正在开始这个系列,以涵盖每个人在设计数据密集型管道时应该注意的障碍。每篇文章都将涵盖独特类型的问题及其潜在的解决方案。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.134.0. UTC+08:00, 2024-09-28 22:15
浙ICP备14020137号-1 $Map of visitor$