知乎实时数仓实践及架构演进

摘要

这篇文章介绍了知乎在实时数仓中的稳定性实践。2016年初,知乎选择了Spark Streaming作为实时数据处理框架,考虑了日志量和实时性需求。为了保证数据正确性,知乎在Spark Streaming层实现了At-least-once语义,并在下游做了去重逻辑。文章还提到了通用的ETL逻辑与埋点数据结构的关系。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-07-03 08:00
浙ICP备14020137号-1 $Map of visitor$