基于 Flink+Hudi 在兴盛优选营销域实时数仓的实践

摘要

Apache Flink是一种流处理系统,用于实时数仓建设。数据同步使用cannal监控数据库的binlog日志,并发送到kafka队列。Flink对数据进行加工打宽,再回写到kafka中。数据的落地使用SparkStreaming写入到hudi。Hudi是幂等的、支持事务的表,适用于电商业务。hudi表可以快照查询、增量查询和读优化。使用OLAP引擎(presto)进行即席查询,也可以将数据同步到华为的Gaussdb,实现秒级时延和更优的查询性能。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-23 09:58
浙ICP备14020137号-1 $Map of visitor$