基于 Flink+Hudi 在兴盛优选营销域实时数仓的实践
摘要
Apache Flink是一种流处理系统,用于实时数仓建设。数据同步使用cannal监控数据库的binlog日志,并发送到kafka队列。Flink对数据进行加工打宽,再回写到kafka中。数据的落地使用SparkStreaming写入到hudi。Hudi是幂等的、支持事务的表,适用于电商业务。hudi表可以快照查询、增量查询和读优化。使用OLAP引擎(presto)进行即席查询,也可以将数据同步到华为的Gaussdb,实现秒级时延和更优的查询性能。