大数据平台的数据同步服务实践

摘要

知乎在大数据系统中建立了数据同步平台,选择了Sqoop作为数据同步工具。Sqoop具有并行计算能力、与Hive兼容,但数据源支持较少。DataX支持丰富的数据源和限速,但需额外的资源。考虑到资源利用和Hive适配,选择了Sqoop。平台化目标是构建通用的数据同步平台,简化任务接入、监控和报警、屏蔽MySQL DDL影响、可扩展新数据源。整体架构包括API Server、数据源中心、Scheduler和Worker。平台不要求用户理解底层原理。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-07-03 07:35
浙ICP备14020137号-1 $Map of visitor$