网易湖仓一体的探索与实践
摘要
数据分析从上世纪 80 年代兴起以来,大体经历了企业数仓(EDW)、数据湖(Data Lake)、以及现在的云原生数仓、湖仓一体等过程。
企业数仓是数据仓库最原始的版本,主要用于企业内部的决策支持和商业分析(BI)。企业数仓的数据放置于集中式仓库当中,并以 schema-on-write(写时模式)的方式写入。从当前的视角来看,企业数仓存在着只能处理结构化数据、集中式的存储和计算、以及成本昂贵等缺点。
数据湖是伴随着数据爆炸式增长而出现的技术,它能够存储结构化以及非结构化的数据、拥有分布式的存储、以及经济的成本。但由于其“不管后面用不用,先存储起来”的理念(schema-on-read 模式),在数据治理、数据质量方面有很多的缺失,因此在后续实际的使用当中会面临较多的问题。
湖仓一体是当前较新的理念,它的目标是解决上述企业数仓和数据湖的主要缺点,并提供企业数仓和数据湖融合的优势。使其拥有数据湖的多样化结构支持、分布式存储、低成本以及企业数仓的数据治理能力,高速 SQL 访问性能等两者的优点。同时,作为一个新兴的形态,湖仓一体自身也带来了一系列增强的功能,如事务支持(ACID),支持数据 UPDATE/DELETE,更高的数据实时性甚至流式数据的生产和消费支持等等。
欢迎在评论区写下你对这篇文章的看法。