话题中间件与数据库 › Apache Hudi

中间件与数据库:Apache Hudi

关联话题: Hudi

Apache Hudi™ at Uber: Engineering for Trillion-Record-Scale Data Lake Operations

Uber构建了全球最大规模的Hudi数据湖,每日处理数万亿行数据,支持实时决策和机器学习。Hudi作为核心存储引擎,提供ACID事务、快速更新和增量处理,满足高并发、低延迟需求。通过创新如元数据表和记录索引,Hudi解决了大规模数据处理中的性能瓶颈,确保数据新鲜度和正确性,助力Uber从批处理向流处理的平滑过渡。

Hudi系列:Hudi核心概念之时间轴(TimeLine)

Hudi架构以时间轴为核心,记录表上所有操作的即时状态,提供原子性操作和高效数据检索。文件布局和索引优化数据存储与查询性能,支持全局与非全局索引。表类型分为写时复制(COW)和读时合并(MOR),各有适用场景。查询类型包括快照、增量和优化查询,满足不同数据分析需求。

hudi在同程艺龙上的应用与实践

众所周知,hive数仓不支持数据更新,而我们绝大部分应用数据例如订单、会员信息、红包等都存在更新场景,那传统方案如何解决数据更新问题呢?

Hudi MetaServer元数据服务技术探索

本文阐明了亚信科技在 Hudi MetaServer 方面的演进和创新。希望能为广大数据工程师和开发者在实际工作中提供有价值的参考和帮助。

Apache Hudi 从零到一:理解写入流程和操作(三)

在这篇文章中,我们将深入研究另一个方面——写入流,以 Spark 作为示例引擎。在写入数据时可以调整许多配置和设置。因此,这篇文章的目的不是作为一个完整的使用指南。相反,我的主要目标是展示内部数据流并分解所涉及的步骤。

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

Apache Flink是一种流处理系统,用于实时数仓建设。数据同步使用cannal监控数据库的binlog日志,并发送到kafka队列。Flink对数据进行加工打宽,再回写到kafka中。数据的落地使用SparkStreaming写入到hudi。Hudi是幂等的、支持事务的表,适用于电商业务。hudi表可以快照查询、增量查询和读优化。使用OLAP引擎(presto)进行即席查询,也可以将数据同步到华为的Gaussdb,实现秒级时延和更优的查询性能。

Hudi 在 vivo 湖仓一体的落地实践

主要应用在流批同源、实时链路优化及宽表拼接等业务场景。

字节跳动基于 Hudi 的机器学习应用场景

如何简化数据工作流程并推动业务成功?

Setting Uber’s Transactional Data Lake in Motion with Incremental ETL Using Apache Hudi

The Global Data Warehouse team at Uber democratizes data for all of Uber with a unified, petabyte-scale, centrally modeled data lake. The data lake consists of foundational fact, dimension, and aggregate tables developed using dimensional data modeling techniques that can be accessed by engineers and data scientists in a self-serve manner to power data engineering, data science, machine learning, and reporting across Uber. The ETL (extract, transform, load) pipelines that compute these tables are thus mission-critical to Uber’s apps and services, powering core platform features like rider safety, ETA predictions, fraud detection, and more. At Uber, data freshness is a key business requirement. Uber invests heavily in engineering efforts that process data as quickly as possible to keep it up to date with the happenings in the physical world.

In order to achieve such data freshness in our ETL pipelines, a key challenge is incrementally updating these modeled tables rather than recomputing all the data with each new ETL run. This is also necessary to operate these pipelines cost-effectively at Uber’s enormous scale. In fact, as early as 2016, Uber introduced a new “transactional data lake” paradigm with powerful incremental data processing capabilities through the Apache Hudi project to address these challenges. We later donated the project to the Apache Software Foundation. Apache Hudi is now a top-level Apache project used industry wide in a new emerging technology category called the lakehouse. During this time, we are excited to see that the industry has largely moved away from bulk data ingestion towards a more incremental ingestion model that Apache Hudi ushered in at Uber. In this blog, we share our work over the past year or so in extending this incremental data processing model to our complex ETL pipelines to unlock true end-to-end incremental data processing.

基于 Hudi 的湖仓一体技术在 Shopee 的实践

湖仓一体(LakeHouse)作为大数据领域的重要发展方向,提供了流批一体和湖仓结合的新场景。目前,企业许多业务中会遇到的数据及时性、准确性,以及存储的成本等问题,都可以通过湖仓一体方案得到解决。

当下,几个主流的湖仓一体开源方案都在不断迭代开发中,业界的应用也都是在摸索中前行,在实际的使用中难免会遇到一些不够完善的地方和未支持的特性。Shopee 内部在使用过程中基于开源的 Apache Hudi 定制了自己的版本,以实现企业级的应用和一些内部业务需求的新特性。

通过引入 Hudi 的 Data lake 方案,Shopee 的 Data Mart、推荐、ShopeeVideo 等产品的数据处理流程实现了流批一体、增量处理的特性,很大程度上简化了这一流程,并提升了性能。

基于 Flink + Hudi 的实时数仓在 Shopee 的实践

Apache Hudi 是业内基于 Lakehouse 解决方案中的典型组件,本文将介绍 Shopee Marketplace 业务使用 Flink + Hudi 构建实时数据仓库的实践。

字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。

Hudi Bucket Index 在字节跳动的设计与实践

字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支。

  • «
  • 1
  • »

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.148.3. UTC+08:00, 2026-01-17 21:00
浙ICP备14020137号-1 $Гость$