如何快速实现 Data Fabric 数据架构
如果无法正常显示,请先停止浏览器的去广告插件。
1. 如何快速实现 Data Fabric 数据架
构
Michael Liu
首席架构师
2.
3. • 现代数据架构的发展趋势
•
如何快速实现 Data Fabric 数据架构
• Denodo 核心能力
• Denodo 场景及案例
• Demo
• Q&A
演示
4. 现代数据架构的发展趋势
为什么IT领先的企业越来越重视 Data Fabric
5. 2022 塑造数字业务未来的12大趋势
趋势
从新冠疫情、动荡政局到气候变化,企业机构不断遭受意外事件的冲击。但利用
数字业务在 CEO追求三个目标:增长、数字化和运营效率
颠覆环境中繁荣成长、脱颖而出的思路却未曾改变,始终明确印刻
在人们的脑海中。 数据编织 (Data Fabric)
IT领导者需要为数字业务提供技术支持,承担相应的责任,并通过使用能够成倍
增加IT力量 的创新趋势,加速增长,战略性推动企业机构进步。 隐私增强计算
这些创新趋势将能够:
• 随时随地为员工和设备提供可靠的数字连接
• 随时随地为快速扩展数字创意提供解决方案
• 提供创新能力,加速业务增长
网络安全网格
云原生平台
组装式应用
决策智能
超级自动化
AI 工程化
分布式企业
这些趋势彼此成就,相辅相成。若结合使用,Gartner 2022年重要战略技术趋
势将助您协助 CEO完成优先任务,达到扩大规模、适应变化和加速增长的预期
目标。
David Groombridge
Gartner基础设施和通讯服
务 副总裁分析师
全面体验
自治系统
生成式 AI
6. 现代企业数字化转型
用户花95%的时间分
析数据,花5%的时
间争论数据
用户花80%的时间分
析数据,花20%的时
间争论数据
大多数组织
用户花50%的时间分
析数据,花50%的时
间争论数据
用户花20%的时间分
析数据,花80%的时
间争论数据
用户花5%的时间分
析数据,95%的时间
争论数据
系统化
基本型
对数据的信任有限
纯数据质量
数据混乱
渴望改变
对数据的信任仍然有限,但
是有了预期
部分提高了数据质量
理清数据所有权和数据血统
差异化
机会主义型
转型
数据驱动决策、增长和战略
数据是自定义使用的
不断的改进和实验
数据中的隐式信任
数据是组织文化的一部分
决策主要是由数据决定的
大大提高了人们对跨组织数
据的信任度
整个组织的数据质量都得到
了改善
可说明数据所有权和数据使
用情况
人们越来越多地使用数据来
进行决策
6
7. 业务系统导致数据孤岛的形成
数据消费层
ERP
财务
CR
M
客户关系
Huma
n
resourc
e
供应链
7
8. 构建数据仓库解决因业务而产生的数据孤岛
数据消费层
财务
客户关系
数据仓库
供应链
8
9. 数据平台级孤岛的产生
数据消费层
B
I
数据源
Data
wareho
数据仓库
商务智能
Data
science
数据源
数据湖
AI / ML
Data
Service
数据源
数据中台
数据服务
9
10. 2022:Data Fabric – 企业数据架构的发展方向
数据架构的变革, Data Fabric(数据编织)架构的兴起,已经成为全球最新的架构设计趋势。
数据仓库
2000
数据仓库
数据湖
2015
数据湖
基于云的湖仓架构
2019
湖仓一体
10
11. 2022:Data Fabric – 企业数据架构的发展方向
数据架构的变革, Data Fabric(数据编织)架构的兴起,已经成为全球最新的架构设计趋势。
数据仓库
2000
数据湖
2015
基于云的湖仓架构
2019
Data Fabric
数据仓库
数据湖
湖仓一体
11
12. 收集数据 与 连接数据 的平衡
收集数据在解决未知数据和未知问题时,存在严重的效率问题,分析结果的时效性 和 准确
性也得不到保证。
元数据
使用场景(运营、分析、多样化)
数据资产类型
数据, SQL 查询, 报告, 建议,
仪表板,数据服务,KPI, 虚拟数据资产
基础设施
RESTRICTED DISTRIBUTION
12
© 2021 Gartner, Inc. and/or its affiliates. All rights reserved.
12
13. 2
Data Fabric 数据架构的好处
实现 数据存储计算物理分散,数据应用管理逻辑集中。
挑战 数据虚拟化技术 业务价值
消除数据孤岛实时互通 逻辑数据分离,异构数据整合统一的数据模型中 提升数据时效性,降低开发成本
大幅减少数据移动复制 管理集中物理分散减少复制,节省资源降本增效 大幅减少数据管理工作 集中管理跨平台的元数据和主数据 快速提供多种数据服务 一键发布多种数据服务,Rest API、 SOAP WS 异构数据标准治理接入 异构数据扁平化、标准化治理,采用集中式数据
安全治理接入策略
发现痛点
和待做事项!
单独确定目标和虚拟化概念的
实际匹配度
提升业务自服务,释放数据价值
提高管理敏捷性,降低复杂度。
根据业务价值调整解决方案,充分发挥
虚拟化的业务价值
采取行动!
13
14. 如何快速实现 Data Fabric 架构
了解 Denodo
15. Denodo 数据管理领导者
始于 1999 年,以数据虚拟化技术为基础,长期专注于数据集成、管理和交付
DENODO 办事处和员工
业务遍布全球 – 在 20 个国家/地区设有
25 个办事处。
新办事处 (2021 年) – 荷兰、比利时、
瑞典、韩国。
客户和合作伙伴
1000 多家客户,包括众多财富 500 强和全
球 2000 强公司,遍布各个主要行业。
全球 300 多家积极参与的合作伙伴。
领导地位
领导者: Gartner 2021 年数据集成
工具魔力象限
领导者: Forrester 2020 Wave –
企业数据编织,2020 年第 2 季度
领导者: Forrester 2017 Wave –
数据虚拟化,2017 年第 4 季度
客户之选:2022 Gartner Peer
Insights 数据集成工具
(连续第二年)
财务状况
~50% 的年增长率
108% 的净留存率 ; 4% 的客户流失率
$0 负债;盈利
15
16. Denodo 在数据领域的行业地位
Gartner and Forrester Research Evaluations
2021 Gartner Magic Quadrant for Data
Integration Tools
2020 Gartner Magic Quadrant for Data
Integration Tools
Forrester Wave: Enterprise Data Fabric, Q2 202
16
17. Denodo 服务于各行业大型客户
1000 多家客户,包括各个主要行业的众多财富 500 强和全球 2000 强公司
Energy
Technology
Manufacturing
Financial Services
Insurance
Healthcare
Public Sector
Telecommunications
Retail
Pharma / Biotech
17
18. Denodo 构建数据的一站式逻辑平台
任何
数据源
基于逻辑 集成、管理并交付分布式数据
任何数据
使用者
数据治理
工具
DB、DW 和
数据湖
AI/ML 建议
与自动化
多维数据集
逻辑数据
抽象化
高级语义
与主动数据
目录
数据科学和
机器学习
应用程序
文件
流式
数据和 IoT
云 DB
和 SaaS
BI 仪表板
报告和工具
智能查询
加速
统一安全与
治理
实时数据
集成
任何平台环境
本地 | 云 | 多云 | 容器化
移动和
企业应用程序
微服务
应用程序
18
19. Denodo 数据虚拟化技术是实现 Data Fabric 的关键
六大核心功能
逻辑数据模型
自动化和推荐
Data Fabric的核心:
实时数据集成
智能查询加速
增强的语义层
统一的数据安全与治
理
能够通过一个公共层,将可信数据从所有相关
数据源,交付给所有相关数据消费者,从而能
够以更加高效的方式整合不同的数据源快速得
到分析结果。
数据虚拟化能力提供了一个数据访问和传输层,
它可以作为数据编织架构的基础,在数据管理
中提供了重要的自动化功能。这些包括数据推
荐的自动化、数据质量、数据治理和策略,以
及数据虚拟化的核心数据集成功能。所以数据
虚拟化可以帮助数据编织架构快速落地 。
– Gartner: Assessing the Relevance of Data Virtualization
in Modern Data Architectures, June 2021
19
20. Denodo 核心能力
采用先进数据虚拟化技术
21. Denodo 核心能力
3
数据使用者
数据分析
DATA CONSUMERS
数据应用
使用
各种数据访问
Enterprise Applications, Reporting,BI, Portals, ESB, Mobile, Web, Users, IoT/Streaming Data
多个协议
格式
2
整合
异构数据
安全交付
数据虚拟化
异构实时集成
标准治理建模
数据开放共享
连接
异构数据的
规范化视图
数据资产管理
Library of
wrappers
1
请求/回复
事件驱动
链接数据服务
查询、搜索、浏览
结构化
合并
消费
发现、改造、 共享、交付、
准备、提高质 发布、管理、
量、整合
协作
连接
& 收集
Any data
or content
不同的数据源
智能优化引擎
数据访问加速
数据安全管控
图形运维开发
Read
& Write
非结构化
连接
各种数据源
数据库 & 传统数仓, 业务系统 / 云应用, 大数据, 外部数据,非结构化数据, Web服务, XML, Excel, Hbase, TD...
21
22. Data Fabric 架构中数据是如何执行的?
JDBC/ODBC/ADO.Net
Development
Tools and SDK
Scheduled Tasks
Unified
View
SOAP / REST WS
Customer
360
View Virtual
Data Mart
View
U J
Unified
View
Unified
View
Transformation
& Cleansing
Derived
View
Query Optimizer
Base
View
Base
View
Base
View
Monitoring &
Audit
Governance
J
J
Base
View
Development
Lifecycle Mgmt
A
Derived
View
J
Business
Layer
Unified
View
J
S
Data Caching
Application
Layer
Base
View
Base
View
Base
View
Data
Source
Layer
Security
Abstraction
22
23. 示例:Denodo 通用数据架构
Data Fabric 数据架构
Denodo 跨平台数据管理
低代码开发平台
已有的数据中台或传统数仓
云视图
分析
Kafka
Flume
数据科学
DWH 视图
分析视图
数据科学视图
λ 视图
统
一
数
据
治
理
Sqoop
CDC
混合视图
ETL
异
构
数
据
标
准
化
接
入
iPaaS
AI/ML
数据货币化
数据市场
数据湖
实时视图
23
24. 客户案例
25. Denodo 轻松实现多云及云上云下混合架构
宁夏区域
Amazon
RDS,
Aurora
北京区域
25
26. 必和必拓 – 数据和用户遍布全球
Jansen
Houston DC
London
Shanghai
Kuala Lumpor
AWS US East
AWS APAC
Singapore
Escondida
Santiago DC
Perth DC
Brisbane DC
26
27. 必和必拓 – 构建数据编织架构体系
每个数据虚拟化集群都连接到本地数据源,
是本地消费者应用程序(如BI和分析工具)的
接入点。每个数据虚拟化集群都可以看到来
自所有其他集群的可用数据集,并根据最终
用户的需要从它的对等集群请求这些数据。
Jansen
Houston DC
London
Shanghai
Kuala Lumpor
AWS US East
AWS APAC
Singapore
Escondida
Santiago DC
Perth DC
Brisbane DC
27
28. 必和必拓 – 构建数据编织架构体系
Jansen
Houston DC
London
Shanghai
Kuala Lumpor
AWS US East
AWS APAC
Singapore
Escondida
Santiago DC
Perth DC
Brisbane DC
28
29. 支持所有角色人员使用
数据访问服务
数据市场
数据专员
数据计算服务
数据编织服务
数据集成服务
RDBMS/OLTP
Traditional Analytics/BI
Data Lakes
数据编织
管理员
系统管理员
Cloud Data Stores
Apps and Document
Repositories
Applications/APIs
Data Warehouse
Flat Files
ETL
Third Party
OData
SOAP/XML GraphQL
ETL
Legacy
Mart
REST
Mart
XML • JSON • PDF
DOC • WEB
无论什么数据还是平台,都可以执行统一的数据集成、安全治理、服务和部署,真正实现数据物理分散,管理集中。
29
30. Demo 演示
31. 演示背景
客户有Oracle数据库构建的传统数据仓库。
客户有Hadoop集群,用来存储大量的历史数据。
客户有大量的SaaS应用。
如何利用多种数据源的数据,轻松地构建报告。
31
32. 示例
分析各地区、营销活动的销售情
况。
• 历史销售数据,在大数据平台
(Impala)上,节省存储成本。
• 营销活动数据,存储在云服务
(REST API)。
•
使用
按地区分组
合并
转换
集成
连接
客户信息,存储在本地数据仓库
(DW) 中。
连接
基本
视图
销售额
Demo 视频:5 分钟
活动
客户
数据
源
32
33.
34. Denodo 智能优化引擎的最佳性能优化策略
客户 和 销售额 来自不同的数据源。
最佳执行计划是什么?
SELECT c.state, AVG(s.amount)
FROM customer c JOIN sales s
ON c.id = s.customer_id
GROUP BY c.state
选项 2?
选项 1?
创建临时表
格
50万
分组依据
选项 3?
按地区分组
连接
分组依据
2百万
连接
连接
2百万
3亿
销售额
原生策略
客户
销售额
临时客户表
临时数据移动策略
2百万
客户
按 ID 分组
销售额
2百万
客户
部分聚合下推策略
34
35. Denodo 联系方式
Denodo官网: denodo.com.cn
Denodo社区: community.denodo.com
Denodo博客: www.datavirtualizationblog.com
产品试用: https://www.denodo.com/en/denodo-platform/test-drives
联系我们:
添加微信
电话至 +86.18518356610
邮件至 cli@denodo.com
35
36. 36
37.