分布式Data Warebase-加速企业数据智能化
如果无法正常显示,请先停止浏览器的去广告插件。
1. 分布式Data Warebase
-加速企业数据智能化
ProtonBase 技术VP / 胡月军
2.
3. 目录
01 / 企业数字化背景和趋势
02 / Why Data Warebase?
03 / Data Warebase 系统架构
04 / Data Warebase 关键技术
05 / 企业私域数据智能化探索
4. 结
构
化
智慧 用于预测、决策并符合价值观的知识
知识 有上下文、可被解释的信息
信息 建模后的数据
数据 基本经营的数字化表征
企业数据资产的DIKW模型
抽
象
5. 数据处理历程
智能化
规模化
信息化
6. 一个招猎业务的数据架构
关键词搜索
关键词搜索
简
单
查
询
对象存储
全量同步
分析
增量同步
C
CD
应用服务
语义搜索
应用
全
量
照
步
同
快
简单查询
汇总分析
向量数据库
语义搜索
BI工具
7. 上述数据架构的弊端
开发门槛高 运维复杂
系统稳定性差 数据延迟
开发效率低 成本不可控 数据不一致
开发视角
运维视角
业务视角
8. 分布式 Data Warebase
不是发明 而是发现
所有数据 所有场景 挑战极限 极简体验
结构化数据 简单查询 性能 统一的API
正确 统一的数据存储
实时 兼容已有生态
半结构化数据
关键词搜索
Data Warebase
Data Warehouse + Database
非结构化数据
语义搜索
汇总分析
隔离
自适应
9. 数据开发的新范式
关键词搜索
照
全
量
步
快
同
对象存储
分析
语义搜索
C
BI工具
CD
同步
量
应用服务
增量同步
应用
简单查询
关键字搜索
语义搜索
全量同步
向量数据库
应用
应用服务
分布式
Data
Warebase
分析
BI工具
10. 总体系统架构
Teleport
MySQL / PostgreSQL
Business App
NoSQL (MongoDB)
Cloud
Services
Data
Integration
Management
Observability
Security
Billing
Search
Cloud Storage (S3)
Log Data
Multi-Cluster
Compute
Warebase
Warebase
Warebase
BI / Analytics
Event Data
Device (IoT)
Real-Time Decision
Centralized
Storage
AI / ML
IDC
Cloud
Alibaba
Huawei
Tencent
AWS
Azure
11. 关键技术
多云架构 多种存储格式 无限扩展 兼容 PostgreSQL 生态
存算分离 多种数据 高性能多场景查询 提升开发运维效率
全托管 丰富的索引 高性能数据操作 负载隔离
安全可信 分层存储 高性能分布式事务 自适应
多云原生
所有数据
所有场景 挑战极限
极简体验
12. 多云存算分离
Warebase
一个虚拟化的计算集群
由基于容器化的多个 Units 组成
Warebase A
Multi-Cluster
Compute
Units 可以快速增减
无需拷贝数据,新扩 Units 可立刻服务
Database
数据存储的逻辑单元
Centralized
Storage
数据存储在EBS,S3等云存储中
多副本保证高可用性
存储不够时系统会自动快速扩容
新扩存储可立刻被所有数据库使用
Cloud Storage
Unit 1
Warebase B
Unit 1
Unit 2
Unit 3
13. 存储格式
行存 列存
适合事务型场景 适合分析型场景
高性能实时写入 高效的多维过滤与聚合
高性能点查 更高的压缩率
混合存储
适合 HTAP 场景
14. 多种数据
非结构化数据
半结构化数据
通过 Json/JsonB 类型支持半结构化数据 高维向量
Json/JsonB 列同一个路径允许有不同类型 文字/图像/音视频的嵌入向量
关系型数据和半结构化数据可存储在同一个表 关系型数据和向量数据可存储在同一个表
通过 SQL / Json path 提供丰富的查询能力 通过 SQL 提供查询
15. 丰富的索引
索引类型 索引特点
支持全局二级索引 索引和主表保持事务型强一致
支持倒排索引 支持并发创建(concurrently)
支持 Json 索引
支持向量索引
支持位图索引
支持表达式索引
支持部分索引
支持包含列
16. 分层存储
热数据/实时数据
高性能存储
冷数据/历史数据
低成本 S3
冷热分离
17. 无限扩展
Unit 1
Unit 2
水平扩展
Unit 3
只读实例
* 该功能开发中
18. 高性能多场景查询
高性能
多场景
分布式执行计划 简单查询
向量化执行引擎 关键词搜索
索引加速 向量搜索
物化视图 复杂的分析查询
19. 高性能数据操作
交互式增删改
导入导出
高吞吐 / 零延迟 高性能导入 COPY FROM
支持 UPSERT / MERGE / UPDATE JOIN 高性能导出 COPY TO
支持输出更新的数据 CDC
20. 高性能分布式事务
支持完整 ACID 语意
分布式事务
支持多语句事务
支持对话式事务
高吞吐低延迟
21. 兼容 PostgreSQL 生态
驱动、框架、工具、文档、扩展
Gorm
pgAdmin
DBeaver
SQLAlchemy
QuickBI
Mybatis
DBT
22. 负载均衡
Warebase A
Unit 1
Warebase B
Unit 1
不同业务的隔离
Unit 2
Warebase A
Unit 1
同一个业务软隔离
Warebase A
Unit 1
Unit 2
Warebase A’
Unit 1
同一个业务的硬隔离
Unit 2
23. 自适应
数据自动分片和均衡
自适应建索引
自适应
自适应编码策略
一阶段事务
查询自动选择存储格式和索引
查询自动决定并发度
24. 生成式AI加速企业私域数据智能化
Pre-Trained
Fine-Tuning
RAG
25. 检索增强生成 - RAG
Warebase A
生成答案
7
召回系统
提示
+
上下文
8
问题
1
6
2
3
4 5
搜索 相关文档
Embedding
Service
知识库
LLM
26. Omni Search
NL2SQL
SQL
NL
LLM Service
Structured Data
JSON
Data Warebase
Embeddings
Embedding Service
27. Data Warebase 挑战极限,让数据涌现智能
更好的关系型数据库
更好的 NoSQL 数据库
更好的搜索引擎
更好的数仓
更好的向量数据库
分布式事务 分布式事务 语义搜索 高性能插入和更新 水平扩展 表达所有关系 数据强一致
数据强一致 数据强一致 半结构化数据 SQL 查询语言 数据无延迟
数据无延迟 数据无延迟 向量数据 生态工具 数据关联
性能
正确
实时
体验
28.