Data Warebase 一体化数据平台的云原生实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 杨克特
2. 目录
3.
4. 搜索服务
快照
全量处理
实时读写
CDC
离线分析
应用
应用服务
实时读写
快照
增量处理
CDC
实时分析
5. Cons
Pros
•
•
o
o
o
•
•
o
o
•
o
o
o
6. 搜索服务
快照
CloudSearch
全量处理
实时读写
S3
CDC
离线分析
实时读写
应用
Redshift
快照
应用服务
增量处理
CDC
RDS
实时分析
7. 向量检索
向量数据库
CloudSearch
离线特征
S3
实时特征
Redshift
应用
应用服务
实时离线处理一体化
RDS
事务和分析混合负载
?
口径不统一
8. 开发门槛高 稳定性差 迭代效率低
开发效率低 成本不可控 数据不一致
开发视角
运维视角
业务视角
9.
10.
11. Gorm
DBeaver
pgAdmin
SQLAlchemy
Mybatis
QuickBI
DBT
12.
13. ✓
✓
✓
✓
•
•
14. 分片1
a
key
…
…
f
a
i
b
l
key
b
c
d d
分片2 e
f b f
g e g
h g h
i k i
hash(key) % 3
j j
k k
l
分片3
c
d
h
j
…
a
c
e
...
l
分片1
分片2
分片3
15. 从系统实现者的角度
从用户的角度
数据分布 一般较均匀 可能不均匀 范围查询 效率低 效率高
查询路由 分区键 O(1)
非分区键广播 维护全局路由信息 易用性 需要配置分片数 无需配置
实现复杂度 低 高 扩缩容代价 高
迁移 n/(n+1) 数据 低
可自动进行
16. 保障吞吐
•
•
计算层使用本地Cache加速
存储层使用对象存储
Pros
Cons
17. 高吞吐+低延迟
•
•
•
使用高速本地盘或云盘保障延迟
低延迟、高可靠的读写接口
专门的存储服务
Pros
Cons
内置 Raft/Paxos 一致性协议
18. Warebase A
✓
Multi-
Cluster
Compute
✓
✓
Centralized
Storage
✓
Cloud Storage
Unit 1
Warebase B
Unit 1
Unit 2
Unit 3
19.
20. 行存
适合事务型场景
高性能实时写入
高性能点查
混合存储
Zero-ETL
数据强一致
列存
适合分析型场景
高效的多维过滤与聚合
更高的压缩率
21. 相同计算组软隔离
✓
不同计算组硬隔离
✓
✓
✓
✓
✓
✓
❖
❖
❖
22.
23.
24. 阶段三:统一计算模型
Table1
✓ 使用物化视图来描述业务逻辑
全量初始化
对齐离线SQL,没有额外的学习负担
✓ 使用增量计算来统一计算模型
MV
Table2
全量初始化 + 增量刷新
增量不依赖 State,自由灵活切换计算形态
Table1
✓ 结果表直接提供实时查询服务
MV
无需同步至外部系统
丰富的调优手段(存储格式,索引等)
Table2
增量刷新
25.
26.
27.
28. 7
8
1
6
2
3
4
5
29.
30. 倒排索引
向量索引
关键词搜索
语义搜索
31. 实时数据系统
Database
Raw Data
多模态检索
Ingest
实时决策
Transform
Features
Business App
Kafka
实时
分析探索
数据科学家
机器学习工程师
Business App
32. 实时读写
应用服务
多模检索
33. • 云原生的现代数据系统,可以充分发挥云的各项优势
• 实时、多模、一体化是数据系统的重要演进方向
• AI 会给数据系统带来更旺盛的需求和更大的挑战
• Data Warebase 是我们对这一趋势的总结和实践
34.
35. 大模型正在重新定义软件
Large Language Model Is Redefining The Software