Data Warebase 一体化数据平台的云原生实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 杨克特
2. 目录
3.
4. 搜索服务 快照 全量处理 实时读写 CDC 离线分析 应用 应用服务 实时读写 快照 增量处理 CDC 实时分析
5. Cons Pros • • o o o • • o o • o o o
6. 搜索服务 快照 CloudSearch 全量处理 实时读写 S3 CDC 离线分析 实时读写 应用 Redshift 快照 应用服务 增量处理 CDC RDS 实时分析
7. 向量检索 向量数据库 CloudSearch 离线特征 S3 实时特征 Redshift 应用 应用服务 实时离线处理一体化 RDS 事务和分析混合负载 ? 口径不统一
8. 开发门槛高 稳定性差 迭代效率低 开发效率低 成本不可控 数据不一致 开发视角 运维视角 业务视角
9.
10.
11. Gorm DBeaver pgAdmin SQLAlchemy Mybatis QuickBI DBT
12.
13. ✓ ✓ ✓ ✓ • •
14. 分片1 a key … … f a i b l key b c d d 分片2 e f b f g e g h g h i k i hash(key) % 3 j j k k l 分片3 c d h j … a c e ... l 分片1 分片2 分片3
15. 从系统实现者的角度 从用户的角度 数据分布 一般较均匀 可能不均匀 范围查询 效率低 效率高 查询路由 分区键 O(1) 非分区键广播 维护全局路由信息 易用性 需要配置分片数 无需配置 实现复杂度 低 高 扩缩容代价 高 迁移 n/(n+1) 数据 低 可自动进行
16. 保障吞吐 • • 计算层使用本地Cache加速 存储层使用对象存储 Pros Cons
17. 高吞吐+低延迟 • • • 使用高速本地盘或云盘保障延迟 低延迟、高可靠的读写接口 专门的存储服务 Pros Cons 内置 Raft/Paxos 一致性协议
18. Warebase A ✓ Multi- Cluster Compute ✓ ✓ Centralized Storage ✓ Cloud Storage Unit 1 Warebase B Unit 1 Unit 2 Unit 3
19.
20. 行存 适合事务型场景 高性能实时写入 高性能点查 混合存储 Zero-ETL 数据强一致 列存 适合分析型场景 高效的多维过滤与聚合 更高的压缩率
21. 相同计算组软隔离 ✓ 不同计算组硬隔离 ✓ ✓ ✓ ✓ ✓ ✓ ❖ ❖ ❖
22.
23.
24. 阶段三:统一计算模型 Table1 ✓ 使用物化视图来描述业务逻辑 全量初始化 对齐离线SQL,没有额外的学习负担 ✓ 使用增量计算来统一计算模型 MV Table2 全量初始化 + 增量刷新 增量不依赖 State,自由灵活切换计算形态 Table1 ✓ 结果表直接提供实时查询服务 MV 无需同步至外部系统 丰富的调优手段(存储格式,索引等) Table2 增量刷新
25.
26.
27.
28. 7 8 1 6 2 3 4 5
29.
30. 倒排索引 向量索引 关键词搜索 语义搜索
31. 实时数据系统 Database Raw Data 多模态检索 Ingest 实时决策 Transform Features Business App Kafka 实时 分析探索 数据科学家 机器学习工程师 Business App
32. 实时读写 应用服务 多模检索
33. • 云原生的现代数据系统,可以充分发挥云的各项优势 • 实时、多模、一体化是数据系统的重要演进方向 • AI 会给数据系统带来更旺盛的需求和更大的挑战 • Data Warebase 是我们对这一趋势的总结和实践
34.
35. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

- 위키
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:21
浙ICP备14020137号-1 $방문자$