分布式Data Warebase-加速企业数据智能化

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 分布式Data Warebase -加速企业数据智能化 ProtonBase 技术VP / 胡月军
2.
3. 目录 01 / 企业数字化背景和趋势 02 / Why Data Warebase? 03 / Data Warebase 系统架构 04 / Data Warebase 关键技术 05 / 企业私域数据智能化探索
4. 结 构 化 智慧 用于预测、决策并符合价值观的知识 知识 有上下文、可被解释的信息 信息 建模后的数据 数据 基本经营的数字化表征 企业数据资产的DIKW模型 抽 象
5. 数据处理历程 智能化 规模化 信息化
6. 一个招猎业务的数据架构 关键词搜索 关键词搜索 简 单 查 询 对象存储 全量同步 分析 增量同步 C CD 应用服务 语义搜索 应用 全 量 照 步 同 快 简单查询 汇总分析 向量数据库 语义搜索 BI工具
7. 上述数据架构的弊端 开发门槛高 运维复杂 系统稳定性差 数据延迟 开发效率低 成本不可控 数据不一致 开发视角 运维视角 业务视角
8. 分布式 Data Warebase 不是发明 而是发现 所有数据 所有场景 挑战极限 极简体验 结构化数据 简单查询 性能 统一的API 正确 统一的数据存储 实时 兼容已有生态 半结构化数据 关键词搜索 Data Warebase Data Warehouse + Database 非结构化数据 语义搜索 汇总分析 隔离 自适应
9. 数据开发的新范式 关键词搜索 照 全 量 步 快 同 对象存储 分析 语义搜索 C BI工具 CD 同步 量 应用服务 增量同步 应用 简单查询 关键字搜索 语义搜索 全量同步 向量数据库 应用 应用服务 分布式 Data Warebase 分析 BI工具
10. 总体系统架构 Teleport MySQL / PostgreSQL Business App NoSQL (MongoDB) Cloud Services Data Integration Management Observability Security Billing Search Cloud Storage (S3) Log Data Multi-Cluster Compute Warebase Warebase Warebase BI / Analytics Event Data Device (IoT) Real-Time Decision Centralized Storage AI / ML IDC Cloud Alibaba Huawei Tencent AWS Azure
11. 关键技术 多云架构 多种存储格式 无限扩展 兼容 PostgreSQL 生态 存算分离 多种数据 高性能多场景查询 提升开发运维效率 全托管 丰富的索引 高性能数据操作 负载隔离 安全可信 分层存储 高性能分布式事务 自适应 多云原生 所有数据 所有场景 挑战极限 极简体验
12. 多云存算分离 Warebase  一个虚拟化的计算集群  由基于容器化的多个 Units 组成 Warebase A Multi-Cluster Compute  Units 可以快速增减  无需拷贝数据,新扩 Units 可立刻服务 Database  数据存储的逻辑单元 Centralized Storage  数据存储在EBS,S3等云存储中  多副本保证高可用性  存储不够时系统会自动快速扩容  新扩存储可立刻被所有数据库使用 Cloud Storage Unit 1 Warebase B Unit 1 Unit 2 Unit 3
13. 存储格式 行存 列存 适合事务型场景 适合分析型场景 高性能实时写入 高效的多维过滤与聚合 高性能点查 更高的压缩率 混合存储 适合 HTAP 场景
14. 多种数据 非结构化数据 半结构化数据 通过 Json/JsonB 类型支持半结构化数据 高维向量 Json/JsonB 列同一个路径允许有不同类型 文字/图像/音视频的嵌入向量 关系型数据和半结构化数据可存储在同一个表 关系型数据和向量数据可存储在同一个表 通过 SQL / Json path 提供丰富的查询能力 通过 SQL 提供查询
15. 丰富的索引 索引类型 索引特点 支持全局二级索引 索引和主表保持事务型强一致 支持倒排索引 支持并发创建(concurrently) 支持 Json 索引 支持向量索引 支持位图索引 支持表达式索引 支持部分索引 支持包含列
16. 分层存储 热数据/实时数据 高性能存储 冷数据/历史数据 低成本 S3 冷热分离
17. 无限扩展 Unit 1 Unit 2 水平扩展 Unit 3 只读实例 * 该功能开发中
18. 高性能多场景查询 高性能 多场景 分布式执行计划 简单查询 向量化执行引擎 关键词搜索 索引加速 向量搜索 物化视图 复杂的分析查询
19. 高性能数据操作 交互式增删改 导入导出 高吞吐 / 零延迟 高性能导入 COPY FROM 支持 UPSERT / MERGE / UPDATE JOIN 高性能导出 COPY TO 支持输出更新的数据 CDC
20. 高性能分布式事务 支持完整 ACID 语意 分布式事务 支持多语句事务 支持对话式事务 高吞吐低延迟
21. 兼容 PostgreSQL 生态 驱动、框架、工具、文档、扩展 Gorm pgAdmin DBeaver SQLAlchemy QuickBI Mybatis DBT
22. 负载均衡 Warebase A Unit 1 Warebase B Unit 1 不同业务的隔离 Unit 2 Warebase A Unit 1 同一个业务软隔离 Warebase A Unit 1 Unit 2 Warebase A’ Unit 1 同一个业务的硬隔离 Unit 2
23. 自适应 数据自动分片和均衡 自适应建索引 自适应 自适应编码策略 一阶段事务 查询自动选择存储格式和索引 查询自动决定并发度
24. 生成式AI加速企业私域数据智能化 Pre-Trained Fine-Tuning RAG
25. 检索增强生成 - RAG Warebase A 生成答案 7 召回系统 提示 + 上下文 8 问题 1 6 2 3 4 5 搜索 相关文档 Embedding Service 知识库 LLM
26. Omni Search NL2SQL SQL NL LLM Service Structured Data JSON Data Warebase Embeddings Embedding Service
27. Data Warebase 挑战极限,让数据涌现智能 更好的关系型数据库 更好的 NoSQL 数据库 更好的搜索引擎 更好的数仓 更好的向量数据库  分布式事务  分布式事务  语义搜索  高性能插入和更新  水平扩展  表达所有关系  数据强一致  数据强一致  数据强一致  半结构化数据  SQL 查询语言  数据无延迟  数据无延迟  数据无延迟  向量数据  生态工具  数据关联 性能 正确 实时 体验
28.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-24 09:39
浙ICP备14020137号-1 $Map of visitor$