NebulaGraph 如何轻松应对海量数据
如果无法正常显示,请先停止浏览器的去广告插件。
1. NebulaGraph
如何轻松应对海量数据
于新林
NebulaGraph CTO
2.
3. 个人介绍
工作经历
• 2021 - NebulaGraph CTO
• 2017 - 2021 阿里云 IoT 平台技术负责人
• 2007 – 2017 支付宝首席架构师
4. • 图和图数据库
• NebulaGraph 存算分离分布式架构介绍
• 图数据库性能优化两三点
5. 什么是图
Graph
Picture
VS
6. 图数据库趋势
7. 市场规模
$ 650M $ 4.13B – $ 8B
2018 2024-2026
CAGR :
30% - 100%
2026
8. 应用场景
反欺诈
担保圈识别
反洗钱
企业图谱
信用积分
实时推荐
代码依赖分析
智能运维
人工智能 通过图分析补充数据间关系
的特征,提高人工智能做出
决策的准确性和效率
知识图谱
机器学习 图可以通过边连接和遍历数
据,为机器学习实时提取图
特征,提高结果准确性
互联网
智能助理
疫情·密接分析
反恐刑侦
政府
供应链管理
生产流程管理 风险评估
质量追溯 组织架构协作
电力
商业智能
服务依赖分析
数据治理
智能问答
金融证券
基于图的商业智能解决方案从
数据关系的角度去做探索,找
到事物之间隐藏的联系,挖掘
数据价值
燃气
智慧家庭
制造
物联网
Graph
Database
9. 政府:疫情密接分析
飞机同航班、飞机邻座
火车同班次、同车厢、邻座
同日同一酒店、酒店同楼层
网吧同一时间段上网
同一时间段连接同一WiFi热点
10. 制造业:汽车制造
供应链管理
保修管理
客户管理
11. 证券业:企业图谱
股权关系的无限向上以及无限向下穿透
企业受益人、实控人
背景查询
企业全部股权类资产查询
各类关联关系挖掘
12. • 图和图数据库
• NebulaGraph 存算分离分布式架构介绍
• 图数据库性能优化两三点
13. 分布式架构演进
读写分离
读
写
读
分库分表
App
App
存算分离
14. NebulaGraph 产品大图
15. 产品特性
Query
Engine
……
Query
Engine
Query
Engine
架构特性
Storage
Engine
……
Storage
Engine
Storage
Engine
分布式:支持千亿点万亿边规模的海量数据存储
支持在线扩缩容
高可用,采用 Raft 协议保证数据强一致性
存储、计算分离:
存储层和计算层独立扩缩容,提高资源利用率
计算下推
存储层独立服务多种计算框架:Latency / Throughput
多平台运行:X86, ARM
数据特性
四元属性图
CAP
多图空间
…
nGQL
Cypher
ISO-GQL
Algorithm GraphX
Analytics Plato
属性图:点-二元组(VID,TAG), 边-四元组(SRC,TYPE,RANK,DST), 索引属性、Geospatial
强一致性(CP):多数派协议 Raft, TOSS
高可用性(AP):备份、恢复、跨集群同步等
多图空间:物理隔离,读写权限控制
计算特性
查询语言:原生声明式语言 nGQL,兼容 openCypher 9
多种计算框架:Plato, GraphX,Euler 等
多种图算法:PageRank, Louvain, 连通分量, 标签传播等几十种算法
16. Graph Engine
Operators
目标
• 大并发吞吐(TP)
• 单查询时延(AP)
V3.0 新增
•
算子:
统一算子:nGQL 与 openCypher 共
•
GetNeighbors
GetVertices
GetProps
Project
Join
Filter
Union
Dedup
享物理算子 EdgeIndexFullScan
更多 RBO 规则和下推实现 EdgeIndexRangeScan
openCypher 兼容(DQL)
实现了全部的 LDBC-SNB
TCK 5k+
EdgeIndexPrefixScan
VertexIndexFullScan
VertexIndexPrefixScan
VertexIndexRangeScan
Loop
Select
…
17. Storage Engine
cut edge
2
1
目标负载
混合读写
只读
3
4
分布式
5
单机
5
1 2
目标介质
SSD
distribute
4
目标规模
HDD + 内存
3
V3.0 新增:
更细粒度的算子(执行计划)
更多的下推规则
全量与增量备份 BR
多机房同步 Listener
…
18. Meta Engine
分布式
用户信息管理
Partition 管理
Space 管理
Schema 信息管理
基于 TTL 数据生命周期管理
作业管理
Session 管理
慢查询管理
19. • 图和图数据库
• NebulaGraph 存算分离分布式架构介绍
• 图数据库性能优化两三点
20. 点边分离
type part vid tag1 type part vid tag1
type part vid edge1 … vid type part vid tag2
... type part vid tag3
type part vid edge1 … vid type part vid edge1 … vid
type part vid tag2 ...
type part vid edge2 … vid type part vid edge1 … vid
… ...
type part vid edge2 … vid type part vid edge2 … vid
type part vid tag3 ...
… type part vid edge2 … vid
21. 算子下推
Graph Graph Graph
Storage Storage Storage
Rocks
db
Rocks
db
Rocks
db
Rocks
db
Rocks
db
Rocks
db
可以下推的算子:
filter
limit
dedup
aggregate
sort
22. 属性分离
图结构与属性分离处理(5x-10x)
KV 分离- 3.0 GA
多种类型的缓存
图结构索引
B-tree
23.
24.