图深度学习系统DGL介绍和展望

4. 药物重定位知识图谱 (DRKG) • • • • 合并了6个不同的药物信息数据集 13个类别共100K个节点; 100+类别共6M条边药物重定位：搜索能作用于相似的疾病蛋白的药物化合物通过图数据分析所推荐的41种药物中，有11种已经被用于 Covid-19的临床治疗。 © 2021, Amazon Web Services, Inc. or its Affiliates. 数据和预训练模型已发布在 https://github.com/gnn4dr/DRKG

9. 为什么编写图神经网络那么难？ h 5 v 5 h 2 v 2 ??? 51 = ℎ 5 v 1 5 ℎ 1??? = ?(෍ ??? ?1 ) 2 v 4 v 3 h 4 h 3 消息传递计算是一种细粒度计算 • 边: 如何计算和发送消息 • 点: 如何聚合和使用消息 © 2021, Amazon Web Services, Inc. or its Affiliates. 张量编程接口则需要定义粗粒度计算 • 如何生成、变换张量数据结构

13. 丰富且灵活的面向图数据的接口使用DGL提供的GNN模块快速定义图神经网络图与张量同为核心数据结构 DGL提供100+图API • • • • • • 构图算法图的增删修改子图抽取和采样图遍历算法图变换算法图和各类数据格式的转换（NetworkX, Scipy Sparse Matrix等) 支持异构图(Heterogeneous Graph）支持GPU加速支持多平台（PyTorch, TensorFlow, MXNet) © 2021, Amazon Web Services, Inc. or its Affiliates.

18. DGL通过拓展SpMM和SDDMM算子支持更高效的消息传递计算 • 传统SpMM和SDDMM是乘加操作，g-SpMM和g-SDDMM 更加灵活。 • 传统SpMM和SDDMM的计算单元是标量，g-SpMM和g-SDDMM则允许张量计算单元。 Deep Graph Library: A Graph-Centric, Highly-Performant Package for Graph Neural Networks, https://arxiv.org/abs/1909.01315 © 2021, Amazon Web Services, Inc. or its Affiliates.

22. DGL针对巨图训练的优化 • 通过高效的图划分减少机器间通信 • 通过zero-copy等技巧优化底层数据传输 • 灵活易用针对图节点和边特征特化的KVStore • 针对GNN训练多环节的特点设计流水线（pipelining），最大程度将数据传输和计算进行并行。 © 2021, Amazon Web Services, Inc. or its Affiliates. 支持多机多GPU训练支持多机图数据存储和划分编程接口和单机保持高度一致支持十亿量级图数据（更大规模数据在内部测试中） ✓ 在ogbn-paper100M图上，使用64块 GPU，DGL分布式训练能在5-10秒完成一个epoch，并在4分钟训练一整个GraphSAGE模型。 ✓ ✓ ✓ ✓

28. 开源社区建设 • 广泛的开源合作伙伴 • 每月定期组织用户群分享会。 • 邀请学界和业界的研究者分享图神经网络的最新成果。 • 在学术顶会上举办DGL手把手教程 (GTC’19, KDD’19, WWW’20, KDD’20, GTC’20, WSDM’21) （所有材料都公开在 https://github.com/dglai/) © 2021, Amazon Web Services, Inc. or its Affiliates.

33. Kokoyi: “端到端”深度学习 Kokoyi provides • A new programming language resembling LaTeX syntax and appearing like math equations; • A compiler that translates the front-end language to efficient tensor programs in, e.g., PyTorch; • A developer environment integrated with Jupyter Notebook. © 2021, Amazon Web Services, Inc. or its Affiliates.