华为数智融合的理念与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 华为数智融合技术分享 华为云 ⻰江 2023年3月17日 ArchSummit全球架构师峰会
2. 个人介绍
3. 进入数字经济时代,数据成为重要生产资料,激发数字经济发展 数据:数字经济时代的重要生产资料 生产力 人力/畜力 生产工具 锄/犁/锹 生产资料 土地 热力/电力 2025年产业数字化机会 23万亿$ 5 算力/网络 机械 1.1 万亿 数据 其他 1.5 万亿 0.5 万亿 信息科技 云、5G、AI 煤/石油/矿 万亿 公共事业 1.7 零售 万亿 金融 0.9 万亿 农业经济 工业经济 交通 数字经济 Y = F (N, L, K, T, D) N: 土地 L: 劳动力 Y: 经济产出 K: 资本 T: 技术 D: 数据 3.0 万亿 咨询服务 2.9 万亿 ⺠生服务 6.4 万亿 制造 F: 生产函数 Source: Huawei GIV 2025
4. 释放数据价值,需要企业从数据管理走向数据智能 数据智能体验 数据智能决策 数据智能流程 垂直的深度和厚度 同样重要 每天亿级数据标签智能匹配 50年油田历史数据智能挖掘 智慧新闻,精准用户体验 石油开采,智慧决策钻井深度 每天10万+次数据碰撞 智慧差旅:智能流程合并
5. 面临三大难题,数据价值很难得到充分挖掘 数据治理难 技术⻔槛高 业务仿真难 数据质量低,取数难、找数难、 数据处理到AI开发,到最终实现业务价值, 如何借助数据与模型,模拟、验证、预 计算难、用数难 涉及几十道工序,技术⻔槛高,协作难度大 测、控制业务的全生命周期
6. 华为云数据智能创新愿景 方向:研究下一代数据智能基础设施,Data Intelligence Infrastructure,打造一站式、全链路的数据智能平台,通 过对海量复杂数据问题的业务抽象与有效分析,帮助用户专注于解决现实世界的问题; 愿景:数据智能驱动决策,Provide right data to right person in right time; 业务对象、规则、过程数字化 数字业务化 数据清洁 数据透明 数据联接 实时可⻅,智能洞察 数据采集/处理自动化、智能化 数据领域由企业扩展到生态伙伴 极致萃取数据价值 全链路No-code 人人都是数据科学家 自动数据处理 (AutoETL) 自动算法模型 (AutoML) 安全共享、数据合规
7. 华为云数据智能核心技术理念 Data Intelligence as a Service • 在AI的辅助下,用户无需专家技能也可以进行数据治理、提 升数据质量、进行可视化分析与设计; • 持续智能,AI能力自我持续增强; • 可解释的AI,让用户理解AI推荐的结果。 Data as a Service • 数据即服务,按需自助提供数据服务,所搜即所得,所得即可视化,用户 无需关心数据的位置、数据的结构、数据的处理逻辑; • 用户可以发现他所不知道的异常、或者预测业务未来发展。 DIaaS DaaS DLaaS MaaS Data Lake as a Service .无需编码即可构建数据湖 .集成任何格式、结构和规模的数据,增强数据管理 .支持实时、批量数据处理 .自定义、可编辑的数据模型,将数据表示为业务对象 .数据、元数据、模型和代码的版本控制能力 Metadata as a Service • 提供企业数据资产内容的统一视图与唯一真相来源,包括技术资产与业务资 产; • 用户可以很方便的发现、描述、使用数据资产; • 给用户智能化的资产搜索、推荐体验,帮助用户发现他所不知道的数据价值 与数据关系;
8. 数据智能基础设施整体架构与技术研究方向 智能应用构建 关键技术 无码化应用开发、决策智能对接应用 智能分析与洞察 增强分析、根因分析、what-if决策、因果推断、标签自动生成与智能匹配 智能数据治理 数据+元数据一体化的企业知识图谱;指标探索的可视分析;全链路性能与成 本监控;智能分级、加密脱敏技术;智能质量评分与质量修复 智能数据准备 CDC实时入湖、AutoML、AutoETL、NL2SQL、Auto API生产 智能内核层 元数据治理内核:元数据联邦、全链路血缘、关系图谱、profiling;智能数据 治理算法、智能可视分析算法、计算任务智能编排调度算法等 多元化计算层 多引擎统一元数据存储、版本管理、权限、接口服务;计算任务跨引擎调 度;SQL+AI融合计算 统一存储层 memarts缓存加速、shuffle加速、高速索引、自动数据优化(格式转换、预 业务应用 读、老化、冷热数据识别)、计算下推(数据缩减, 推理,训练,特征匹配) 华为内部统一数据智能底座 数百PB数据、百万级任务、十万级报表、数十场景的智能辅助决策
9. 关键技术:AI for Data智能治理&分析算法服务 资产目录 重复建设 对海量资产进行自动资产编目,提升资产完整性和准确性 通过数据结构、数据内容、用户群体 相似等特征智能识别数据湖、中台资 产和数据服务重复建设 数据标准 . 数据整合方案 对已发布的数据标准进行去重,提升数据标准质量;对未发布资产推 荐和自动生成数据标准,提升资产发布效率 通过AI识别贴源区、整合区资产的 数据关系,智能输出数据整合方案 数据模型 根据数据结构和数据内容智能识别主外键、建立模型,厘清海量数据之间的关系,提升资产建设和消 费效率 隐私安全 基于元数据向量距离识别个人唯一身份标识,并识别所有个人数据属性,确保准确率、查全率;对海 量资产进行密级推荐,提升定密效率,促进共享与安全 数据血缘 根据数据结构和数据内容智能识别数据集成关系,进行主数据治理、质量问题分析、数据源认证等 精准搜索 对用户、数据资产分别进行画 像,再通过AI实现智能精准搜 索、推荐 知识图谱 对应用、指标、数据、任务,从 业务相关性、相似性、血缘等⻆ 度建立关系图谱,形成企业数据 资产的知识图谱 数据质量 通过AI智能识别不确定业务规则 数据质量问题,提升数据质量识 别效率和提前预警 部分研究成果在ICDE、VLDB、TVCG、CSCW等国际顶级学术会议发表论文: Approximating Median Absolute Deviation with Bounded Error. Proc. VLDB Endow. 14(11): 2114-2126 (2021) ; Capturing Semantics for Imputation with Pre-trained Language Models. ICDE 2021: 61-72 Interactive Data Analysis with Next-step Natural Language Query Recommendation. TVCG-2022-10-0539. ColorCook: Augmenting Color Design for Dashboarding with Domain-Associated Palettes.ACM CSCW 2022 Discovering Editing Rules by Deep Reinforcement Learning.ICDE 2023 异常数据预警 对不匹配预期报告结果(例如某个 数值较日常突然指数级增大等)进 行监控预警 智能图表推荐 基于自然语言的搜索请求,智能 生成查询query,并基于查询结果 智能推荐可视化图表 智能故事叙事 基于对数据的智能分析与理解, 智能输出数据故事
10. 关键技术:自动,自愈, 自优的智能数据流水线 关键挑战: • 大数据开发周期⻓:企业花费1000+人月的时间,不能满 足业务敏捷性。 • 大数据管理维护成本高:人工运维,事后补救,宕机频 繁,耗时耗力 • 大数据资源:业务技术更新快,开发人员难以与时俱进, 资源浪费严重 核心服务能力: • 自动:大数据开发即服务:智能数据开发,无缝连接企业 数据,ML/AI模型,业务和应用。 • 自愈:大数据管理即服务:统一运维,治理,监控,告 警,根因分析,预测,自愈。 • 自优:大数据资源优化即服务:基于用户行为,预算, SLA,应用等智能优化数据存储,数据模型,计算引擎, 联邦查询 关键技术: • 数据识别: 关系,相似,领域 • 数据标识及解析: 半/非结构化数据 • 自然语言搜索与发现 • 数据质量稽核:查重、清洗、合并、丰富 • 自动数据编排, 识别数据模型与连接 • 流批一体: 采集,处理,服务 • 动态本体建模,知识图谱,数字孪生 • 低代码/无代码数据处理及建模 • 智能调度
11. 关键技术:构建智能数据洞察Modern BI能力,降低数据分析⻔槛 第三方应用嵌入BI 分享 待办 订阅 关键特性 移动端 自然语言交互“所搜即所得 ” 智能数据故事 高阶分析能力 工作空间 (可视分析与报表制作) 智能⻅解 ⻅解描述 智能主题 仪表盘 智能交互(NLI) 智能推荐 即席分析(工作表) 报表保存/预览 图表推荐 异测/根因 预警 聚类/趋势 报表导入 自定义公式 关联分析 集成python等 多维预测 图表优化 时序分析 故事生成 时序 智能决策 图 XAI 地理 文本 图优化 … NL2SQL • 支持即席分析,即基于表格领域的解决方案 • 基于d3的可视化组件库转变(SDK) • 增加Small Multiple这一类型组件 • NLI能力的落地 • 数据洞察主模块与子模块交互能力(至少时序) • 地理数据子模块 • 报表导入/分⻚ 基于行业模板的智能数据故事生成 • 基于模板/自动生成数据故事,让数据会“说话” • 图表、⻅解自动增加文字描述(NLG) • 智能决策 • 智能主题/配色 • 图表智能优化 可视化组件库(d3) 高阶分析能力A-Chart DaaS Engine 数据 准备 数据模型 指标系统 数据建模 • 增强异常监测与根因分析 • 支持聚类/趋势/关联分析 • 集成python、R等分析应用代码能力(调用数据处理接口) • 自定义规则 Query Engine 轻量化BI,支持第三方应用嵌入和分享: 数据连接 Mysql GuassDB MRS DLI API Files … • BI报表成为一种数据资产,支持直接嵌入到上层SaaS应用中; • 安全性,组织、行、列权限管控,导出权限控制; • “数据驱动业务” 的待办能力(与其他业务模块联动,自组件);
12. 关键技术:动态本体建模,构建企业数字孪生 物 理 特点:物理世界的数字化镜像。 数字 孪生 企业\IOT数字 孪生 本体\语义网\知识图 谱 本体:OWL 挑战:与物理世界互动、仿真&预测、智能决策执行 特点:本体是共享概念模型的明确的形式化 规范说明。语义网提供了一个通用框架,允 许跨应用程序、企业和社区边界共享和重用 数据。 挑战:静态语义表示无法反应快速变化的物 理世界 分类法:RDF-S 数据交换:RDF 特点:数据库\数仓建模,以数据表、 列和主外键外系构建,偏重于特定应 用程序实现 数据库\数仓模型 概念模型(实体-关系图) 挑战:偏重技术实现,无法完整表示 业务流程和对象关系 逻辑模型(关系模型、维度模型) 物理模型 特点:大量、多样性、高速 数据 数 字 结构化数据 (数据库、数据 仓库、ERP) 半结构化数据 (Logs、csv、 json、xml) 非结构化数据 (图像、视频、 音频、文本) 挑战:海量异构数据的管理和 分析 松散类型数据 (IOT) 挑战:传统数据库\数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求 关键技术 • • • • 企业数据接入,各种异构数据源批量、实时接入、数据清洗、融合、监控 动态本体建模、标准建模语言和可视化建模,基于数据+AI模型+业务模型快速构建数字孪生 AI驱动的业务仿真和预测,为业务优化提供决策支持 数字孪生应用构建,3D可视化、智能监控和决策执行控制台,数字孪生与物理世界实时联动
13. 关键技术:基于数字孪生的企业智能决策大脑 数据源 • 自动发现识别数据与模型的 性) • 数据实体的主键属性 • 潜在的脏数据 数据应用 • 基于业务模型的规则定义及融合 • 基于业务模型的AI/ML模型 • 基于业务模型的数据及模型关联 • 业务定义-场景,组织,规范,流程 • 数据模型-行业模型(模型已知) • 数据模型自动识别(模型未知) • 基于动态本体建模的决策流构 建 • 基于业务决策流的执行,监 控,推荐和审计 • 基于决策流的数据双向操作 • 企业运营监控中心 • 基于业务模型驱动的自动决策系统 • 通过开放知识图谱集成外源知识 CRM 匹配(数据源,数据实体及属 ERP HR Data visualization Modern BI Analytical Applications • 基于业务模型的预测 • 基于假设分析 业务仿真模型的优化 (局部优化,全局优化) Search Discovery
14. 华为云数据智能创新LAB 华为云数据智能创新Lab以“数据驱动智能决策”为愿景,专注解决大数据时代数据管理困难、价值变现困难的挑战,我们基于最先进的大数据技术与AI技术,研发一站式的智能数据平台, 帮助华为云以及华为云的企业客户挖掘数据价值、实现数据创新。LAB的研究方向包括下一代大数据技术、智能数据治理、智能可视分析、智能业务仿真与决策等,拥有从学术研究->技术孵 化->云服务研发->运维的全栈能力,对内负责华为。 数据智能创新Lab成立于2018年,研究中心分布在杭州、⻄安和深圳。Lab设有博士后工作站,团队博士学历人才占比25%,研发专家级别占比50%,拥有华为数据智能领域首席专家、天 才少年等众多人才。数据智能创新LAB邀请了浙江大学高云君教授担任技术顾问,与海内外十余所高校有紧密技术合作。华为云数据智能创新Lab与华为内外著名科学家一道联合创新,携手打 破数据领域技术天花板,助力华为商业成功。 华为云架构与技术创新部 智能数据应用构建 专家顾 问委员 会 数据智能创新LAB 智能洞察与决策 企业IDC 本 体 图 谱 研 究 团 队 高 效 数 据 集 成 研 究 团 队 增 强 可 视 分 析 研 究 团 队 低 代 码 应 用 研 究 团 队 智 能 治 理 算 法 研 究 团 队 智 能 数 据 质 量 研 究 团 队 下 一 代BI 研 究 团 队 大 规 模 图 分 析 研 究 团 队 边缘数 据计算 智能数据分析 智能数据交易 智能数据治理 智能数据集成与开发 私有云 各类端 数据智能内核 CDN 数据 计算 数据计算 数据存储 服务器、虚拟机、容器 DC基础设施+数据中心管理 全域 全 栈
15. LAB部分成果 2020年 2022年 10月10日 2019年 2019年 LAB主导上线华为云数据治理 云服务DAYU LAB成立 2020年 第五届大数据产业生态大 会,Lab获得“2020年度大 数据金沙奖” LAB主导上线华为云可视 化云服务DLV 2018年 Lab与清华大学、同济大学、港科 大联合发表的论文被ICDE2023、 CSCW2022、TVCG2022接收并发 表。 华为云数据智能创新Lab孵化 的DataArts升级为华为云数据 使能品牌,成为华为三大使能 品牌之一 2020年 LAB主导推出华为云数据治 理咨询方法论 2020年至今 2021年 Lab先后与北京大学、清华大 学、同济大学、中南大学、浙 江大学、哈工大、建立技术合 作关系;并特邀浙江大学高教 授为LAB科学顾问 Lab与清华大学在ICDE、 VLDB联合发表两篇优质论文 2021年 开始孵化全新的数据平台DII平 台,将LAB的创新技术落地。 目前DII已经是华为内部统一数 据底座平台。 2022年 Lab孵化的数智融合平台单 服务年营收破亿 2022年 Lab孵化的数智融合平台获 得数博会领先优秀成果奖
16. 谢谢,欢迎后续与我们联系与交流 数据智能创新LAB 主⻚ ⻰江联系微信

inicio - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-07-03 10:42
浙ICP备14020137号-1 $mapa de visitantes$