教育知识图谱的概念模型与构建方法研究

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 电化教育研究 DOI:10.13811/j.cnki.eer.2019.08.010 学 习 环 境 与 资 源 教育知识图谱的概念模型与构建方法研究 李 振袁 周东岱 渊东北师范大学 信息科学与技术学院袁 吉林 长春 130117冤 [摘 要] 自适应学习系统是实现个性化学习的重要突破口袁而领域知识建模一直是困扰该系统发展的一大难题遥目 前袁以深度学习尧知识图谱为核心的新一代人工智能技术的回归袁为其提供了新的发展契机遥 文章首先对已有的教育领 域知识建模方法进行了梳理与总结袁对其现存问题进行了对比分析曰在此基础上袁针对通用知识图谱迁移应用于教育领 域所面临的知识粒度模糊尧领域适应性不强两大问题袁构建了一种教育知识图谱概念模型要要 要EKGCM 模型袁该模型包 括知识图示尧认知图式两个层次袁以及知识节点尧知识关联尧认知状态尧学习路径四个基本要素曰然后袁针对图谱构建自动 化程度不高的问题袁文章提出一种基于智能处理技术的构建方法袁具体包括知识元抽取尧前驱后继关系挖掘尧认知状态 诊断尧学习路径生成四个步骤曰最后袁采用理想智慧教育云平台中的教学资源和学习行为数据验证了上述方法的可行 性遥 研究对于开展数据智能驱动的个性化自适应学习具有重要意义遥 [关键词] 教育知识图谱曰 概念模型曰 知识元曰 前驱后继关系曰 认知状态曰 学习路径 [中图分类号] G434 [文献标志码] A [作者简介] 李振渊1989要冤袁男袁山东济宁人遥博士研究生袁主要从事自适应学习系统尧教育知识图谱尧个性化学习路径 推荐等研究遥 E-mail院liz666@nenu.edu.cn遥 一尧引 言 个性化学习是教育改革与发展的永恒主题袁更是 大数据和人工智能时代教育创新发展的重大命题袁而 自适应学习系统是促进个性化学习从理论走向实践 的重要抓手和实践平台袁其核心组件包括学习者特征 模型尧领域知识模型尧适应性引擎三部分 [1] 遥 随着大数 据尧人工智能等技术的迅猛发展袁互联网教育迈向智 能教育新阶段袁教育信息化迈入以人工智能技术为主 要特征的 2.0 时代 [2] 袁以深度学习尧知识图谱为核心的 新一代人工智能技术的回归袁将对个性化自适应学习 系统进行重塑和再造 [3] 遥 知识图谱作为人工智能从感知智能向认知智能变 迁的核心和基础袁 已成为各行各业从网络化向智能化 转型升级的关键技术之一袁 也为个性化自适应学习系 统中的核心和基础问题要要 要领域知识建模提供了新的 [4] 技术手段 遥 叶新一代人工智能发展规划曳明确提出袁要 研究知识图谱构建与学习技术袁 要构建覆盖数亿级知 识实体的多元尧多学科尧多数据源的知识图谱 [5] 遥 在此背 景下袁 构建教育领域的知识图谱成为智能教育发展的 重要研究课题遥 鉴于此袁 本研究以通用知识图谱为基 础袁构建了教育知识图谱的概念模型袁并对其智能化构 建方法进行了研究袁为进一步开展个性化学习尧精准化 教学等智能教育应用提供基础遥 二尧教育领域知识建模研究现状 知识建模源于知识工程领域袁其本质是将知识进 行语义化和结构化表征袁而教育领域的知识建模是将 知识因子有序化和知识关联网络化的过程袁其目标是 使学科知识及学习资源处于有序化状态袁为人工智能 基金项目院2017 年 度 吉 林 省 科 技 发 展 计 划 项 目 野 智 能 移 动 终 端 教 学 软 件 平 台 构 建 的 关 键 技 术 与 应 用 示 范 冶 渊 项 目 编 号 : 20170204001GX冤曰2018 年度教育部人文社会科学研究青年基金项目 野智慧学习环境中精准学习者模型构建研究冶渊项目编号: 18YJCZH169冤 78
2. 2019 年第 8 期渊总第 316 期冤 技术支持下的教育应用提供整序的知识服务遥 目前袁 在自适应学习系统中采用的知识建模方法主要有概 念图尧知识地图尧认知地图尧知识图谱等遥 概念图是采用节点渊概念冤和连线渊概念间关系冤 组织知识的图示化方法袁其理论基础是奥苏伯尔提出 Knewton 公司利用知识图谱构建了包含概念及其先决 关系的跨学科知识体系 [16] 曰Wolfram Research 公司通过 融合 Mathematica 和各垂直网站的知识袁 构建了面向 智能知识检索的知识库引擎 Wolfram Alpha曰 可汗学 院也将知识图谱作为数学尧科学与工程尧计算机等学 的有意义学习理论遥 概念图的构建过程大致可分为四 科课程的基本组织架构遥 在国内袁微软研究院和清华 个步骤院概念抽取尧概念分类尧定位中心概念尧连接交 叉概念 [6] 遥 在应用方面袁概念图既可以用于表达领域知 大学联合发布了野开放学术图谱冶袁百度公司提出要构 建 K12 教育知识图谱袁北京师范大学余胜泉教授团队 适应学习系统中的 LAOS 模型就采用了概念图来对 统 [17] 袁华中师范大学的研究团队开展了基于潜在语义 识袁也可以用于评估学习者对概念的认知状况袁如自 领域知识进行建模 [7] 袁而 Yi-Ting 等人将概念图与多 因素模糊推理相结合来评估学习绩效 [8] 遥 知识地图是对知识及其存在方位的图形化表示袁 是一种面向知识搜索和导航的建模方法遥 知识地图也 经常被用在自适应学习系统中来组织和表征学科知 识及其关联的资源袁 并作为学习者认知加工的支架遥 在知识地图的构建过程中袁需将概念图与包含概念的 知识资源进行链接 [9] 袁该过程主要由教师和教育专家 手工完成 [10] 遥 认知地图是 1948 年由美国心理学家托尔曼提出 的袁其本质是一种通过概念及其因果关系表征个人认 知结构的图式方法遥 在认知地图的教育应用方面袁余 研发了基于育人知识图谱的野AI 好老师冶智能助理系 分析的学科知识图谱构建研究 [18] 遥 综合而言袁知识图谱相比概念图尧知识地图尧认知 地图袁能够表达更加广泛的知识内容以及语义关联关 系 [11-14] 袁而且构建的自动化程度较高遥 但经过文献分析 发现袁当前知识图谱在教育领域的应用尚处于初步探 索阶段袁在知识粒度尧领域适应性尧构建方法等方面仍 存在以下问题院渊1冤知识粒度方面袁现有知识图谱中的 知识节点多用于表示概念尧 知识点抑或现实中的实 体袁其粒度大小模糊袁尚未深入到知识的最小独立单 元要要 要知识元曰渊2冤领域适应性方面袁缺乏教育教学的 针对性和语用情境袁尚未体现出学习者个体对知识认 知程度的差异性袁未能模拟和反应学习者个体认知所 胜泉等人针对在线学习存在的野学习迷航冶问题袁提出 了野学习认知地图冶的解决方案袁但其构建过程主要由 学科专家进行手工编制 [11] 遥 早期的认知地图缺乏概念 及其因果关系的定量描述袁 因此袁Kosko 等人将模糊 集理论融入认知地图之中袁提出了野模糊认知地图冶的 达成的状态曰渊3冤构建方法方面袁构建过程过于依赖学 科专家袁自动化程度不高袁不同专家对同一知识点的 认知偏差使得科学性与一致性难以保证 [19] 遥 概念袁使得认知地图能够从概率角度表示相关概念的 关联程度 [12] 遥 在此基础上袁Konstantina 等人将其运用 于个性化自适应学习系统中来构建领域知识模型袁地 图中的节点表示学习资源所包含的领域概念袁并采用 渊一冤教育知识图谱的概念界定 目前袁对于教育知识图谱这一概念袁学术界还没 有形成统一的定义袁学者们从不同的研究视角对其进 行了阐述袁现有研究大致可分为以下三大类院渊1冤从知 模糊集理论计算概念间的依赖关系及野影响强度冶 [13] 遥 当下学术界谈及的知识图谱主要有两大类院一类 是应用于文献分析的野科学知识图谱冶袁属于信息资源 管理领域曰 另一类是 Google 公司于 2012 年提出的 野大规模知识图谱冶袁属于计算机科学领域 [14] 遥 其中袁 Google 提出的知识图谱渊以下简称野知识图谱冶冤作为 一种新型的尧结构化的语义知识网络袁能够描述现实 世界中的各种实体渊概念冤及其复杂的语义关系袁并能 够实现自动化或半自动化的构建 [15] 袁已成为当前大数 据智能时代的前沿研究方向遥 目前袁 公开的 通用知识 图谱库主 要有 Google Knowledge Graph尧Microsoft Concept Graph尧DBpedia尧 Freebase尧 知立方尧 知心等遥 在教育领域袁 美国的 三尧教育知识图谱的概念模型构建 识组织视角出发袁教育知识图谱可看作一种由知识点 及其语义联系形成的知识网络图 [20] 袁其表征的教育领 域知识既包含个体知识结构袁 也包含群体的智慧 [21] 遥 渊2冤从学习者认知视角出发袁教育知识图谱旨在表达 教学过程中涉及的不同元素以及各类具有教育意义 的认知关系 [22] 袁在知识图谱的基础上叠加学习者对知 识掌握的状态信息袁 能够形成学习者的认知图式 [11] 遥 渊3冤从知识服务视角出发袁教育知识图谱在表征学科 知识和知识关系的基础上袁能够在大数据尧人工智能 等技术支持下形成面向知识学习和能力培养的学习 路径 [23] 曰教育知识图谱也能够将学科知识与教学资源 实体以规范化尧形式化的方式进行语义连接袁从而实 现在线教育资源的有效组织 [24] 遥 79
3. 电化教育研究 综合上述观点袁 本研究认为袁 教育知识图谱 森认为袁认知结构是主体内部的一种动态的尧可变的图 根据其多维语义关系进行关联袁在知识层面和认知层 面上表示学科领域知识和学习者认知状态袁可用于知 构的可视化表征遥认知图式是以知识图示为基础袁通过 对学习者认知状态的诊断尧评测袁以可视化方式进行展 渊Educational Knowledge Graph袁简称 EduKG冤是知识图 谱在教育领域的拓展应用袁 是一种以知识元为节点袁 识导航尧认知诊断尧资源聚合尧路径推荐的知识组织与 现遥认知图式体现了学科知识到个体认知的生成袁是实 认知表征工具遥 渊二冤教育知识图谱的概念模型构建 现基于认知差异的个性化资源推荐与学习路径规划的 基础遥 鉴于知识图谱在教育领域应用中存在的知识粒 度模糊和领域适应性不强两方面的问题袁本研究从结 构和要素两个视角出发袁设计了教育领域知识图谱的 概念模型渊Educational Knowledge Graph Concept Model袁 简称 EKGCM冤遥 如图 1 所示袁EKGCM 模型包括两个 层次尧四个基本要素遥 知识组织 学习路径 1 知识图示 知识导航 学习路径 2 资源聚合 路径推荐 知 识 服 务 认知图式 认知表征 知识节点 知识关联 认知状态 学习路径 认知诊断 2援 模型要素视角要要 要四大基本要素 托尔曼提出的认知地图包括五大要素院标志尧节点尧 道路/路径尧区域尧边界 [27] 遥余胜泉教授提出的学习认知地 图包括知识点内容尧知识点关系尧学习认知状态尧知识关 系权重尧学习路径和服务推荐六个方面的内容 [11] 遥 基于 此袁本研究认为教育知识图谱主要由知识节点尧知识关 联尧认知状态尧学习路径四大基本要素构成遥 渊1冤知识节点 根据联通主义理论袁学习是知识网络结构中知识 节点和知识关系建立和重构的过程 [28] 遥 因此袁可以认 为知识节点和知识关联是教育知识图谱最基本的要 素遥 为细粒度地表征教育领域知识袁本研究引入知识 元作为知识节点的基本单位遥 知识元是表达概念尧方 法尧规则尧公理等知识元素的最小独立单元袁是表征教 1援 模型结构视角要要 要两种图示 认知主义学习理论认为袁学习就是形成内部认知 结构的过程袁学习者通过学习会对某一领域知识在头 育知识图谱知识节点的理想基元遥 渊2冤知识关联 人类知识原本是系统化尧结构化的整体袁但海量尧 异质尧碎片化的数字化学习资源形态割裂了其内在联 系遥 知识关联是重建知识内在固有逻辑结构的关键袁 脑里形成一个内部的认知状态遥 因此袁教育领域的知 识建模既要考虑学科的领域知识袁又要考虑个体差异 化的认知状态遥 余胜泉教授研究团队也指出袁教育知 识图谱应当能够表征教学过程中涉及的不同元素以 是教育知识图谱语义化组织的关键要素袁也是学科领 域知识和个体认知结构可视化展现的基础遥 知识之间 的关联关系复杂多样袁 对教学具有重要作用的关系 有院父子关系尧前驱后继关系尧兄弟关系尧平行关系尧参 渊2冤认知图式 皮亚杰的图式理论认为袁 个体的发展是在同化和 顺应过程中改变认知图式渊结构冤的动态过程 [25] 遥 安德 量化分析袁形成个体的认知图式遥 渊4冤学习路径 野互联网+教育冶时代袁海量的学习资源尧碎片化的 图 1 教育知识图谱的概念模型渊EKGCM冤 及元素间的各类认知关系 [22] 遥 基于此袁本研究采用经典 的分层设计理念袁将认知层置于知识层之下袁形成了 教育知识图谱的两种图示要要 要知识图示和认知图式遥 渊1冤知识图示 知识图示继承了通用知识图谱具有的知识表示尧 传递和共享功能袁能够很好地表征教育领域的学科知 识体系袁是教育领域知识结构的语义化尧图示化组织 方式遥 EKGCM 模型中的知识图示由知识节点和知识 关联组成袁记为 DKG =渊N袁R冤袁其中 N 表示知识节点 集合袁R 表示知识关联集合遥 80 式袁并且可以利用知识图来外显学习者的认知结构 [26] 遥 EKGCM 模型中的认知图式就是对学习者个体认知结 考关系等 [29] 遥 在上述关联关系中袁前驱后继关系是教 师制定教学设计和教学策略的依据袁也是实现知识导 航和学习路径规划的前提遥 渊3冤认知状态 所谓认知状态就是有关学习者对知识的认知水 平以及掌握程度遥 个体的发展是在同化和顺应过程中 改变认知图式的动态过程袁认知图式作为学习者已有 知识经验的网络袁是学科知识结构与学习者个体心理 结构相作用的产物袁由学科知识结构野内化冶而来遥 在 知识图示基础上袁对学习者知识节点的认知状态进行
4. 2019 年第 8 期渊总第 316 期冤 尧词性 尧词长 尧词距离 学习时间尧复杂的学习情境以及师生分离的教学空间 用词 形态袁加剧了学习者的野知识迷航冶和野知识过载冶问 题遥 研究发现袁自适应学习系统中袁如果没有导航性的 等词语级别的统计特征曰语义特征指的是句子级别的 语义特征袁 采用连续词袋模型将句子表示成词向量袁 学习路径支持袁学习者很难达成既定的学习需求和学 习目标 [30] 遥 因此袁结合学习者的认知状态和学习目标袁 为其智能规划和推荐适合的学习路径袁是提升自适应 学习系统个性化服务质量的关键所在遥 EKGCM 模型 中的学习路径是在学习者的认知状态以及知识图示 的基础上袁通过智能优化算法对知识元动态规划与重 组而生成的遥 四尧教育知识图谱的构建方法 在 EKGCM 模型基础上袁本研究提出一种基于智 能处理技术的教育知识图谱构建方法袁具体包括知识 元抽取尧前驱后继关系挖掘尧认知状态诊断尧学习路径 生成四个步骤遥 渊一冤知识元抽取 记为 =渊 语义相似度 量形式院 冤袁并基于词向量计算句子的 袁最终将总体特征表示为如式 1 的向 =渊 袁 袁 袁 袁 渊2冤知识元序列标注 袁 冤渊1冤 假设需要标注的文本序列为 =渊 冤袁即观察序列曰定义 =渊 冤为 上对 应的标注序列袁即状态序列遥 知识元的抽取问题可转 化为院已知观察序列 的条件下袁求解 取最大 值的状态序列袁该状态序列即为知识元抽取问题的标 注结果袁计算方法如式渊2冤所示院 渊 冤= 1 exp Z渊x冤 嗓 移 移 T t = 1 k 渊 瑟 冤 渊2冤 其中袁Z渊x冤表示归一化因子袁 表示特征函数袁 知识元抽取是将教学资源中的概念尧定义尧定理尧 性质尧公式等领域术语提炼出来的过程遥 该问题可以 转化为信息抽取领域中的序列化标注问题渊Sequence Labeling冤袁即对教育资源文本序列中的每个知识元打 上一个标签类别遥 目前袁解决该类问题的方法主要有 表示权重参数遥 在知识元正式标注前袁需采用 BIEO 规范对训练 语料进行编码袁B 代表知识元的首部袁I 代表知识元的 中部袁E 代表知识元的尾部袁O 代表无关词遥 在进行条 件随机场模型训练时袁将前述总体特征向量 作为输 三种院基于词典的识别方法尧基于规则的识别方法以 及机器学习识别方法遥 其中袁前两种方法需要领域专 家和语言学者手工制定词典和规则袁存在耗时尧耗力尧 领域迁移性欠佳等问题袁而基于机器学习的方法能够 实现自动识别遥 入袁通过极大似然估计来实现模型的参数学习遥 其计 算如式渊3冤所示院 条件随机场模型 渊Conditional Random Fields袁简 称 CRF冤 是机器学习领域中的一种判别式概率模型袁 广泛应用于自然语言处理中的分词尧词性标注尧命名 实体识别等序列标注任务袁因此袁可将其应用于知识 元抽取中遥 基于条件随机场模型的知识元抽取过程主 要包括知识元特征选择和知识元序列标注两个步骤遥 渊1冤知识元特征选择 特征选择是知识元抽取的关键袁通过分析袁我们发 现教师在进行教学设计时通常遵循科学性尧 层次性尧条 理性尧思想性的原则袁形成的教学资源具有明显的词法尧 语法特征袁比如院教学设计中的教学目标通常采用野使学 生掌握噎噎知识冶野培养学生噎噎能力冶野通过学习袁能说 出噎噎冶野通过学习袁能理解噎噎冶野通过学习袁能分析归 纳噎噎冶野通过学习袁将形成噎噎冶等语法结构遥 本研究在参考学科词汇表的基础上袁根据学科专 家的指导袁从统计特征和语义特征两方面来定义知识 元的特征遥 其中袁统计特征包括前词 尧后词 尧停 H渊Y|X=x冤= 移 p渊y|x冤窑log渊p渊y|x冤冤 y沂Y 渊二冤前驱后继关系挖掘 渊3冤 如前所述袁前驱后继关系是知识之间最重要的关 联关系袁也是教育知识图谱语义化特征的体现遥 知识 空间理论指出袁前驱后继关系作为知识间的一种自然 依赖而存在袁是形成学习者认知空间的基础 [31] 遥 此外袁 布卢姆等人提出的掌握学习理论也表明院学习者在学 习后续知识之前袁对先决知识的掌握程度必须达到一 定的水平遥 具体来说袁如果知识元 b 依赖于知识元 a 渊即 a 是 b 的前驱冤袁那么学习者在学习知识元 b 之前 需要掌握知识元 a遥 例如院野一元二次方程的一般形 式冶是野一元二次方程求根公式冶的前驱知识元袁学习 知识元野一元二次方程求根公式冶之前袁应掌握其前驱 知识元野一元二次方程的一般形式冶遥 基于上述分析可知袁 当学习者掌握知识元 b 时袁 其前驱知识元 a 也一定被学习者所掌握曰反之袁当学 习者没有掌握知识元 a 时袁其后继知识元 b 就难以学 会遥 这一结论与 Apriori 算法的先验原理是一致的袁该 原理认为院如果某个项集是频繁的袁那么它的所有子 81
5. 电化教育研究 集也是频繁的曰相反袁若一个项集是非频繁的袁则它的 所有超集也是非频繁的遥 因此袁本研究提出基于学习 者测评数据袁 并结合 Apriori 关联规则算法来自动挖 掘前驱后继关系遥 从关联规则挖掘的角度来看袁前驱 后继关系可以表示为院 渊 冤是一个概率值袁表示连续 其中袁 间窗口内学习者的认知状态曰 和 学习者答题过程中的失误率和猜测率遥 教育知识图谱 渊4冤 渊三冤认知状态诊断 目前袁 认知状态诊断所采用的主要模型包括 DINA尧DINO尧NIDA 等袁 但这些模型在整个评估过程 中是静态的袁并且潜在状态是高阶的袁因此袁需要估计 大量的参数也不能动态变化 [32] 袁这导致学习者知识与 技能的可视化表示尧基于诊断结果的适应性支持效果 都会降低 [33] 遥 而根据心理学和教育测量学的观点袁学 习者对于知识元的认知状态或掌握程度通常被视为 一种潜在变量袁一般需要借助学习者测评过程中的外 在行为对其进行估测遥 在机器学习领域袁隐马尔可夫 模型是一种能够描述不可观测变量或隐藏变量的时 序概率模型袁因此袁本研究采用该模型对学习者的认 知状态进行诊断遥 如图 2 所示袁该诊断过程以教育知识图谱中的知 识图示为基础袁结合学习者在测评过程中的答题行为 进行诊断遥 假设学习者依据知识图谱进行个性化学习 时遵循马尔科夫过程袁即学习者在 t+1 时刻的认知状 态只与其 t 时刻的认知状态有关袁而与之前的认知状 态无关遥 基于此袁可以得到学习者认知状态随时间的 82 题库 Question2 之 间 的 关 系 强 弱 用 支 持 度 渊Support冤 和 置 信 度 系的知识元 a 和知识元 b 共同出现时的概率曰置信度表 示在知识元 a 出现的情况下袁知识元 b 出现的概率遥 分别表示 Question1 其中 s a 和 s b 分别表示学习者掌握了知识元 a 和 b袁 s a 和 s b 分别表示学习者尚未掌握知识元 a 和 b遥 知识元 渊Confidence冤来定义袁其中袁支持度表示具有前驱后继关 个时 Question3 隐藏层 渊认知状态冤 学习率 遗忘率 观察层 渊答题行为冤 隐 马 尔 可 夫 模 型 图 2 教育知识图谱中的认知状态诊断过程 渊四冤学习路径生成 学习路径生成的本质是根据学习者的学习目标和 认知状态对待学习的知识元进行排序的过程遥 按照学 习路径生成的方式袁 可将其分为学习者自主控制式学 习路径尧 教师引导式学习路径以及算法生成式学习路 径三种类型遥 随着大数据尧人工智能技术的发展袁算法 生成式学习路径正在被越来越多的学者所关注袁 如基 于 AprioriAll 算法来自动生成个性化的学习路径 [30] 遥 目前袁在线学习系统中已有的算法生成式学习路 径主要考虑学习风格和学习情境两方面的因素袁大多 忽略了学习者的认知结构与知识的内在依赖关系袁而 理想的学习路径生成需要建立在学习者已有认知状 态以及知识拓扑结构基础上遥 Knewton 公司在知识图 谱领域的初步尝试也表明袁知识图谱所承载的在线学 习路径更能精准匹配学习者的个性化学习需求 [16] 遥 学习路径生成问题可以描述为院在已知学科知识 元及其拓扑关系尧学习者的学习目标及先验知识结构 转移概率公式院 = 伊渊1- 冤+渊1- 冤伊 渊5冤 其中袁 表示 t+1 时刻学习者对知识元 的 认知状态袁 和 分别表示学习者对知识元的 遗忘概率和学习概率遥 此外袁学习者在诊断过程中存在失误或猜测的可 能袁 也存在单一时刻作答反馈不确定和随意性等问 题袁因此袁应综合考虑学习者的认知能力以及失误概 率和猜测概率等认知属性袁并采用滑动样本窗口的方 法来提升认知状态诊断的效果袁最终可将学习者对知 前提下袁对学习者待学习的知识元进行排序袁生成覆 盖目标知识元的优化序列遥 基于前面的研究工作袁本 研究提出了基于知识图谱的学习路径生成机制袁如图 3 所示遥 该学习路径生成机制主要包括三个阶段院渊1冤先 验知识子图生成阶段遥 基于学习者观看视频尧参与社 区互动以及在线测评等行为数据袁采用前文所述的隐 马尔可夫模型对学习者的认知状态进行测量袁结合知 识图谱中知识元之间的前驱后继关系袁构建学习者的 先验知识子图遥渊2冤学习目标子图生成阶段遥学习目标 识元的认知状态表示为院 渊 冤= 渊 冤 伊渊1 - 子图是由学习者待学习的知识元及其前驱后继关系 组成的子图袁即将知识图谱所有节点集合 A 与学习者 先验知识子图中的节点集合 B 进行差集运算渊集合 A 冤 +渊1 - 冤伊 渊6冤
6. 2019 年第 8 期渊总第 316 期冤 减去集合 B冤遥 渊3冤学习路径生成与优化阶段遥 对学习 FudanNLP遥 而后袁由三名学科专家根据公认的宾州中 习的知识元排成线性序列袁 形成学习路径候选集曰而 范袁采用文本标注工具 BRAT [34] 对教学资源中的知识元 目标子图进行拓扑排序袁将学习目标子图中所有待学 后袁综合考虑知识元中心度尧学习难度以及前驱后继 关系袁采用单源最短路径算法尧蚁群优化算法对学习 及其语义关系进行部分标注袁 以此作为模型的训练数 据遥 渊二冤实验过程与结果 路径进行优化遥 知识图谱 文树库渊Penn Chinese Proposition Bank袁PCTB冤标注规 先验知识子图生成阶段 学习目标子图生成阶段 1援 基于条件随机场模型的知识元抽取实验 在上述预处理基础上袁将文本以句子为单位进行 分割袁并转换成 BIEO 标注体系遥 为了充分评价模型 的性能袁本实验将数据集按照 8 颐 2 的比例随机分成训 练集和测试集遥 训练时袁数据集的比例从 10%逐渐增 加到 90%袁并选用 F1 值渊F1-Score冤作为模型的评价 学习路径生成与优化阶段 学习路径候选集 拓扑排序 单源最短路径算法尧 蚁群优化算法等 图 3 基于知识图谱的学习路径生成机制 五尧实验设计与结果分析 渊一冤实验数据采集与预处理 数据是知识图谱构建的基础袁教育知识图谱构建 的数据源大致可分为两类院渊1冤 教育大数据中海量的 数字化教学资源遥 教学资源作为知识的载体袁是生成 教育知识图谱中知识图示的重要依据袁主要包括电子 教材尧教学设计尧网络课件尧试题试卷等文本资源遥 渊2冤 教育大数据中的学习行为数据袁具体包括学习者观看 视频尧参与社区互动以及在线测评的行为数据袁学习 行为数据是认知状态诊断所依赖的数据源遥 1援 实验数据采集 本研究采用的数据来源于理想智慧教育云平台 渊http://www.edusoa.com/冤袁该平台集教学尧管理尧研训等 功能于一体袁 积累了海量的教学资源以及学习行为数 据遥目前袁平台拥有各学科的电子教材尧教学设计尧网络 课件尧试题试卷等教学云资源约 80TB袁基于 xAPI 规范 采集的在线学习行为数据约 60GB/天遥 本研究以初中 数学学科为例袁从云资源中提取该学科的教学设计尧试 题尧试卷等文档共计 5500 份袁并从平台采集的学习行 为数据中随机抽取了 30 名初中生作为研究对象遥 2援 实验数据预处理 教育领域大量的教学设计尧试题试卷等数字化教 学资源属于半结构化或非结构化文本袁因此袁需要对 这些文本进行中文分词尧词性判别尧去除干扰词等预 处 理 工 作 袁 采 用 的 工 具 包 括 Jieba尧ICTCLAS尧 指标遥 本研究使用 CRF++工具进行知识元抽取袁采用了 两种特征模板院模板 1 的特征包括前词 Pre尧后词 Suf尧 停 用 词 Stop尧 词 性 POS尧 词 长 Wordlen尧 词 距 离 Distance尧语义相似度 Simi曰模板 2 在此基础上增加了 领域词典遥 在研究样本中共提取到知识元 781 个袁F1- Score 值随测试数据集的变化曲线如图 4 所示遥 从图 中可以看出袁随着训练集的增加袁模型的精准度逐渐 上升袁表明训练语料的大小对模型具有重要影响遥 此 外袁特征模板 2 相比模板 1 的效果更好袁表明融入领 域词典的预测效果更佳遥 图 4 F1-Score 值随测试数据集变化的曲线 2援 基于 Apriori 算法的前驱后继关系挖掘实验 对于知识元前驱后继关系的挖掘袁采用的实验数 据主要是理想智慧教育云平台中初中数学学科的微 测数据和总测数据袁 微测数据由小节或单元练习产 生袁总测数据记录了期中或期末的测评结果遥 为验证机器标注的效果袁 本研究聘请了两位学 科专家对机器标注的关系进行人工确认袁 并采用 Kappa 统计量对机器标注与专家标注的结果进行一 致性分析袁这里的野一致冶是指两位学科专家对知识 元 a 和知识元 b 之间关系的标注结果都与机器标注 结果一致遥 Kappa 统计量是一种比较两个或多个观测者对 83
7. 电化教育研究 表 1 初中数学部分知识元之间的关系表 知识元 关联的知识元 知识元 关联的知识元 K0111院实数 K0101渊数轴冤 K0211院单项式 K0012尧K0121 K1121院整数 K0111尧K0112 K1213院整式运算 K0121尧K0211尧K1212 K0113院无理数 K0111 K0123院二次根式 K0121尧K0122 K0112院有理数 K0111 K1122院分数 K0111尧K0112 K0115院运算定律  K1212院多项式 K0114 K1232院二次根式性质 K0111 K1234院同类二次根式 K0114院实数运算 K0111尧K0115 K0121院整式 K0012尧K0012 K0012院代数式 K0122院分式 K1223院分式运算 K0012尧K0121 K0012尧K0121 K1221尧K1222 K0123 K1233院最简二次根式 K1235院分母有理化 同一事物的两次或多次观测结果是否一致的方法 袁 Kappa 值介于 0~1 之间遥 一般认为袁若 Kappa 值大于 0.75袁则说明一致性程度较好遥 本实验采用 SPSS 交叉 [35] K1236院二次根式运算 K0123 K0123 K0123 K1232尧K1233尧K1235 表操作计算出的 Kappa 值为 0.843袁因此袁可以认为本 研究提出的关系挖掘方法与专家标注的结果具有较 高的一致性遥 表 1 所示为初中数学学科部分知识元关 系挖掘的结果遥 3援 基于隐马尔可夫模型的认知状态诊断验证实验 本实验以实数知识点的测评数据作为案例对前 文所述的认知状态诊断方法进行验证袁 数据集包含 30 名学生在 120 个测验题目上的作答反应遥 表 2 展 示了部分测验题目与知识元之间的对应关系袁以及学 生在相应题目上的作答结果遥 其中袁表格中的 1 代表 题目考察了相应的知识元袁0 代表题目没有考察相应 的知识元遥 表 2 初中数学部分知识元测验结果表 题目 实数定义 有理数 无理数 Q1 1 0 1 Q3 0 0 1 Q2 ... Q120 0 ... 0 1 ... 0 0 ... 0 ... 实数开方 作答反应 ... 0 ... 0 ... ... ... Correct 0 Incorrect ... ... 1 Correct Incorrect 实验采用 Python 版本的 hmmlearn 库 [36] 袁实现了 基于隐马尔可夫模型的认知状态诊断方法遥 参数设置 方面袁知识的遗忘概率尧学习概率尧失误率和猜测率都 初始化为 0.1袁 并采用最大期望算法对隐马尔可夫模 型进行参数估计袁实验终止条件为似然值不再变化或 达到迭代上限次数渊1000 次冤遥 图 5 呈现了某学生的 认知状态诊断报告单袁从诊断报告中能够清晰地看出 该生在各个知识元上的掌握概率以及与全体学生平 均水平的对照情况遥 根据该诊断报告袁教师或个性化 自适应学习系统能够开展有针对性的补救教学遥 84 图 5 090 号学生的认知状态诊断报告单 4援 学习路径生成机制验证实验 为验证路径生成机制的有效性袁本实验以随机抽 取的 30 名初中学习者为研究对象袁 对其 2 个月的学 习过程数据进行了分析袁具体分析步骤如下院渊1冤以学 习者的编号为基础对其学习记录进行分组袁并按时间 顺序对学习记录进行排序袁 从而形成知识元学习序 列遥 渊2冤去除学习者在连续时间内重复学习同一个知 识元的学习记录袁仅保留最后一条学习记录遥 渊3冤从去 重后的数据记录中提取出学习者实际的学习路径 遥 渊4冤以学习路径 中最后一个知识元为学习目标袁根 据学习者的先验知识子图袁采用蚁群优化算法自动生 成学习路径 遥 渊5冤比较每个学习者实际学习路径 与自动生成的学习路径 上的知识元顺序袁 相同的 次数记为 袁不同的次数记为 袁则生成路径的使用 频率可表示为 = /渊 冤遥 依据上述分析过程袁对 30 名学习者使用学习路 径的频率进行统计分析袁结果显示院生成的学习路径 平均使用频率在 75%以上袁 从而验证了基于知识图 谱的学习路径生成机制具有一定的实用性遥 图 6 展 示了平台为 090 号学生生成的一条个性化学习路 径遥
8. 2019 年第 8 期渊总第 316 期冤 的瓶颈问题遥 本文以知识图谱为切入点袁针对通用知 识图谱迁移应用于教育领域所面临的知识粒度模糊尧 领域适应性不强尧构建自动化程度不高等问题袁从结 数与 代数 构和要素两个视角构建了其概念模型袁提出了一种基 于智能处理技术的构建方法袁为基于知识图谱的自适 应学习系统开发和实现奠定了基础遥 但本文的研究仍 存在以下两个方面的不足之处院渊1冤 从人工智能的发 展趋势来看袁人机协同的混合智能将成为新的研究热 点袁因此袁如何通过人机协同袁将学科专家尧教育技术 专家等人类智慧与智能处理技术相融合袁构建更加适 图 6 合个性化学习尧 精准教学等教育情境的知识图谱袁还 有待进一步深入研究遥 渊2冤现有自适应学习系统中的 090 号学生的学习路径生成图示 六尧结 语 领域知识建模是构建个性化自适应学习系统的 关键和基础袁也是该系统研究和发展过程中长期面临 领域知识建模主要面向可编码尧 可量化的显性知识袁 但没有考虑隐性知识 [37] 袁因此袁如何利用知识图谱对 学习过程中的隐性知识进行表示和建模袁将成为未来 教育知识图谱研究和发展的重点内容遥 [参考文献] [1] 高虎子袁周东岱. 自适应学习系统学习者学习风格模型的研究现状与展望[J]. 电化教育研究袁2012渊2冤院32-38. [2] 李振袁周东岱袁刘娜袁等. 人工智能应用背景下的教育人工智能研究[J]. 现代教育技术袁2018袁28渊9冤院19-25. [3] 牟智佳. 野人工智能+冶时代的个性化学习理论重思与开解[J]. 远程教育杂志袁2017袁35渊3冤院22-30. [4] 刘春雷. 基于本体的教育领域学科知识建模方法研究[D]. 重庆院重庆大学袁2008. [5] 国务院. 国务院关于印发新一代人工智能发展规划的通知 [EB/OL].[2018-12-14].http院//www.gov.cn/zhengce/content/2017-07/20/ content_5211996.htm. [6] 赵呈领袁杜静袁万力勇袁等. 知识组织技术与方法的研究及其应用[J]. 中国电化教育袁2014渊4冤院77-86. [7] 黄伯平袁赵蔚袁余延冬.自适应学习系统参考模型比较分析研究[J]. 中国电化教育袁2009渊8冤院97-101. [8] KAO Y T袁LIN Y S袁CHU C P. A multi -factor fuzzy inference and concept map approach for developing diagnostic and adaptive remedial learning systems[J]. Procedia-social and behavioral sciences袁2012袁64渊1冤院65-74. [9] CASTLES R袁LOHANI V K袁KACHROO P.Knowledge maps and their application to student and faculty assessment[C/OL]//2008 IEEE Frontiers in Education Conference袁New York院Saratoga Springs袁October 22 -25袁2008. [2019 -06 -14].https://doi.ieeecomputersociety. org/10.1109/FIE.2008.4720666. [10] 高燕袁秦志刚. 基于知识地图实现动态学习流建模[J]. 电化教育研究袁2010渊1冤院39-43. [11] 万海鹏袁余胜泉. 基于学习元平台的学习认知地图构建[J]. 电化教育研究袁2017渊9冤院83-88. [12] 张凌袁乔晓东袁朱礼军. 认知地图分析方法研究[J]. 情报理论与实践袁2014袁37渊6冤院34-39. [13] CHRYSAFIADI K袁VIRVOU M. A knowledge representation approach using fuzzy cognitive maps for better navigation support in an adaptive learning system[J]. SpringerPlus袁2013袁2渊1冤院1-13. [14] 冯新翎袁何胜袁熊太纯袁等. 野科学知识图谱冶与野Google 知识图谱冶比较分析要要 要基于知识管理理论视角[J]. 情报杂志袁2017袁36 渊1冤院149-153. [15] 徐增林袁盛泳潘袁贺丽荣袁等. 知识图谱技术综述[J]. 电子科技大学学报袁2016袁45渊4冤院589-606. [16] Knewton. Knewton adaptive learning building the world's most powerful education recommendation engine [DB/OL].渊2013-10-04冤 [2019-02-25].https院//www.knewton.com/wp-content/uploads/knewton-adaptive-learning-whitepaper.pdf. [17] 余胜泉袁彭燕袁卢宇. 基于人工智能的育人助理系统要要 要野AI 好老师冶的体系结构与功能[J]. 开放教育研究袁2019袁25渊1冤院25-36. [18] 孙小欣. 基于潜在语义分析的学科知识图谱构建[D]. 武汉院华中师范大学袁2013. [19] 李振袁周东岱袁董晓晓袁等. 我国教育大数据的研究现状尧问题与对策要要 要基于 CNKI 学术期刊的内容分析[J]. 现代远距离教育袁 85
9. 电化教育研究 2019渊1冤院46-55. [20] 杨开城. 论课程的易理解性与知识建模技术[J]. 电化教育研究袁2011渊6冤院12-16. [21] 崔京菁袁马宁袁余胜泉.基于知识图谱的翻转课堂教学模式及其应用要要 要以小学语文古诗词教学为例[J].现代教育技术袁2018袁28 渊7冤院44-50. [22] 余胜泉袁李晓庆. 区域性教育大数据总体架构与应用模型[J]. 中国电化教育袁2019渊1冤院17-27. [23] 钟绍春袁唐烨伟. 人工智能时代教育创新发展的方向与路径研究[J]. 电化教育研究袁2018袁 39渊10冤院17-22袁42. [24] 张波袁金玉鹏袁张倩袁等. 试论一种新型在线教育资源大数据组织框架[J]. 中国电化教育袁2018渊3冤院41-46. [25] 张丽霞. 野信息技术冶课程教学中挑起野认知失衡冶的策略[J]. 电化教育研究袁2009渊12冤院110-112. [26] 曲兆华. 基于流程图法的高中生良好数学认知结构特征研究[D]. 济南: 山东师范大学袁2018. [27] 孙时进袁王金丽. 心理学概论[M] .上海: 复旦大学出版社袁2012院236-237. [28] 王佑镁袁祝智庭. 从联结主义到联通主义院学习理论的新取向[J]. 中国电化教育袁2006渊3冤院5-9. [29] 肖建琼袁高江锦. 适应性学习系统中知识点本体的研究与构建[J]. 智能计算机与应用袁2013袁3渊5冤院14-19. [30] 姜强袁赵蔚袁李松袁等. 大数据背景下的精准个性化学习路径挖掘研究要要 要基于 AprioriAll 的群体行为分析[J]. 电化教育研究袁 2018袁39渊2冤院45-52. [31] DOIGNON J P袁FALMAGNE J C. Spaces for the assessment of knowledge[J]. International journal of man-machine studies袁1985袁 23 渊2冤院175-196. [32] 李振袁周东岱袁刘娜袁等. 教育大数据的平台构建与关键实现技术[J]. 现代教育技术袁2018袁28渊1冤院100-106. [33] 王珏袁解月光. 基于前概念体系的学习者认知诊断方法研究要要 要以初中物理野力与运动冶主题为例[J]. 电化教育研究袁2017渊9冤院124-130. [34] Brat Contributors. Brat rapid annotation tool[EB/OL].渊2012-11-08冤[2019-06-04].http院//brat.nlplab.org/. [35] 李国辉袁耿辉袁冯静. 课堂教学的专家评价与学生评价一致性分析[J].高等教育研究学报袁2016袁39渊3冤院40-44. [36] Hmmlearn Developers. Hmmlearn user guide [EB/OL].渊2015-05-09冤[2019-06-04].https院//hmmlearn.readthedocs.io/en/latest/. [37] 佩特 窑 约翰内斯袁拉里 窑 拉格斯多姆袁张永胜. 自适应学习院溯源尧前景与误区[J]. 中国远程教育袁2018袁522渊7冤院45-55袁82. Research on Conceptual Model and Construction Method of Educational Knowledge Graph LI Zhen, ZHOU Dongdai (School of Information Science and Technology, Northeast Normal University, Changchun Jilin 130117) [Abstract] Adaptive learning system is an important breakthrough to achieve personalized learning, while domain knowledge modeling is a major problem that has been puzzling the development of that system. At present, the new generation of artificial intelligence technology with deep learning and knowledge graph as the core provides a new opportunity for its development. Firstly, this paper summarizes the existing knowledge modeling methods in the field of education and analyzes the existing problems. On this basis, in view of two major problems faced by the application of general knowledge graph in the field of education, namely fuzzy knowledge granularity and weak domain adaptability, this paper constructs a conceptual model of educational knowledge graph - EKGCM model. That model includes two levels of knowledge representation and cognitive schema, and four basic elements of knowledge node, knowledge association, cognitive state and learning path. Then, in order to solve the problem of low automation of graph construction, this paper proposes a method based on intelligent processing technology, which includes four steps: knowledge element extraction, pre -and -after relationship mining, cognitive state diagnosis and learning path generation. Finally, the above methods are verified with the teaching resources and learning behavior data in an ideal cloud platform of smart education. The research is of great 渊下转第 113 页冤 86
10. 2019 年第 8 期渊总第 316 期冤 the future research and practical application of "AI plus education". [Keywords] Sino-German Science Center; AI + Education; Learning Analytics; Intelligent Education; Interactive AI 渊上接第 86 页冤 significance for the development of personalized adaptive learning driven by data intelligence. [Keywords] Educational Knowledge Graph; Conceptual Model; Knowledge Element; Pre -and -after Relationship; Cognitive State; Learning Path 渊上接第 104 页冤 pay more attention to students' mastery of knowledge points. Among them, learning risk point is the personalized evaluation data that teachers and students are most concerned about; students' cognitive level is positively correlated with their mastery of knowledge points, indicating that the evaluation data is an explicit form of students' internalization of knowledge points. The average evaluation score of UAT test of the tool prototype in different dimensions is 8.834, indicating that the tool has a high overall acceptance and good usability, which lays a foundation for future technical implementation of the tool. [Keywords] Evaluation Data; Personalized Evaluation; Taxonomy of Educational Objectives; Q Matrix Theory; Mastery of Knowledge Points 113

trang chủ - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-30 11:32
浙ICP备14020137号-1 $bản đồ khách truy cập$