基于多层注意力网络的可解释认知追踪方法

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. DOI : 10. 7544 i s sn1000-1239. 2021. 20210997 / 58 ( 12 ): 2630 2644 , 2021 计算机研究与发展 f Compu t e r Re s e a r ch and De ve l opmen t J ou r na l o 基于多层注意力网络的可解释认知追踪方法 , , , 孙建文 1 2 周建鹏 1 2 刘三女牙 1 2 何绯娟 3 唐 云 4 1 ( 华中师范大学人工智能教育学部 2 ( 教育大数据应用技术国家工程实验室( 华中师范大学) 武汉 430079 ) 3 ( 西安交通大学城市学院计算机系 4 ( 华中师范大学心理学院 武汉 430079 ) 西安 710018 ) 武汉 430079 ) ( sun cnu. edu. cn ) jw@c Hi e r a r ch i c a l At t en t i on Ne two rk Ba s e d I n t e rpr e t ab l e Knowl e dg e Tr a c i ng , , , Sun J i anwen 1 2 , Zhou J i anpeng 1 2 , L i u Sannüya 1 2 , He Fe i uan 3 , and Tang Yun 4 j 1 2 ( Facu l t t i i c i a l In t e l l igenc e i n Educa t i on , Cen t ra l Ch i na No rma l Un i v e r s i t y of Ar f y , Wuhan 430079 ) ( Na t i ona l Engi ne e r i ng Lab o ra t o ry f t i ona l Big Da t a ( Cen t ra l Ch i na No rma l Un i v e r s i t o r Educa y ), Wuhan 430079 ) 3 ( Depar tmen t of Compu t e r , Xi ' an Ji ao t ong Un i v e r s i t t l l ege , Xi ' an 710018 ) y Ci y Co 4 ( Scho o l of Psycho l ogy , Cen t ra l Ch i na No rma l Un i v e r s i t y , Wuhan 430079 ) ed i c t Ab s t r a c t Knowl edge t r a c i ng i s a da t a-d r i ven l e a rne r mode l i ng t e chno l ogy , wh i ch a ims t o pr l e a rne r s 'knowl edge ma s t e r r f u t ur e pe s ed on t he i r h i s t o r i c a l l e a rn i ng da t a.Re c en t l r f o rmanc e ba y o y , wi t h t he suppo r t o f de ep l e a rn i ng a l r i t hms , de ep l e a rn i ng-ba s ed knowl edge t r a c i ng ha s be come a go ob l ems t cur r en t r e s e a r ch ho t spo t i n t he f i e l d.Aimi ng a t t he pr ha t de ep l e a rn i ng-ba s ed knowl edge ‘ ’ , e l s g e n e r a l l v e b l a c k-box a t t r i bu t e s t he d e c i s i on-mak i ng pr oc e s s o r r e su l t s l a ck t r a c i ng mod y ha ov i de h i n t e r e t ab i l i t t i s d i f f i cu l t t o pr i l ue educ a t i on s e r v i c e s such a s l e a rn i ng a t t r i bu t i on pr y , and i gh-va ong c aus e ba ck t r a ck i ng , a Hi e r a r ch i c a l At t en t i on ne two rk ba s ed Knowl edge Tr a c i ng ana l i s and wr ys mode l ( HAKT ) i opos ed.By mi s pr n i ng t he mu l t i-d imens i ona l and i n-dep t h s eman t i c a s soc i a t i on be twe en que s t i ons , a ne two rk s t ruc t ur e con t a i n i ng t hr e e-l aye r a t t en t i on o f que s t i ons , s eman t i c s and r aph a s e s t ab l i shed , whe r e g t t en t i on neur a l ne two rk and s e l f-a t t en t i on me chan i sm a r e e l emen t s i , u t i l i z ed f s t i on r s t i ons r o r que epr e s en t a t i on l e a rn i ng s eman t i c f us i on and que e t r i eve.A r egu l a r i z a t i on o impr ove mode l i n t e r e t ab i l i t s i n t r oduc ed i n t o t he l os s f unc t i on , wi t h wh i ch a t r ade-o f f t e rm t pr y i , ed i c t i ve pe r f o rmanc e and i f a c t o r i s i nco r r a t ed t o ba l anc e pr n t e r e t ab i l i t f mode l.Be s i de s we po pr y o de f i ne an i n t e r e t ab i l i t a sur emen t i ndex f o r t he pr ed i c t i on r e su l t s — f i de l i t i ch c an pr y me y , wh l ua t e t he mode l i n t e r e t ab i l i t i na l l he expe r imen t a l r e su l t s on 6benchma rk t i t a t i ve l pr y.F y , t quan y eva da t a s e t s show t ha t our me t hod e f f e c t i ve l ove s t he mode l i n t e r e t ab i l i t y impr pr y. 收稿日期: 2021 - 10 - 11 ; 修回日期: 2021 - 11 - 16 基金项目: 国家科 技 创 新 2030 新 一 代 人 工 智 能 重 大 项 目 ( 2020AAA0108804 ); 国 家 自 然 科 学 基 金 项 目 ( 62077021 , 61977030 , 61937001 , 61807011 ); 陕西省自然科学基础研究计划项目( 2020JM-711 ); 陕西省教育科学“ 十三五” 规划课题( SGH20Y1397 ); 西 安 交 通 大 学 城市学院课程思政专项研究项目( KCSZ01006 ); 华中师范大学研究生教学改革研究项目( 2020JG14 ) Th i s wo rk wa s suppo r t ed by t he Ma o r Pr og r am o f Na t i ona l Sc i enc e and Te chno l ogy I nnova t i on 2030o f Ch i na f o r New Gene r a t i on j t i f i c i a l I n t e l l i e ( 2020AAA0108804 ), t he Na t i ona l Na t ur a l Sc i enc e Founda t i on o f Ch i na ( 62077021 , 61977030 , o f Ar genc 61937001 , 61807011 ), t he Na t ur a l Sc i enc e Ba s i c Re s e a r ch Pr og r am o f Sha anx i Pr ov i nc e ( 2020JM-711 ), t he Sha anx i Pr ov i nc i a l i enc e Regu l a t i ons “ Th i r t e en t h F i ve-Ye a r ” P l an Pr o e c t ( SGH20Y1397 ), t he Spe c i a l Re s e a r ch Pr o e c t o f Xi ' an Educ a t i on Sc j j J i ao t ong Un i ve r s i t i t l l ege ( KCSZ01006 ), and t he Te a ch i ng Re f o rm Re s e a r ch Pr o e c t f o r Po s t r adua t e s o f Cen t r a l Ch i na y C y Co j g i ve r s i t 2020JG14 ) . No rma l Un y ( 通信作者: 何绯娟( h f i l. x t u. edu. cn ) j @ma j
2. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 2 6 3 1 Ke r d s knowl edge t r a c i ng ; i n t e r e t ab i l i t i e r a r ch i c a l a t t en t i on ; que s t i on s eman t i c ; f i de l i t pr y ; h y y wo 摘 要 认知追踪是一种数据驱动的学习主体建模技术, 旨在根据学生历史答题数据预测其知识 掌握 状 态或未来答题表现 . 近年来, 在深度学习算法的加持下, 深度认知追踪成为当前该领域的研究热点 . 针对 深度认知追踪模型普遍存在黑箱属性, 决策过程或结果 缺乏 可解 释性, 难 以 提 供 学 习 归 因 分 析、 错 因 追 溯等高价值教育服务等问题, 提 出 一 种 基 于 多 层 注 意 力 网 络 的 认 知 追 踪 模 型 . 通 过 挖掘 题 目 之 间多 维 度、 深层次的语义关联信息, 建立一种包含题目元素、 语义和记录等 3 层注意力的网络结构, 利用图注意 神经网络和自注意力机制等对题目进行嵌入表示、 语义融合和记录检索 . 特别是 在 损失 函 数 中 引入 提升 模型可解释性的正则化项与权衡因子, 实现 对 模 型 预 测 性 能 与 可 解 释 强 度 的 调 控 . 同 时, 定 义 了 预 测 结 果可解释性度量指标———保真度, 实现对认 知 追 踪 模 型 可 解 释 性 的 量 化 评 估 . 最 后, 在 6 个 领 域 基 准 数 据集上的实验结果表明: 该方法有效提升了模型的可解释性 . 关键词 认知追踪; 可解释性; 多层注意力; 题目语义; 保真度 中图法分类号 TP391 现规模化教育与个性化培养的有机结合” 是《 中国教 [ ] [ ] [ ] 提 出 DKVMN [ 12 ] , SKVMN 13 , HMN 14 , SAKT 15 , [ ] [ ] [ ] 纵观 认 KQN 16 , GKT 17 , AKT 18 等 一 系 列 新 模 型 . 云计算、 大数据、 人 育现代化 2035 》 的战略任务之一 . 知追踪的整个发展 历程, KT 模型从技术上可分为 3 工智能等技术的发展, 正推动教育从数字化、 网络化 类 [ 8 ] : 基 于 概 率 的 模 型 [ 10 , 19 ] 、 基 于 逻 辑 函 数 的 模 向智能化加速跃升, 智 慧 教 育 成 为 新 一 代 技 术 环 境 型 [ 5 , 20-21 ] 和基于深度学习的模型( 以下称之为深度认 下的教育信息 化 新 范 式 [ 1 ] , 为 突 破 个 性 化 学 习 技 术 知追 踪 模 型) [ 11-12 , 15 , 17 , 22 ] . 深度 学习 具 有 强 大的 拟 合 瓶颈, 实现“ 因材施教” 的千年梦想提供了历史机遇 . 非线性函数和特征 提 取 能 力, 使 其 适 合 用 于 建 模 复 教育情境可计算、 学习主体可理解、 学习服务可定制 杂的认知过程, 相比 于 概 率 类 和 基 于 逻 辑 函 数 的 模 “ 利用现代技术加快推动人才培养模式改革, 实 [ 2 ] , 学 习 主 体 是 型往往具有更高的 预 测 性 能, 尤 其 是 对 于 海 量 数 据 教育系统的核心要 素, 对 学 习 主 体 的 精 准 洞 察 是 开 集其优势更加明显 [ 23 ] . 但 目前大 多数深度认 知 追 踪 展“ 因 材 施 教” 的 前 提 . 认 知 追 踪 ( knowl e dg e t r a c i ng , 模型均采用具有“ 黑盒” 性质的神经网络技术进行建 KT ) 作为一种数 据 驱 动 的 学 习 主 体 建 模 技 术, 在 大 规 模 开 放 在 线 课 程 ( ma s s i ve open on l i ne cour s e s , 模, 使其预测过程或结果的可解释性较差, 难以满足 MOOC )、 智 能 导 学 系 统( i n t e l l i e n t t u t o r i ng s s t em , g y ITS ) 等数字学习平 台 蓬 勃 发 展、 海 量 学 习 过 程 数 据 近年 来, 深 度 认 知 追 踪 模 型 缺 乏 可 解 释 性 的 问 题开始受到研 究 者 的 重 视 . 其中 比 较 有 代 表 性 的工 爆发式增长等多重 效 应 的 加 持 下, 成 为 近 年 国 内 外 作是将注意力机制应用于认知追踪以提升模型预测 是实现个性化 学 习 面 临 的 三 大 挑 战 智能教育领域的研究热点 [ 3-8 ] . 认 知 追 踪 的 思 想 源 于 美 国 著 名 心 理 学 家 [ 9 ] At k i nson , 1995 年 被 美 国 卡 耐 基 梅 隆 大 学 的 Co rbe t t 等人 [ 10 ] 引 入 智 能 导 学 系 统, 并 提 出 贝 叶 斯 教育领域强调归因分析的需求 . 结果的可解释 性 [ 15 , 18 , 22 , 24 ] . 其 基 本 思 想 在 于: 学 生 的 历史答题记录反映 了 当 前 答 题 表 现, 而 不 同 历 史 答 题记录对当前答题 的 影 响 是 不 同 的; 通 过 注 意 力 机 制使模型学习当前题目与历史答题记录的相关性权 认 知 追 踪 方 法 ( Baye s i an knowl edge t r a c i ng , BKT ), 其任务是根据 学 生 过 去 的 答 题 记 录, 对 学 生 重, 从而根据相关 历 史 记 录 的 题 目 信 息 以 及 答 题 情 的知识掌握状态进 行 建 模, 目 标 是 预 测 学 生 答 对 下 用注意力机制的认知追踪模型只关注当前题目与历 一道题目的概率 . 2015 年 , 美 国 斯 坦 福 大 学 的 P i e ch 史记录的浅层相关 性 信 息, 而 忽 略 了 当 前 题 目 与 历 等人 [ 11 ] 首 次 将 深 度 神 经 网 络 技 术 用 于 认 知 追 踪 , 况为模型的预 测 结 果 提 供 一 定 的 解 释 . 但 是 目前 利 史题目之间的 多 语 义 深 层 关 联 . 由 于 这 些 模 型 仅 引 提出 一 种 基 于 循 环 神 经网络 的 深度认 知 追 踪 方法 入题目 技 能 关 系, 只 能 将 模 型 所 学 注 意 力 权 重 归 ( de ep knowl edge t r a c i ng , DKT ), 在 模 型 预 测 性 能 上取得显著 提 升 . DKT 的提出顺应了 人工智能的技 因于题目在技能维度的相似 性 . 然 而, 能 够反 映 当 前 术发展趋势, 吸引了多个领域学 者的研究 兴趣, 先 后 录, 还有其他类型的相似题目, 如 协 同 相 似 [ 25 ] ( 即 从 题目答题 表 现 的 不 仅 仅 是 技 能 相 同 题 目 的 答 题 记
3. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 3 2 学生 题目 交 互 数 据 中 挖 掘 的 相 似)、 模 板 相 似 [ 25 ] 、 难度相似 [ 26 ] 等 . 具体地, 1 ) 将认知 追 踪 问 题 域 中 不 同 类 型 实 体 及 其 关系表示为异质图, 并 从 中 抽 取 对 应 不 同 语 义 的 二 题目之间的深层语义关联可从 2 个层面进行挖 [ ] 部 图; 2 ) 基 于 图 注 意 神 经 网 络 27 构 建 元 素 级 注 意 掘: 1 ) 在哪些语义 维 度 具 有 关 联 以 及 不 同 语 义 维 度 力, 学习不同二部图中题目节点嵌入; 3 ) 利用语义级 关联强度如何; 2 ) 在 特 定 语 义 维 度 由 哪 些 元 素 进 行 注意力将多种语义维度的题目嵌入融合成最终题目 “ 语 义 ” 指 衡 量 题 目 关联以及不同 元 素 的 作 用 如 何 . [ ] 嵌入; 4 ) 基 于 自 注 意 力 机 制 28 构 建 记 录 级 注 意 力, 具有关联的方面, 如“ 具有相同技能的题目是有关联 检索并融合相关历 史 答 题 信 息, 进 而 预 测 当 前 题 目 的” 和“ 具有相同 难 度 的 题 目 是 有 关 联 的” 属 于 不 同 的答对概率 . “ 元素” 指在特定语义 维度 关联 题目的 实 体, 的语义 . 本文贡献主要体现在 3 个方面: 如题目通过技能进行关联, 则技能被称为元素, 题目 1 )针对当前 深 度 认 知 追 踪 模 型 对 预 测 结 果 普 因 此, 为 了 通过学生进行 关 联, 则 学 生 被 称 为 元 素 . 遍缺乏可解释性或仅通过建模题目之间浅层关系提 建模当前题目与历史答题记录的相关性及其多语义 供解释的问题, 提出 了 一 种 通 过 多 层 注 意 力 网 络 挖 深层关联, 提出了一种多层注意力网络, 包含记录级 掘题目多语义深层 关 联 信 息 的 方 法, 能 够 显 著 提 升 注意力、 语义级注意力和元素级注意力, 如图 1 所示 模型对预测结果的可解释性 . ( 相比于其他基于注意力机制的认知追踪模型, 增加 2 )提出了 评 估 认 知 追 踪 模 型 预 测 结 果 是 否 具 了语义级和元素级注意力) . 记录级 注意 力通过 历史 有可解释性的基本 思 想, 由 此 设 计 了 提 升 模 型 可 解 题目和当前题目的向量表示计算历史记录的相关性 释性的损失函数以及预测结果可解释性度量指标 . 权重, 然后按照权重 综 合 历 史 记 录 的 答 题 信 息 对 当 3 )在多个基准数据集上 进行了充 分实 验, 并 与 前答题做预测 . 语义 级 注 意 力 能 够 计算 不同 语义 维 度对题目最终向量 表 示 的 重 要 性 权 重, 并 根 据 权 重 将不同类型的 语 义 信 息 融 合 . 元 素 级 注 意 力旨 在 学 习特定语 义 下 不 同 元 素 反 映 题 目 特 征 的 重 要 性 权 重, 并按照权重将元素信息聚 合到 题目上 . 通过融 合 多层注意力, 不仅 可 以 得 到 哪 些 答 题 记 录 对 当 前 答 题预测具有更高的 权 重 信 息, 还 能 获 得 在 计 算 这 些 权重时哪些语义信 息 起 到 了 更 大 的 作 用, 以 及 在 特 定语义下哪些元素更能反映题目的 特征 . 由此, 可 以 结合多层注意力权重分布对模型完整的决策过程进 行可视化分析与呈现, 详见 3. 5. 1 节决策过程分析 . 基于题目嵌入或注意力机制等相关的认知追踪模型 进行了比较分析, 验 证 了 所 提 模 型 在 预 测 性 能 上 的 有效性以及预测结果的可解释性 . 1 相关工作 1. 1 基于深度学习的认知追踪 目前的深 度 认 知 追 踪 模 型 主 要 包 括 DKT [ 11 ] , [ ] [ ] DKVMN 12 , SAKT 15 及 其 改 进 模 型 . DKT 利 用 循 环神经网络来建模 学 生 答 题 序 列, 并 使 用 高 维 连 续 的隐向量表示认知状态 . 但是, DKT 仅使用题目对应 [ ] 的技能编号作为输入, 忽略了其他题目信息 . EKT 22 , [ ] [ ] [ ] [ ] DHKT 29 , PEBG 30 , GIKT 31 , CoKT 25 等 模 型 在 DKT 的基础上扩展了题目嵌入模块, 利用题目 文 本 信息或题目与学生、 技 能 之 间 的 交 互 信 息 增 强 题 目 表示 . DKVMN 基于记忆网络建模学生答题序 列, 利 用键、 值矩阵分别 表 示 题 目 的 隐 藏 技 能 和 技 能 的 掌 握状态 . 针对 DKVMN 无法 建 模 学 习 过 程 中 长 期 依 [ ] 赖的问题, SKVMN 13 将 LSTM 与 DKVMN 结 合, 提出 HOP-LSTM 机 制 来 解 决 . 针 对 DKVMN 仅 使 用单层记忆 网 络 的 不 足, HMN [ 14 ] 引 入 层 次 记 忆 网 F i 1 Hi e r a r ch i c a l a t t en t i on s t r uc t u r e o f HAKT g. 图 1 HAKT 多层次注意力结构 络分别建模工作记 忆 和 长 期 记 忆, 并 设 计 了 相 应 的 划分机制和 衰 减 机 制 . SAKT 通 过 自 注 意 力 网 络 建 模学生答题序列, 显 式 地 建 模 当 前 答 题 与 历 史 答 题 本文提出一种基于多层注意力网络的认知追踪 模型, 能够为模型的决策过程 和预 测结 果提 供 解 释 . [ ] [ ] 记录的相关性 . RKT 24 和 AKT 18 分别通过引入题目 文本信息、 题目上下 文 信息 等 进 一 步改 进 了 SAKT ,
4. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 2 6 3 3 并基于学到的注意力权重对预测结果进行解释性分 [ ] 哪些部分 . 2017 年, 谷歌团队提出的自注意力机制 28 析 . 总的来说, 当前大多数深度认 知 追 踪模 型在 预 测 更是成为目前 大 规 模 预 训 练 语 言 模 型 的 基 础 . 研究 性能上可取得较好的效果, 但可解释性普遍较低 . 者将注意 力 机 制 用 于 图 神 经 网 络 提 出 了 GAT [ 27 ] , [ ] HAN 39 等图表 示 学 习 模 型, 能 够 学 习 不 同 邻 居 节 1. 2 可解释深度认知追踪 深度认知追踪模型已然成为认知追踪领域的研 点对中心节点的重要性 . 究热点, 其可解释性研究则方 兴未 艾 . 随着 可解释 性 日益成为人工智 能 领 域 的 研 究 热 点 [ 32-33 ] , 认 知 追 踪 2 模 型 领域也越来越关注 模 型 的 可 解 释 性 研 究, 并 形 成 初 步成果 . 根据 解 释 的 对 象, 可 将 相 关 研 究 分 成 2 类: 本节 首 先 对 认 知 追 踪 问 题 进 行 形 式 化 定 义, 介 面向学生认知状态的解释和面向模型预测过程的解 绍相关概念的符号表示, 然后整体描述模型框架, 最 释 . 面向认知状态的解释旨 在显式地建 模认 知 状 态, 后依次介绍模型的各个组成模块以及损失函数 . 即模型内部存在可理解的参数对应每个技能的掌握 2. 1 问题定义 状态( 标量值) . 由 于 深度认 知 追 踪 模 型 均 使 用 隐 向 一方 面, 认 知 追 踪 问 题 域 中 的 多 种 实 体 及 其 关 量表示认知状态, 而向量内部的参 数难 以 解释 . 为 使 系组成了异质图 G = ( E , R ), 其中 E 和 R 分别表示 深度认知追踪模型 输 出 可 理 解 的 认 知 状 态, 目 前 通 实体和关系集合 . 实体主要 包 括学 生、 题目 以 及题 目 常的做 法 是 将 其 与 经 典 的 认 知 诊 断 模 型 结 合 ( 如 的属性标签( 即技 能、 模 板 等), 关 系 主 要 为 学 生 题 [ 34-37 ] IRT 模型) , 其 主 要 方 式 是 将 深 度 模 型 的 输 出 目和题目 属性等 . 通过异质 图 可 以 挖掘 题 目 之 间 的 作为 IRT 模型 的 输 入, 进 而 利 用 IRT 模 型 做 预 测 . 多语义深层关联 . 另一方面, 一 个 学 生 的 答 题 序列 由 由于 IRT 模 型 的 约 束, 深 度 模 型 的 输 出 可 以 对 应 若干时间 步 对 应 的 答 题 记 录 按 照 时 序 关 系 排 列 而 IRT 模型 中 可 解 释 的 参 数 ( 比 如 可 理 解 的 认 知 状 成, 时 间 步 t 的 答 题 记 录 可 以 表 示 为 x t = ( a t ), q t , 度模型已训练好的答题预测模块中的题目嵌入更换 0 表示答 q t 表示题 目 编 号 而 a t 表 示 答 题 正 确 性 ( 错, 在 引 入 题 目 多 语 义 关 联 后, 认 知 追 1 表示答对) . 为技能嵌入并将对 应 题 目 嵌 入 的 部 分 参 数 置 零, 由 踪任务可以被形式化表述为: 已知异质图 G , 当给定 另 外, 一 些 研 究 者 将 深 态、 学生能力、 题 目 难 度 等) . [ 12 , 22 ] 面 向 预 . 学生历史答题序列 X = { x 1 , x 2 ,…, x t -1 } 和 当 前 题 测过程的 解 释 旨 在 解 释 模 型 为 什 么 做 出 这 样 的 预 测 . 目前常用的方法主要是 基于注意力 机制的解 释, 目 q t , 要求预测学生正确回答 q t 的概率, 即 P ( a t = , , ) 1 | G X q t . [ ] [ ] [ ] 包 括 EKT [ 22 ] , 其 SAKT 15 , RKT 24 和 AKT 18 等 . 2. 2 整体框架 此将新的输出 视 为 技 能 的 掌 握 状 态 值 共同点都 是 通 过 计 算 当 前 答 题 与 历 史 记 录 的 相 关 本 文 提出 基于 多 层 注 意 力 网络 的 认 知 追 踪 模 性, 进而解释 模 型 在 预 测 时 关 注 哪 些 记 录 . 然 而, 这 型, 包含 元 素 级、 语 义 级 和 记 录 级 3 层 注 意 力 . 图 2 些模型仅建模题目 之 间 的 浅 层 关 联 信 息, 忽 略 了 题 展示了模型的整体框架, 包括题目嵌入模块、 知识检 本 文 所提 模 型 除 了 运 用 目之间的多语 义 深 层 关 联 . 索模块和答题预测模块 . 自注意力机制建模 答 题 序 列, 还 引 入 了 另 外 2 层 注 首 先, 从 异 质 图 G 中 抽 取 不 1 )题 目 嵌 入 模 块 . 意力机制建模 题 目 之 间 的 多 语 义 深 层 关 联 . 其 优 点 同语义对应的二部图并构建相应的邻接矩阵; 然后, 在于不仅能够挖掘 更 深 层 的 信 息, 而 且 使 模 型 的 整 通过可学习嵌入 层 为 每 个 节 点 生 成 初 始 特 征 向 量; 个预测过程都具备可解释 性 . 除此 之 外, 也有研究 者 接着, 基于图注意 神 经 网 络 分 别 构 建 不 同 语 义 维 度 使用分层相关性传播方法( LRP ) 对认知追踪模 型进 的元素级注意力, 学习不同元素的重要性权重, 并按 行事后可解释分析, 计 算 模 型 输 出 与 输 入 的 相 关 性 照所学权重将邻居元素节点的特征向量聚合到题目 来解释其预测结果 [ 38 ] . 1. 3 基于注意力机制的神经网络 由于 注 意 力 机 制 的 有 效 性, 其 在 涉 及 序 列 建 模 节点得到题目嵌入 . 最后, 利 用语义 级注 意力 学习 不 同语义对题目相关 性 计 算 的 重 要 性 权 重, 并 融 合 不 同语义维度的题目嵌入获得最终题目嵌入 . 的任务中得到广泛应用 . 其基本思想 是: 在预测输 出 基于自 注 意 力 机 制构建 记 录 2 )知识检索模块 . 时, 重点关注 输 入 的 相 关 部 分 . 因 此, 它 在 一 定 程 度 级注意力, 显式地 建 模 当 前 题 目 与 历 史 记 录 的 相 关 上为模型提供了可 解 释 性, 因 为 人 们 可 以 通 过 模 型 性, 并根据相关性 权 重 融 合 不 同 历 史 答 题 信 息 获 得 所学权重理解模型在进行预测时更关注输入数据的 学生状态向量 .
5. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 3 4 F i 2 The ove r a l l f r amewo r k o f HAKT g. 图 2 HAKT 模型框架图 使 用 多 层 感 知 器 ( mu 3 )答题预 测 模 块 . l t i l aye r r c ep t i on , MLP ) 建模题目嵌入和学生状态 向 量的 pe 交互过程并预测当前题目的答对概率 . 2. 3 题目嵌入模块 2. 3. 1 语义抽取 在异 质 图 中, 题 目 间 通 过 不 同 元 素 关 联 隐 含 不 义 Φ 对应二 部 图 中 的 节 点 对 ( i , j )( 其 中 i 表 示 中 心节点, j 表 示 邻 居 节 点), 利 用 注 意 力 机 制 学 习 不 同邻居节点 j 对中心节点 i 的归一化权重 α i Φ j : ( t t n elem ( h i Φ , h j Φ ; 1 ) α i Φ j = a Φ ) 其中, a t t n elem 表 示 元 素 级 注 意 力 权 重 的 具 体 计 算 过 程 . 首先将中心 节 点 i 与 其 所 有 邻 居 j 的 特 征 向 量 同的语义信息, 例如“ 题 目 技 能 题 目” 表 示 具 有 相 各自拼接并通过非 线 性 变 换 求 得 权 重 值; 然 后 通 过 同技能的题目 . 从异质图中选取 4 种关系, 每种关系 其完整的计算过程为 so f tmax 函数将其归一化 . exp ( w ij ) , α i Φ j = exp ( w ik ) 对应一个二部图, 每个二部图对应一个邻接矩阵 . ( 被) 答 对 由 训练 集 学 生 与其 回答 1 ) 学生 ←— — — → 题 目 . 正确的题 目 构 成 的 二 部 图, 隐 含 的 语 义 ( 记 为 U c ) 为: 被同一学生均回答正确的题目是有关联的 . ( 被) 答 错 由 训练 集 学 生 与其 回答 2 ) 学生 ←— — — → 题 目 . 错误的题 目 构 成 的 二 部 图, 隐 含 的 语 义 ( 记 为 U w ) 为: 被同一学生均回答错误的题目是有关联的 . ( 被) 关 联 由 所 有 题目与其 关联 的 3 ) 题目 ←— — — → 技 能 . 技能构成的二部图, 隐含的语义( 记为 S ) 为: 具 有相 同技能的题目是有关联的 . ( 被) 关 联 由 所 有 题目与其 关联 的 4 ) 题目 ←— — — → 模 板 . 模板 构 成 的 二 部 图, 隐 含 的 语 义 ( 记 为 T ) 为: 具 有 相同模板的题目是有关联的 . ∑ Φ k ∈ N i ( 2 ) Φ ]) w ik = σ ( v Φ T ·[ h i Φ ‖ h k 其中, v Φ 是 σ 表示激活函数, ‖ 表 示 向 量 拼 接 符 号, 对应语义 Φ 的 可 学 习 注 意 力 向 量, N i Φ 表 示 节 点 i 的邻居节点集合 . 对于语义 Φ , 按照归一化权重 α i Φ j 聚 合邻居节 点 的特征向量获得中心节点的嵌入 e i Φ : e i Φ = σ ( ∑ α i Φ j h j Φ ) , ( 3 ) Φ j ∈ N i 给定语义集合{ Φ 1 , Φ 2 ,…, Φ P }, 求 得 题 目 i 在 Φ 1 Φ 2 不同语义维度的嵌入{ e i , e i ,…, e i Φ P } . 2. 3 . 3 语义级注意力 为了 求 得 最 终 题 目 嵌 入, 需 要 将 不 同 语 义 维 度 2. 3 . 2 元素级注意力 的题目嵌入进行融合 . 对于 同 一道 题目, 不同 语义 的 在二部图中聚合邻居元素节点的特征向量获取 重要性可能是不同的; 对于不同的题目, 相同语义的 题目嵌入时, 不同邻居的作用是不同的, 因此设计元 重要性也可能是不同的 . 由 此, 提出语义 级 注 意 力 学 素级注意力来学习不同邻居的重 要性 . 首 先, 通过 可 习不同语义对 特 定 题 目 的 重 要 性 . 将 元 素 级 注 意 力 学习嵌入层 生 成 所 有 节 点 的 初 始 特 征 向 量 ( 节 点 i 所学不同语义维度 的 题 目 嵌 入 作 为 输 入, 语 义 级 注 在语义 Φ 下的初始特征向 量记 为 h ) . 然 后, 给 定 语 意力计算不同语义对题目 i 的归一化权重: Φ i
6. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 2 6 3 5 Φ 1 Φ 2 Φ P t t n sem ( e i Φ 1 , e i Φ 2 ,…, e i Φ P ),( 4 ) β i , β i ,…, β i = a 其中, a t t n sem 表 示 语 义 级 注 意 力 权 重 的 具 体 计 算 过 exp ( w i ) , γ i = t- 1 ( ) ∑ exp w k 程 . 首先将不同 语 义 维 度 的 题 目 嵌 入 分 别 进 行 非 线 Q 性变换; 然后将变换 后 的 题 目 嵌 入 与 可 学 习 注 意 力 w i = Φ j i β exp ( w i Φ j ) = P , d ■ 其中, W Q ∈R R d × d 和 W K ∈R R 2 d × d 分 别 是 自 注 意 力 机 最后, 将 历 史 交 互 向 量 按 照 注 意 力 权 重 加 权 求 和, 得到记录级 注 意 力 模 块 的 输 出 向 量 o t ∈R R d , 即 k=1 w i Φ k = v s T em · t anh ( We i Φ k + b ), ( 5 ) 与当前答题相关的学生状态向量: t- 1 其中, W 是权重矩阵, b 是偏差向量, v sem 是语义 级注 意力向量, 均为模型可学习参数 β . i Φ j 越高, 表明 在衡 量题目关联程度时语义 Φ j 的作用更大 . 最后, 按 照 所 求 注 意 力 权 重 将 题 目 β i Φ j 在 不 同 语义维度的嵌入加权求和, 得到题目的最终嵌入 e i : P Φ j Φ j i i e i = ∑ β e . ( 6 ) j=1 2. 4 知识检索模块 通过题目嵌 入 模 块, 可 以 获 得 任 意 一 道 题 目 i 的向量表示 e i . 对于第 t 个 时间 步 的 题 目 嵌 入, 记 为 为了 融 入 答 题 情 况 a t , 将 题 目 嵌 入 e t 与 相 同 d e t . 维的零向量拼接, 获得交互向量 x t ∈R R 2 d : [ e t ‖0 ], a t =1 , [ 0‖ e t ], a t =0. o t = ∑ γ i W V x i , ( 9 ) i=1 其中, W V ∈R R d × d 是 自 注 意 力 机 制 中 va l ue 的 映 射 矩阵 . 2. 4 . 3 前馈层 为了进一步增强特征的交互能力和模型的拟合 能力, 将记录 级 注 意 力 的 输 出 通 过 po i n t-wi s e 前 馈 层进行非线性变换 . 前馈层由 2 个线性变换组成, 中 间包含 ReLU 激活函数, 其计算过程为 2. 4 . 1 交互向量生成 { T 制中 que r y 和 key 的映射矩阵 . , Φ ∑ exp ( w i k ) x t = K ( W e t ) · W x i 向量 v sem 的 内 积 作 为 权 重; 最 后 利 用 so f tmax 函 数 将其归一化 . 语义 Φ j 对题目 i 的权重的计算过程为 ( 8 ) k=1 ( ) ( ) ( ) ( ) h t = W 2 ReLU ( W 1 o t + b 1 ) + b 2 , ( 10 ) ( ) ( ) 其中, W 1 ∈R R d × d 和 W 2 ∈R R d × d 为 可 学 习 权 重 矩 ( ) ( ) 阵, b 1 ∈R R d 和 b 2 ∈R R d 为可学习偏差向量 . 2. 5 答题预测模块 预测模块拟合 知 识 检 索 模 块 的 输 出 向 量 h t 与 ( 7 ) 相比 于 循 环 神 经 网 络, 自 注 意 力 机 制 在 序 列 建 模中具有更好的灵 活 性 和 有 效 性, 且 模 型 内 部 生 成 的注意力 权 重 可 以 为 模 型 预 测 结 果 的 解 释 提 供 基 础 . 因此, 与 SAKT [ 15 ] 一 样, 本 文 使 用 自 注 意 力 机 制 为 了将 答 题交 互 的 相 对 位 置 建模学生的答 题 序 列 . 信息 编 码 进 模 型, 定 义 位 置 嵌 入 矩 阵 P ∈R R l ×2 d 来 题目嵌入 e t 之间的交互函数, 预测 学 生 正 确 回 答 当 前题目的概率 . 使用多层感知器( MLP ) 实现: ( ) -1 ( ) z l eLU ( W l z l + b l ), z t 0 = [ h t ‖ e t ],( 11 ) t = R t ( ( L ) L -1 L ) ( id ( W z t + b ), 12 ) y t = Sigmo 其中, l 表示多层感知器的第 l ∈ { 1 , 2 ,…, L -1 } 层, ( ) ( ) W l ∈R R d × d 和 b l ∈R R d 分别 是 第 l 层 的 权 重 矩 阵 和 偏差向量, y t 是预测概率 . 2. 6 损失函数及改进策略 引入答题序列的位 置 信 息, 在 加 l 为 最 大 序 列 长 度 . 尽管 在 基 于 注 意 力 机 制 的 认 知 追 踪 模 型 中, 相 入位置信息后, 交互向 量 表 示 为 x t = x t + P t , P t 表 关性权重可以为预 测 结 果 的 解 释 提 供 基 础, 但 是 有 示位 置 嵌 入 矩 阵 中 第 t 行, 即 第 t 个 时 间 步 的 位 置 权重并不意味着一定能够产生易于人们理解的解释 嵌入 . 过程 . 例如, 如果模型赋予权重 较 大的 几个 历史 记 录 2. 4 . 2 记录级注意力 的答题情况都是错误( 正 确) 的, 但 是 模 型 却 预 测 当 记录级注意力计算当前题目与历史答题记录的 前题目会答对( 答 错), 那 么 所 学 权 重 就 很 难 对 预 测 相关性权重, 进而 通 过 聚 合 历 史 交 互 向 量 得 到 当 前 结果形成合理 的 解 释 . 由 此 本 文 提出 评估 预 测 结 果 的学生状态向量 . 将 当 前 时 间 步 的 题 目 嵌 入 e t ( t 表 是否具有可解释性 的 基 本 思 想: 模 型 预 测 结 果 与 其 示当前时间步) 映 射 为 查 询 向 量 ( r que y ), 将 历 史 交 所关注历史记录的真实答题结果的一致性反映了预 互向量 x i ( i =1 , 2 ,…, t -1 ) 映 射 为 键 向 量( key ) 和 测结果的可解释性 . 值向量( 计 算 当 前 题 目 与 时 间 步 i 的 历 史 答 va l ue ) . 题记录的注意力权重 γ i : 基于该思想在损失函数中引入可解释性正则化 项, 使得模 型 在 训 练 时 兼 顾 预 测 性 能 和 可 解 释 性 .
7. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 3 6 具体地, 假设模型预测第 t 个时间步的 答题, 历史 答 指标等进行介绍, 然后对各模型预测性能进行对比分 题情况为{ a 1 , a 2 ,…, a t -1 }, 计 算 得 到 前 t -1 个 时 间步的相关性权 重 为{ 将 历史 答 题 γ 1 , γ 2 ,…, γ t -1 } . 析, 最后对模型可解释性分别进行定性和定量分析 . t- 1 情况加权求和得 到 s t = ∑ γ a ,则 s i i t 反 映 了 历史 i=1 记录的综合答题情 况( 在 考 虑 当 前 题 目 与 历 史 记 录 相关性的情况下) . 基于上述评估 预 测结 果可解释 性 3. 1 数据集及对比模型介绍 本文在认知追踪领域 6 个常用的数据集上进行 实 验, 分 别 是 ASS IST09 , ASS IST12 , ASS IST17 , , EdNe t S t a t i c s 2011 和 Eed i. ASS IST 系 列 数 据 集 是 的思想可知: 对 于 当 前 时 间 步 t 的 答 题 预 测, 若 s t 由 ASS ISTmen t s 在 线 辅 导 平 台 收 集,其 中 ASS IST09 是目前认知追踪领域 最 常 用 的 基 准 数 据 与模型预测值 y t 越接近, 则预测结果的可解释 性越 好 . 因此, 本文将模 型 的 损 失 函 数 分 成 2 部 分: 1 ) 旨 集; S t a t i c s 2011 收集于某 大 学 静 力 学 课 程 的 辅 导 系 统; EdNe t 是由在线辅导平台 San t a 自 2017 至 2019 在降低模型预测 值 y t 与 真 实 值 a t 的 二 元 交 叉 熵, 年收集的数据集; Eed i 是 Neur IPS2020 教 育 数 据 挖 掘挑战赛 使 用 的 数 据 集, 由 在 线 教 育 平 台 Eed i 自 提升模型的预测性能; 2 ) 旨在减小模型预测值 y t 与 结果的可解释性 . 同 时 使 用 超 参 数 λ 来 权 衡 模 型 的 2018 至 2020 年收集 . 参照现有研究工作, 本文对数据集进行预处理: 预测性能与可解释性, 则损失函数的整体计算过程: 由于 ASS IST12 , EdNe t 和 Eed i 数 据 集 太 大, 从 中 L = ( 1- λ ) L pred + λ L exp , 随机 抽 取 5 000 名 学 生 的 数 据 进 行 实 验 [ 31 ] . 对 于 历史答题结果加权值 s t 的 根 均 方 差, 提 升 模 型 预 测 L pred =- ∑ ( a log y i i ( 13 ) 1-a i ) l og ( 1-y i )), + ( i ∈ I B ( 14 ) ASS IST 系 列 数 据 集, 删 除 脚 手 架 问 题 关 联 的 记 [ 40 ] 录 . 对于所有数据集, 删除技能标签为空的记录 [ 18 ] . 对于以技能编号而 不 是 题 目 编 号 为 输 入 的 模 型 ( 即 其中, I B 表示一个 批 次( ba t ch ) 中 的 所 有 交 互, | I B | DKT , DKVMN 和 SAKT ), 将一道题目的 多 个 技能 组合成 一 个 新 技 能 作 为 输 入 [ 40 ] . 对 于 S t a t i c s 2011 , 将原题目编号和步骤编号合成新的题目编号作为输 是总交互数, 即一个批次中所 有序列 长度 之和 . 为 了 入, 且对同一题目 连 续 多 次 作 答 的 情 况 只 保 留 第 一 训练模型参数, 使用 Adam 梯 度 下 降 算 法 最 小 化 上 次作答记 录 . 将 80% 的 答 题 序 列 作 为 训 练 集, 其 余 L exp = ( ■ ∑ y i 2 -s i ) / I B , ( 15 ) i ∈ I B [ ] 最 后, 从 测 试 集 中 删 除 训 练 集 20% 作为测 试 集 31 . 中未出现题目 的 相 关 记 录 . 预 处 理 后 数据 集 的 统 计 述损失函数 L . 3 实 验 加载数据时, 删除长度小于 3 的 答 信息如表 1 所示 . 题序列; 同时考虑到运行效 率 问 题, 将 长 度 超 过 200 本节 首 先 对 实 验 所 用 数 据 集、 对 比 模 型 和 评 价 的答题序列拆分成多个长度为 3~200 的序列 [ 18 ] . Tab l e 1 Summa r t a t i s t i c s o f Pr o c e s s e d Da t a s e t s y S 表 1 预处理后的数据集统计信息 数据集 统计指标 ASS I ST09 ASS I ST12 ASS I ST17 EdNe t S t a t i c s 2011 Eed i 学生数 4 160 5 000 1 706 5 002 331 5 000 题目数 15 680 36 056 1 150 11 775 633 26 706 技能数 167 242 86 1 837 106 1 050 模板数 655 5 272 答题总次数 259 105 940 179 248 989 1 658 820 112 921 751 989 语义 U c 对应二部图中边的条数 137 403 505 958 79 096 773 164 70 143 380 968 语义 U w 对应二部图中边的条数 70 256 211 230 74 228 383 090 20 990 216 156 语义 S 对应二部图中边的条数 189 370 36 056 1 150 26 345 733 29 464 语义 T 对应二部图中边的条数 15 680 36 056 每道题目的平均回答次数 16. 5 26. 1 216. 5 140. 9 178. 4 28. 2 每个技能的平均练习次数 1 551. 5 3 885. 0 2 895. 2 903. 0 1 065. 3 716. 2
8. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 由于 本 文 所 提 模 型 结 合 题 目 嵌 入 和 注 意 力 机 制, 因此为了验证 模 型 在 预 测 性 能 和 可 解 释 性 方 面 的有效性, 本文从 3 方面选取对比模型: 经典类模型 2 6 3 7 1 I ( t ), n ∑ 1 , | s t - y t |≤ θ , Fide l i t y = ( 16 ) 0 , | s t - y t |> θ , 其中, n 表示总预测次数, 即测试集 中 所 有 序列 长度 [ ] 其中, AKT 18 ) . DKT 和 DKVMN 分 别 使 用 循 环 神 之和 . Fide l i t y 越大, 表明模型可解释性越好 . 经网络和键值记忆 网 络 建 模 学 生 序 列, 是 深 度 认 知 I ( t ) = { [ ] [ ] [ ] ( DKT 11 , DKVMN 12 )、 题目嵌入类模型( DHKT 29 , [ ] [ ] [ ] PEBG 30 , GIKT 31 ) 和 注 意 力 类 模 型 ( SAKT 15 , 3. 3 实验设置 追踪方向目前最常 用 的 2 个 基 准 模 型, 其 均 以 题 目 对于对比 模 型: PEBG ① 和 GIKT ② 的 官 方 代 码 对应的技能 编 号 作 为 输 入 . DHKT , PEBG 和 GIKT 均从网上获取, 其 余 模 型 代 码 根 据 其 论 文 描 述 进 行 是目前预测性能较好的基于题目嵌入的深度认知追 复现 . 其中, PEBG 公开 代 码 中 在 计 算 题 目 属 性 值 时 踪模型, 均以题目 技能关系挖掘题目相似性并 学习 使用了测试集数据, 存在数据泄露的问题, 因此在本 题目嵌入, 再 结 合 DKT 或 DKVMN 做 预 测 . SAKT 文中使用修正 后 的 版 本 . 所 有 对 比 模 型 的 超 参 数 或 和 AKT 均基于 自 注 意 力 机 制, SAKT 使 用 技 能 编 者采用其论文中的最佳设置, 或者在验证集( 训练集 号作为输入, AKT 以题目编号作为输入并结合 Ra s c h 的 10% ) 上进行最优超参数搜索 . 本文模型 HAKT ③ 模型和答题序列的上下 文信息学习题目 嵌入 . SAKT 部分超参数设置为: 题目嵌入模块中, 题目嵌入维度 和 AKT 均只有记录级注意力, 本文模型则进一步扩 为 128 , 图注意力网 络 的 注 意 力 头 数 目 为 4 ; 知 识 检 展了语义级注意力和元素级注意力, 用于建模多语义 索模块中, 知识状态向量维 度 为 128 , 自 注 意 力 网 络 深层关联以增强模型 可解 释 性 . 除 了 上 述 对 比 模 型, 的注意力头数目为 8 ; 答题 预测 模 块 中, 多 层 感 知 机 本 文 还 将 输 入 技 能 编 号 的 DKT , DKVMN 和 SAKT 层数为 2 、 中间层维度为 128 ; 在模型训练阶段, 学习 分别拓展为输入题目编号的 DKT-Q , DKVMN-Q 和 率设为 0. 其 余 超 参 数 001 , 批 大 小 ba t ch s i z e =32. SAKT-Q. DKT-Q 与 DKT 的 不 同 之 处 仅 在 于 输 入 ( 包括解释性正则化项权衡 因 子 λ ) 在不同数据 集 取 部分由独热编码换成 可 学 习 嵌 入 层, 而 DKVMN-Q 值不一, 均通过超参数搜索 确 定 . 另 外, 2. 3. 1 节 中 介 和 SAKT-Q 在结构上未作改动 . 由 绍的 4 种语义( U c , U w , S , T ) 并 非 全 部 用 于 实 验 . 3. 2 评价指标 于数据集特征( 如 除 了 ASS IST09 和 ASS IST12 , 其 3. 2. 1 预测性能评价指标 他数据集不包含“ 模板” 特征, 对应语义 T ) 以及 数据 认 知 追 踪 任 务 可 以 看 成 是 一 个 二 值 分 类 问 题, 分布差异, 其对应的最佳语义 组 合 是不同 的 . 通 过实 即预测题目回答的正确性( 正确或错误) . 因此, 参照 验确定每个数据集的最佳语义组合为 ASS IST09 和 绝大多数现 有 研 究 工 作, 本 文 使 用 AUC 作 为 衡 量 ASS IST12 : S&T , 其余数据集: U c & U w & S . 模型预测性能的指标 . 3. 4 预测性能分析 3. 2. 2 可解释性评价指标 为了进 一 步 量 化 模 型 的 可 解 释 性, 基 于 2. 6 节 表 2 展示了各 个 模 型 在 6 个 数 据 集 上 的 AUC 值( 取 5 次重复实验的均值) . 分析表 2 数据可得: 模型在输出结果上 多 大 程 度 上 与 复 杂 模 型 相 近, 被 1 ) 对 比 以 技 能 编 号 为 输 入 的 模 型 DKT , DKVMN , SAKT 及其 对 应 的 以 题 目 编 号 为 输 入 的 变体 模 型 DKT-Q , DKVMN-Q , SAKT-Q 发 现, 仅 广泛用于度量 机 器 学 习 模 型 的 可 解 释 性 [ 33 , 41 ] . 首 先 输入题目编号或仅输入技能编号的模型均不能稳定 定义可解释的预测结果: 对于时间步 t 的预测, 若模 地占有优势 . 以 DKT 和 DKT-Q 为例, 在 ASS I ST17 , 型预测结果 y t 与历史答 题 情 况 的 加 权 值 s t 的 差 距 小于等于指 定 阈 值 θ , 则 认 为 该 预 测 结 果 是 可 解 释 EdNe t 和 S t a t i c s 2011 这 3 个 数 据 集 上, DKT-Q 显 著优于 DKT , 而 在 其 他 3 个 数 据 集 上 则 相 反 . 其 原 的, 否则认为 不 可 解 释 . 进 一 步 定 义 保 真 度: 在 所 有 因是这 3 个数据集中题目的平均交互次数明显更少 的预测结 果 中, 可 解 释 的 预 测 结 果 所 占 的 比 例 . 因 ( 参照 表 1 ), 表 明 学 生 题 目 的 交 互 数 据 很 稀 疏, 从 此, 保真度的计算: 而导致以题目编号为输入的 DKT-Q 表现更差 . 关于预测结果可解 释 性 评 估 的 基 本 思 想, 提 出 可 解 保真 度 指 可解释 释性度量指标: 保 真 度 ( Fide l i t y ) . t t i t hub. c om / l f-1 ① h / / / PEBG ps : g y t t i t hub. c om / Rimoku ② h / / / GIKT ps : g t t i t hub. c om / ohn1226966735 ③ h / / / HAKT ps : g j
9. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 3 8 Tab l e 2 Pr e d i c t i on Pe r f o rmanc e on 6Da t a s e t s 表 2 在 6 个数据集上的预测性能比较 数据集上的 AUC 值 模型分类 模型名称 ASS I ST09 ASS I ST12 ASS I ST17 EdNe t S t a t i c s 2011 Eed i DKT 0. 767 6 0. 730 5 0. 718 6 0. 701 5 0. 840 3 0. 762 4 DKT-Q 0. 714 1 0. 705 0 0. 754 1 0. 736 7 0. 885 3 0. 740 2 DKVMN 0. 776 2 0. 722 0 0. 715 9 0. 684 6 0. 835 0 0. 746 6 DKVMN-Q 0. 683 1 0. 693 6 0. 736 4 0. 733 8 0. 862 5 0. 667 6 DHKT 0. 769 9 0. 755 8 0. 766 1 0. 765 8 0. 873 8 0. 791 1 PEBG 0. 770 7 0. 752 0 0. 761 2 0. 763 7 0. 834 1 0. 776 1 GIKT 0. 785 9 0. 759 4 0. 772 3 0. 764 0 0. 890 7 0. 788 1 SAKT 0. 757 7 0. 726 2 0. 707 7 0. 689 5 0. 825 2 0. 748 6 SAKT-Q 0. 749 4 0. 738 2 0. 752 5 0. 760 3 0. 864 9 0. 778 9 AKT 0. 788 8 0. 766 5 0. 762 0 0. 764 7 0. 871 8 0. 789 0 HAKT 0. 790 2 0. 767 7 0. 766 5 0. 761 9 0. 883 4 0. 784 5 经典类 题目嵌入类 注意力类 注: 最优模型由黑体数字标记, 次优模型由下划线标记 . 2 )通过题目 技能关系同时引入题目和技能信 息的模型( 即 DHKT , PEBG , GIKT , AKT 和 HAKT ) 3. 5 可解释性分析 3. 5. 1 决策过程分析 总体上比上述仅使用技能信息或仅使用题目信息的 HAKT 能够通 过 其 内 部 计 算 的 注 意 力 权 重 分 模型预测 性 能 更 好 . 以 DKT , DKT-Q 和 DHKT 为 布对预测过程 和 结 果 提 供 可 解 释 性 分 析 . 相比 基于 例, DHKT 在 6 个 数 据 集 上 的 AUC 均 值 分 别 比 单层注意力机 制 的 模 型 ( 如 EKT , RKT , AKT 等), 这 DKT 和 DKT-Q 高 3. 3 个百分点和 3. 1 个百分点 . HAKT 整合多层 注 意 力 的 权 重 分 布 能 够 生 成 更 精 说明, 通过同时引入题目和技能信息, 保留题目之间 确、 完整 的模 型决策 过 程 . 具 体 地, HAKT 不仅 能 检 的差异性和相似性, 能够使模型的预测更准确 . 索出哪些历史题目 与 当 前 题 目 关 联, 还 能 得 到 它 们 3 )本文 模 型 HAKT 在 SAKT 的 基 础 上 扩 展 题目嵌入模 块, 相 比 SAKT 取 得 了 显 著 的 提 升, 并 是如何进行关联的 . 通过案例来分 析 HAKT 的可解 释性 . 且总体上也略优于 其 他 基 于 题 目 嵌 入 的 模 型, 尤 其 从测试集中随机选 择 一 名 学 生 ( 记 为 u 1 ), 图 3 是 DHKT 和 PEBG. 这 表 明, 相 比 于 后 者 单 纯 引 入 对模型预测学生回答第 20 道题目( 即 q 20 ) 时生成的 技能维度关联, HAKT 通过引入题目的 多语义 关联 多层注意力权重分布以及题目之间的关联图进行可 使得模型可以更 准 确 地 挖 掘 题 目 之 间 的 语 义 关 系, 视化 . 为了方便展示, 仅呈现 权重 较 大的部 分 历史 题 从而学到更优的题目嵌入 . 在 ASS I ST09 和 ASS I ST12 目( 即 q 18 和 q 19 ) 及 权 重 较 大 的 部 分 相 关 语 义 ( S 表 数据集上 HAKT 表 现 最 佳, 其 他 数 据 集 上 与 最 优 示技能维度, U c 表示 学 生 维 度) 和 元 素 ( 如 s 1 和 u 1 模型的差距约 0. 5 个百分点, 这说 明 HAKT 在 提升 等) . 分析图 3 得: 1 )根据记录级注意力权 重分布, 模 型在 预 测当 模型可解释性的同时也具有较高的预测性能 . 4 )本文实现的 SAKT 在 所 有 数 据 集 上 预 测 性 [ 18 ] 能均低于 DKT , 这 一结果 与 AKT 前答题时 q 18 和 q 19 被赋予最大的权重且其真实答题 一 文中的 结 果 情况均为“ 正确”; 模 型 预 测 当 前 答 题 正 确 的 概 率 为 一致 . 其可能的原因是, 一方面 认知 追 踪领域 的 数 据 这 说 明 模 型 当 前 预 测 结 果 0. 75 ( 即答 对 概 率 较 高) . 量较小, 另一方面 该 领 域 数 据 集 中 相 似 题 目 往 往 依 与权重较大的历史 记 录 的 答 题 情 况 一 致, 即 模 型 能 次出现, 使得 题 目 之 间 的 依 赖 距 离 较 短 . 因 此, 自 注 从历史记录中找到 与 当 前 答 题 相 关 的 记 录, 并 综 合 意 力 机 制 无 法 发 挥 其 特 有 的 优 势 . 同 样, 相 比 于 历史答题情况对当前答题做预测 . DHKT 和 GIKT 主 要 基 于 循 环 神 经 网 络, HAKT 2 )尽管通过 记 录 级 注 意 力 能 够 检 索 出 哪 些 历 完全基于 自 注 意 力 机 制, 这 可 能 也 是 HAKT 在 部 史记录对当前答题 影 响 更 大, 但 是 这 些 历 史 题 目 与 分数据集预测性能略低于两者的原因 . 当前题目是如何进行关联 的 无法 得 知 . 进 一步, 通 过
10. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 2 6 3 9 语义级 注 意 力 权 重 分 布 可 知, 对 于 相 关 历 史 题 目 关联性, 即关联性标签为 1 , 否则关联性标签为 0. 然 这说明它 们的 关联 主要源 q 19 , 语义 U c 的权重较大 . 于其具有相似 的 答 题 交 互 记 录 . 那么 与 哪 些 学 生 的 后, 定义单次预测 中 较 大 权 重 历 史 记 录 与 当 前 题 目 是否具有相关性: 若 权 重 最 大 的 前 k 个 历 史 记 录 中 交互体现了它们的 关 联 呢? 通 过 元 素 级 注 意 力 权 重 至少有一个与当前 预 测 题 目 具 有 语 义 关 联 性, 则 当 分布可知, 学生 u 3 和 u 4 的权重较大, 这说明由于这 次预测命中相关题目, 记为 1 , 否则为 0 ; 最后, 计算命 些学生均答对了 q 19 和 q 20 , 使 得 模 型 认 为 这 2 道 题 中相关题目的预测数占所有预测数的比例( 命中率) . 目具有关联 . 以 ASS IST09 数据集 为 例, 所 选 语 义 组 合 为 S&T , 3 )由此, 综合 3 层注意力可得模 型预 测当 前答 即技能维度和 模 板 维 度 . 取 k =3 , 命 中 率 为 90. 5% 题的决策过程, 可由图 3 中实线呈现, 同时实线部分 ( 若随机选择 3 个 历 史 记 录 则 命 中 率 为 43. 7% ), 即 也表明了历史记录 与 当 前 题 目 的 语 义 关 联: 由 于 当 在 90% 以上的预测中, 模型赋予 权 重 最 大 的 3 个 历 前题目与历史题目 q 19 具有相似的交互记录且与 q 18 史记录, 至少有 1 个 历 史 记 录 与 当 前 预 测 题 目 有 显 具有相同的技能, 且 q 18 和 q 19 均回答正确, 因此模型 式的语 义 关 联 ( 即 有 相 同 技 能 或 相 同 模 板 ) . 因 此, 预测当前题目答对的概率较高 . HAKT 不仅能够捕获题目之间的 相关 性, 并且对 模 型决策过程的解释具有较高的可靠性 . 3. 5. 2 一致性分析 为了进一步验证案例分析中的观察( 即: 模型当 前的预测结果与相关性权重较大的历史记录的答题 情况具有更高的一致性), 对模型预测值和历史相关 题目答题结果进行一致性分析 . 参考 EKT [ 22 ] : 1 )对于某个学生在某一 时间 步的 预 测, 首 先 计 算历史答题记录对 应 的 注 意 力 权 重, 然 后 将 这 些 答 题记录按照注意 力 权 重 大 小 等 分 成 高、 中、 低 3 组, 最后将每一组的答题得分( 正确为 1 , 错误为 0 ) 各自 按照注意力权重进行加权求和 . 2 )对于每一组, 计算该学 生所 有时 间 步对 应的 加权求和值与模型 预 测 值 之 间 的 根 均 方 差 ( 表 示 在 考虑当前题目的情况下历史答题情况与当前预测值 r o c e s s F i 3 Vi sua l i z a t i on o f mode l ' s de c i s i on p g. 图 3 模型决策过程可视化 的一致性) . 3 )将所有学 生 对 应 的 根 均 方 差 以 散 点 图 和 盒 此外, 为 了 验 证 模 型 在 决 策 可 解 释 性 方 面 的 可 从图 4 中可以 看 式图的形式展示出来, 如图 4 所示 . 靠性, 本文进一步 探 究: 在 所 有 答 题 预 测 中, 权 重 较 出, 在所有数据集中, 高注意力权重组对应的根均方 大的历史记录与当前题目存在语义关联的比例有多 差均值明显小于其 他 组 ( 即 其 答 题 情 况 与 预 测 结 果 大? 首先, 定义题目 的 语 义 关 联 性: 若 2 道 题 目 至 少 的一致性最好), 且中注意力权重组对应的根均方差 在一个语义层面具 有 相 同 的 元 素, 则 它 们 具 有 语 义 均值同样明显小于低注意力权重组 .
11. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 4 0 F i 4 Ana l s i s o f t he c ons i s t ency be twe en h i s t o r i c a l answe r s and p r ed i c t ed p r obab i l i t g. y y 图 4 历史答题情况与预测概率的一致性分析 进一步, 采用双样本 T 检验对 3 组的差 距 进 行 3. 5. 3 可解释性度量 显著性分析 . 对 高、 中 组 和 中、 低 组 分 别 进 行 检 验 分 为了进一步评估和对比各模型对于预测结果的 析得 p 值均远远小于显著性 基准 值 0. 01 , 说 明 3 组 可解释性, 在所有数 据 集 上 实 验 并 绘 制 模 型 保 真 度 的差距是显著的 . 这一发现 表明, 从 统计 意义上来 说 随可解 释 性 阈 值 θ 的 变 化 曲 线, 如 图 5 所 示 . 其 中, 相关权重更大的历史答题与模型当前的预测结果具 HAKT ( λ ) 表示解释性正 则 化 项 中 权 衡 因 子 为 λ 的 模型, HAKT ( 0 ) 则表 示 无 解 释 性 正 则 化 项 的 版 本; 有更高的一致 性 . 这 说 明 不同 历史 记 录 对当 前 答 题 预测的影响是不一 样 的, 所 以 引 入 注 意 力 机 制 能 有 效利用这一规律, 从 而 提 升 模 型 的 预 测 性 能 和 可 解 从图 5 中可看到: SAKT 和 AKT 是对比模型 . 1 )在其中 4 个 数 据 集 上, HAKT ( 0 ) 的 保 真 度 释性 . 均高于 SAKT 和 AKT , 说 明 在 不 加 解 释 性 正 则 化 F i 5 Va r i a t i on o f f i de l i t f e a ch mode l wi t h i n t e r r e t ab i l i t hr e sho l d g. y o p y t 图 5 模型保真度随可解释性阈值的变化
12. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 2 6 4 1 项的情况下, 本文所 提 模 型 通 过 建 模 题 目 的 多 语 义 大, 以 ASS AUC 减 小 而 保 真 度 增 大 . IST09 数 据 集 关联一定程度上提升了模型的可解释性 . 为例, 当 λ 从 0 增大到 0. 3 时, AUC 从 79. 02% 降 至 2 )当加入解 释 性 正 则 化 项 且 权 衡 因 子 λ 增 大 78. 81% ( 下 降 0. 2 个 百 分 点), 而 保 真 度 从 89. 71% 时, 保真度也随之明显上升, 这说明引入解释性正则 升至 95. 这 说 明 模 型 可 52% ( 上 升 5. 71 个 百 分 点) . 化项显著提升 了 模 型 对 预 测 结 果 的 可 解 释 性 . 注 意 解释性与 预 测 性 能 难 以 同 时 提 升, 两 者 需 要 平 衡 . 到 AKT 的保真度总体上较低, 潜在原因是 AKT 相 HAKT 可以通过 改 变 权 衡 因 子 调 控 模 型 的 预 测 性 比 SAKT 和 HAKT 具有更深的自注意 力层和 更复 能和可解释性, 在模型预测性能略有下降的情况下, 杂的结构, 由此降低了可解释性 . 显著提升其可解释性 . 为了进一步观察 HAKT 中 权 衡 因 子 λ 如 何 影 在本 文 所 用 数 据 集 中, 同 时 考 虑 模 型 预 测 性 能 响预测性能和可解释性, 将不同 λ 值( 固定 θ =0. 20 ) 和可解释性的情况下, 权 衡 因 子 λ 的 较 优 取 值 处 于 对应的 AUC 和保真度以散点图的形式呈现( 如图 6 0. 05~0. 2 之间, 此时预测性能略 有 下 降 而 保真 度有 所示) . 从 图 6 中 可 以 观 察 到: 总 体 上 看, 随 着 λ 增 较明显的提升 . r ed i c t i ve pe r f o rmanc e and i F i 6 The impa c t o f t r ade-o f f f a c t o r λ on p n t e r r e t ab i l i t g. p y 图 6 权衡因子 λ 对预测性能和可解释性的影响 下明显提升了 其 可 解 释 性 . 设 计 了 评估 模 型预 测 结 4 总 结 果可解释性的 量 化 指 标 . 在 6 个 领域 基 准 数据 集 上 进行了预测性能对 比 实 验 和 可 解 释 性 分 析, 验 证 了 针对现有深度认知追踪模型对预测结果普遍缺 本文所提模型同时具有较高的预测性能和可解释性 . 乏可解释性或者部分模型仅建模题目之间浅层关系 深度认知追踪是当前国内外智能教育领域的研 的不足, 本文提出 一 种 基 于 多 层 注 意 力 网 络 挖 掘 题 究热点之一, 可 有 效 支 撑 学 习 者 建 模、 学 习 路 径 规 目多语义关联的认 知 追 踪 模 型, 进 一 步 提 升 了 模 型 划、 学习资源 适 配 等 个 性 化 服 务 . 未 来, 人 工 智 能 技 的预测性能和 可 解 释 性 . 在 损失 函 数 中 引 入 解释 性 术的持续、 快速发展, 不断为深度认知追踪方法创新 正则化项及权衡因 子, 在 预 测 性 能 略 有 下 降 的 情 况 提供新的动能 . 比 如 旨 在突 破 人工智能 非 线 性 瓶颈
13. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 4 2 的下一代人工智能———精准 智 能 [ 42 ] , 为 处 理 复 杂 对 象可解释性、 泛化性与可复现性等难题提供了可能, 也为进一步改进深度认知追踪技术带来新的机遇 . [ 8 ] L i u Qi , Shen Shuanghong , Huang Zhenya , e t a l.A sur vey o f knowl edge t r a c i ng [ J ] .a rXi v p r ep r i n t , a rXi v : 2105. 15106 , 2021 [ 9 ] At k i ns on R C , Pau l s on J A.An app r oa ch t o t he ps l ogy ycho o f i ns t r uc t i on [ J ] .Ps l og i c a l Bu l l e t i n , 1972 , 78 ( 1 ): ycho 作者贡献声明: 孙建文提出研究问题, 设计研究 49 61 框架, 撰写和修改 论 文, 管 理 研 究 过 程; 周 建 鹏 主 要 [ 10 ] Co r be t t A T , Ande r s on J R.Knowl edge t r a c i ng : Mode l i ng 负责数据处理、 形式化建模、 实验设计分析与论文起 t he a r o c edur a l knowl c i s i t i on o f p edge [ J ] .Us e r Mode l i ng qu 草; 刘三女牙主要提供研究思路与方法指导; 何绯娟 主要提供研究经费支持, 完善研究思路与框架, 指导 论文修改等; 唐云主要提供文献调研、 认知建模理论 与实验结果分析等指导性支持 . e r-Adap t ed I n t e r a c t i on , 1995 , 4 ( 4 ): 253 278 and Us [ 11 ] P i e ch C , Ba s s en J , Huang J , e t a l.De ep knowl edge t r a c i ng [ C ] / o c o f t he 29 t h I n t Con f on Neur a l I n f o rma t i on / Pr Pr o c e s s i ng Sys t em ( NIPS ) .Cambr i dge , MA : MIT , 2015 : 505 513 [ 12 ] Zhang J i an i , Sh i Xi ng i an , Ki ng I , e t a l.Dynami c key-va l ue j 参 考 文 献 memo r two rks f o r knowl edge t r a c i ng [ C ] / o c o f t he / Pr y ne n t Con f on Wo r l d Wi de Web ( WWW ) .New Yo rk : 26 t h I [ 1 ] Zheng Qi nghua , Dong Bo , Qi an Buyue , e t a l.The s t a t e o f t he a r t and f u t ur e t endenc f sma r t educ a t i on [ J ] . J our na l o f y o Compu t e r Re s e a r ch and Deve l opmen t , 2019 , 56 ( 1 ): 209 224 ( i n Ch i ne s e ) ( 郑庆华,董博,钱步月,等 . 智慧 教 育 研 究 现 状 与 发 展 趋 势 [ J ] . 计算机研究与发展, 2019 , 56 ( 1 ): 209 224 ) [ 2 ] Yang Zongka i.The cha l l enge s o f pe e a r n i ng and r s ona l i z ed l t he i r s o l u t i ons [ J ] .Ch i ne s e Sc i enc e Bu l l e t i n , 2019 , 64 ( Z1 ): 493 498 ( i n Ch i ne s e ) ( 杨宗凯 . 个性化学习的挑战与应对[ J ] . 科学通报, 2019 , 64 ( Z1 ): 493 498 ) ACM , 2017 : 765 774 [ 13 ] Abde l r ahman G , Wang Qi ng. Knowl edge t r a c i ng wi t h s equen t i a l key-va l ue memo r two rks [ C ] / o c o f t he / Pr y ne n t Con f on Re s e a r ch and Deve l opmen t i n I n f o rma t i on 42nd I Re t r i eva l ( S IGIR ) .New Yo rk : ACM , 2019 : 175 184 [ 14 ] L i u Sannüya , Zou Ru i , Sun J i anwen , e t a l.A h i e r a r ch i c a l memo r two rk f o r knowl edge t r a c i ng [ J r t / OL ] .Expe y ne Sys t ems wi t h App l i c a t i ons , 2021 [ 2021-09-01 ] .h t t do i. / / ps : 10. 1016 e swa. 2021. 114935 o r / / j. g [ 15 ] Pandey S , Ka r i s G.A s e l f-a t t en t i ve mode l f o r knowl edge yp C ] / o c o f t he 12 t h I n t Con f on Educ a t i ona l Da t a t r a c i ng [ / Pr Mi n i ng ( EDM ) .Wo r c e s t e r , MA : IEDMS , 2019 : 384 389 [ 3 ] Hu Xuegang , L i u Fe i , Bu Chenyang.Re s e a r ch advanc e s on [ 16 ] Le e J , Yeung D Y.Knowl edge que two rk f o r knowl edge r y ne r a c i ng mode l s i n educ a t i ona l b i t a [ J ] . J our na l knowl edge t g da t r a c i ng : How knowl edge i n t e r a c t s wi t h sk i l l s [ C ] / o c o f / Pr t e r Re s e a r ch and Deve l opmen t , 2020 , 57 ( 12 ): o f Compu t h I n t Con f on Le a r n i ng Ana l t i c s & Knowl edge ( LAK ) . t he 9 y 2523 2546 ( i n Ch i ne s e ) ( 胡学钢,刘菲, 卜晨阳 . 教育大 数 据 中 认 知 跟 踪 模 型 研 究 进 展[ J ] . 计算机研究与发展, 2020 , 57 ( 12 ): 2523 2546 ) [ 4 ] L i Xi aoguang , We i S i i , Zhang Xi n , e t a l.LFKT : De ep q knowl edge t r a c i ng mode l wi t h l e a r n i ng and f o r t t i ng ge behav i o r me r i ng [ J ] .J our na l o f So f twa r e , 2021 , 32 ( 3 ): g New Yo rk : ACM , 2019 : 491 500 [ 17 ] Nakagawa H , Iwa s awa Y , Ma t suo Y. Gr aph-ba s ed knowl edge t r a c i ng : Mode l i ng s t uden t p r o f i c i enc i ng g r aph y us two rk [ C ] / o c o f t he 18 t h I n t Con f on Web neur a l ne / Pr I n t e l l i e ( WI ) .P i s c a t away , NJ : IEEE , 2019 : 156 163 genc [ 18 ] Gho sh A , He f f e r nan N , Lan A S.Con t ex t-awa r e a t t en t i ve 818 830 ( i n Ch i ne s e ) r a c i ng [ C ] / o c o f t he 26 t h ACM S IGKDD I n t knowl edge t / Pr ( 李晓光,魏思齐,张昕,等 . LFKT :学习与遗忘融合的深度 Con f on Knowl edge Di s c ove r t a Mi n i ng.New Yo rk : y & Da 认知追踪模型[ J ] . 软件学报, 2021 , 32 ( 3 ): 818 830 ) ACM , 2020 : 2330 2339 [ 5 ] Vi e J J , Ka sh ima H. Knowl edge t r a c i ng ma ch i ne s : [ 19 ] Ka s e r T , Kl i ng l e r S , Schwi ng A G , e t a l.Dynami c baye s i an Fa c t o r i z a t i on ma ch i ne s f o r knowl edge t r a c i ng [ C ] / o c o f / Pr ne two rks f o r s t uden t mode l i ng [ J ] .IEEE Tr ans a c t i ons on t he 33r d AAAI Con f on Ar t i f i c i a l I n t e l l i e.Pa l o Al t o , genc CA : AAAI Pr e s s , 2019 : 750 757 [ 6 ] Cu l l r i s Y.On l i ne knowl edge l eve l t r a ck i ng wi t h y A , Demi chno l og i e s , 2017 , 10 ( 4 ): 450 462 Le a r n i ng Te [ 20 ] Cen Hao , Koed i nge r K , Junke r B. Le a r n i ng f a c t o r s ana l i s — A gene r a l me t hod f o r c ogn i t i ve mode l eva l ua t i on ys da t a-d r i ven s t uden t mode l s and c o l l abo r a t i v e f i l t e r i ng [ J ] . r ovemen t [ C ] / o c o f t he 8 t h I n t Con f on and imp / Pr IEEE Tr ans a c t i ons on Knowl edge and Da t a Eng i ne e r i ng , I n t e l l i t Tu t o r i ng Sys t ems ( ITS ) .Be r l i n : Sp r i nge r , 2006 : gen 2019 , 32 ( 10 ): 2000 2013 164 175 [ 7 ] Shen Shuanghong , L i u Qi , Chen Enhong , e t a l.Le a r n i ng [ 21 ] Pav l i k P , Cen Hao , Koed i nge r K.Pe r f o rmanc e f a c t o r s r o c e s s-c ons i s t en t knowl edge t r a c i ng [ C ] / o c o f t he 27 t h / Pr p ana l i s : A new a l t e r na t i ve t o knowl edge t r a c i ng [ C ] / o c / Pr ys IGKDD I n t Con f on Knowl edge Di s c ove r t a ACM S y and Da he 14 t h I n t Con f on Ar t i f i c i a l I n t e l l i e i n Educ a t i on o f t genc Mi n i ng.New Yo rk : ACM , 2021 : 1452 1460 ( AIED ) .Be r l i n : Sp r i nge r , 2009 : 531 538
14. 孙建文等: 基于多层注意力网络的可解释认知追踪方法 2 6 4 3 [ 22 ] Huang Zhenya , Yi n Yu , Chen Enhong , e t a l.EKT : [ 34 ] Yeung C K.De ep-i r t : Make de ep l e a r n i ng ba s ed knowl edge Exe r c i s e-awa r e knowl edge t r a c i ng f o r s t uden t pe r f o rmanc e t r a c i ng exp l a i nab l e us i ng i t em r e spons e t heo r C ] / o c o f / Pr y [ J ] .IEEE Tr ans a c t i ons on Knowl edge and Da t a r ed i c t i on [ p t he 12 t h I n t e r na t i ona l Con f e r enc e on Educ a t i ona l Da t a Eng i ne e r i ng , 2021 , 33 ( 1 ): 100 115 EDM ) .Wo r c e s t e r , MA : IEDMS , 2019 : 683 686 Mi n i ng ( [ 23 ] Kha ah M , L i nds ey R V , Mo z e r M C.How de ep i s j [ 35 ] Conve r s e G , Pu Sh i , Ol i ve i r a S. I nc o r r a t i ng i t em r e spons e po r a c i ng [ C ] / o c o f t he 9 t h I n t Con f on knowl edge t / Pr t heo r n t o knowl edge t r a c i ng [ C ] / o c o f t he 22nd I n t Con f / Pr y i Educ a t i ona l Da t a Mi n i ng ( EDM ) .Wo r c e s t e r , MA : IEDMS , on Ar t i f i c i a l I n t e l l i e i n Educ a t i on ( AIED ) .Be r l i n : genc 2016 : 94 101 Sp r i nge r , 2021 : 114 118 [ 24 ] Pandey S , Sr i va s t ava J.RKT : Re l a t i on-awa r e s e l f-a t t en t i on [ 36 ] Wang Fe i , L i u Qi , Chen Enhong , e t a l.Neur a l c ogn i t i ve f o r knowl edge t r a c i ng [ C ] / o c o f t he 29 t h ACM I n t Con f / Pr d i agno s i s f o r i n t e l l i t educ a t i on s t ems [ C ] / o c o f t he / Pr gen ys n f o rma t i on & Knowl edge Managemen t ( CIKM ) .New on I Yo rk : ACM , 2020 : 1205 1214 34 t h AAAI Con f on Ar t i f i c i a l I n t e l l i e.Pa l o Al t o , CA : genc AAAI Pr e s s , 2020 : 6153 6161 [ 25 ] Sun J i anwen , Zhou J i anpeng , Zhang Ka i , e t a l. Co l l abo r a t i ve embedd i ng f o r knowl edge t r a c i ng [ C ] / o c o f t he 14 t h I n t / Pr Con f on Knowl edge Sc i enc e , Eng i ne e r i ng and Managemen t ( KSEM ) .Be r l i n : Sp r i nge r , 2021 : 333 342 [ 26 ] Zhang Nan , Du Ye , Deng Ke , e t a l.At t en t i on-ba s ed knowl edge t r a c i ng wi t h he t e r ogeneous i n f o rma t i on ne two rk embedd i ng [ C ] / o c o f t he 13 t h I n t Con f on Knowl edge / Pr i ne e r i ng and Managemen t ( KSEM ) .Be r l i n : Sc i enc e , Eng [ 37 ] Su Yu , Cheng Zeyu , Luo Peng f e i , e t a l.Time-and-c onc e t p enhanc ed de ep mu l t i d imens i ona l i t em r e spons e t heo r o r y f i n t e r r e t ab l e knowl edge t r a c i ng [ J edge-Ba s ed / OL ] .Knowl p Sys t ems , 2021 [ 2021-09-01 ] .h t t do i.o r 10. 1016 / / / / ps : g j. kno s 2021. 106819 ys. [ 38 ] Lu Yu , Wang De l i ang , Meng Qi nggang , e t a l.Towa r ds i n t e r r e t ab l e de ep l e a r n i ng mode l s f o r knowl edge t r a c i ng [ C ] p o c o f t he 21s t I n t Con f on Ar t i f i c i a l I n t e l l i e i n / / Pr genc Sp r i nge r , 2020 : 95 103 [ 27 ] Ve l ikov i P , Cucur u l l G , Ca s anova A , e t a l. Gr aph two rks [ C o c o f t he 6 t h I n t Con f on a t t en t i on ne / OL ] / / Pr r e s en t a t i ons ( ICLR ), 2018 [ 2021-09-01 ] . Le a r n i ng Rep h t t openr ev i ew. ne t f ? i d=r JXMp i kCZ / / / ps : pd [ 28 ] Va swan i A , Sha z e e r N , Pa rma r N , e t a l.At t en t i on i s a l l you ne ed [ C ] / o c o f t he 31s t I n t Con f on Neur a l I n f o rma t i on / Pr Pr o c e s s i ng Sys t ems ( NIPS ) .Cambr i dge : MIT Pr e s s , 2017 : Educ a t i on ( AIED ) .Be r l i n : Sp r i nge r , 2020 : 185 190 [ 39 ] Wang Xi ao , J i Houye , Sh i Chuan , e t a l.He t e r ogeneous t t en t i on ne two rk [ C ] / o c o f t he 28 t h I n t Con f on r aph a / Pr g Wo r l d Wi de Web Con f e r enc e ( WWW ) .New Yo rk : ACM , 2019 : 2022 2032 [ 40 ] Xi ong Xi ao l u , Zhao S i nwegen E G , e t a l.Go i ng yuan , Van I de epe r wi t h de ep knowl edge t r a c i ng [ C ] / o c o f t he 9 t h I n t / Pr Con f on Educ a t i ona l Da t a Mi n i ng ( EDM ) .Wo r c e s t e r , MA : 6000 6010 [ 29 ] Wang Ti anq i , Ma Fenghong , Gao J i ng.De ep h i e r a r ch i c a l IEDMS , 2016 : 545 550 knowl edge t r a c i ng [ C ] / o c o f t he 12 t h I n t Con f on / Pr [ 41 ] Pe ake G , Wang Jun. Exp l ana t i on mi n i ng : Po s t ho c t a Mi n i ng ( EDM ) .Wo r c e s t e r , MA : IEDMS , Educ a t i ona l Da f l a t en t f a c t o r mode l s f o r r e c ommenda t i on i n t e r r e t ab i l i t p y o 2019 : 671 674 s t ems [ C ] / o c o f t he 24 t h ACM S IGKDD I n t Con f on / Pr ys [ 30 ] L i u Yun f e i , Yang Yang , Chen Xi anyu , e t a l.Imp r ov i ng knowl edge t r a c i ng v i a p r e-t r a i n i ng que s t i on embedd i ngs [ C ] o c o f t he 29 t h I n t J o i n t Con f on Ar t i f i c i a l I n t e l l i e / / Pr genc ( I JCAI ) .San Fr anc i s c o : Mo r fmann , 2020 : 1577 gan Kau s c ove r t a Mi n i ng.New Yo rk : ACM , Knowl edge Di y and Da 2018 : 2060 2069 [ 42 ] Zheng Zh imi ng , Lü J i nhu , We i We i , e t a l. Re f i ned i n t e l l i e t heo r r t i f i c i a l i n t e l l i e r ega r d i ng c omp l ex genc y : a genc e c t s [ J ] .SCIENTIA S INICA I n f o rma t i on i s , dynami c ob j 1583 [ 31 ] YangYang , Shen J i an , Qu Yanr u , e t a l.GIKT : A g r aph- 2021 , 51 ( 4 ): 678 690 ( i n Ch i ne s e ) ba s ed i n t e r a c t i on mode l f o r knowl edge t r a c i ng [ C ] / o c o f / Pr ( 郑志明,吕金虎,韦卫,等 . 精 准 智 能 理 论:面 向 复 杂 动 态 t he J o i n t Eur ope an Con f on Ma ch i ne Le a r n i ng and Knowl edge 对象的人 工 智 能 [ J ] . 中 国 科 学:信 息 科 学, 2021 , 51 ( 4 ): n Da t aba s e s ( ECML PKDD ) .Be r l i n : Sp r i nge r , Di s c ove r y i 678 690 ) 2020 : 299 315 [ 32 ] Zhang Yu , Ti ňo P , Leona r d i s A , e t a l.A sur vey on neur a l ne two rk i n t e r r e t ab i l i t J ] . IEEE Tr ans a c t i ons on Eme r i ng p y [ g Top i c s i n Compu t a t i ona l I n t e l l i e , 2021 , 5 ( 5 ): 726 742 genc [ 33 ] Chen Ke r u i , Meng Xi ao f eng. I n t e r r e t a t i on p and n ma ch i ne l e a r n i ng [ J ] . J our na l o f Compu t e r unde r s t and i ng i Re s e a r ch and Deve l opmen t , 2020 , 57 ( 9 ): 1971 1986 ( i n Ch i ne s e ) ( 陈珂锐,孟小峰 . 机器学习的可解释性[ J ] . 计算机研究与发 展, 2020 , 57 ( 9 ): 1971 1986 ) Sun J i anwen , bo r n i n 1982.PhD , a s s o c i a t e r o f e s s o r , PhD supe r v i s o r.Membe r o f CCF. p Hi s ma i n r e s e a r c h i n t e r e s t s i n c l ud e e du c a t i on a l da t a mi n i ng , i n t e l l i t t u t o r i ng sy s t em , and gen sma r t educ a t i on. 孙建 文, 博 士, 副 教 授, 博 士 生 导 1982 年 生 . 师 . 主要 研究方 向 为 教育 数据 挖 CCF 会 员 . 掘、 智能导学系统和智慧教育 .
15. 计算机研究与发展 2021 , 58 ( 12 ) 2 6 4 4 Zh o u J i a np e n r n i n 1996.Ma s t e r c a nd i d a t e. g , bo He Fe i uan , bo r n i n 1977.MS , a s s o c i a t e j i n r e s e a r c h i n t e r e s t s i n c l ud e knowl e dg e Hi s ma r o f e s s o r.He r ma i n r e s e a r c h i n t e r e s t s i nc l ude p t r a c i ng , r e c ommende r sy s t em , and sma r t educ a t i ona l da t a mi n i ng and t ex t mi n i ng. educ a t i on. 何绯娟, 理学硕 士, 副 教 授 . 主要 研 1977 年生 . 周建鹏, 硕 士 研 究 生 . 主要 研究方 1996 年 生 . 究方向为教育数据挖掘和文本挖掘 . 向为认知追踪、 推荐系统和智慧教育 . Tang Yun , bo r n i n 1982.PhD , a s s o c i a t e L i u Sannüy a , bo r n i n 1973.PhD , p r o f e s s o r , i n r e s e a r c h i n t e r e s t s i n c l ud e r o f e s s o r.He r ma p PhD supe r v i s o r.Hi s ma i n r e s e a r ch i n t e r e s t s educ a t i ona l da t a i nc l ude c ompu t e r a l i c a t i on , a r t i f i c i a l i n t e l l i - pp l e a r n i ng , and t he s e l f-de t e rmi na t i on t he o r y e , and e du c a t i on a l i n f o rma t i on t e c hno l ogy. genc o f mo t i va t i on. 刘三 女 牙, 博 士, 教 授, 博 士 生 导 1973 年 生 . 唐 mi n i ng , s e l f-r e l a t ed gu 云, 博士, 副 教 授 . 主要 研究方 1982 年生 . 师 . 主要研究方向为计算机 应 用、 人 工 智 能 和 向为教育数据挖 掘、 自 我 调 节 学 习 和 自 我 决 教育信息技术 . 定动机理论 . ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■ 2022 年 《 计算机研究与发展 》 专题 ( 正刊 ) 征文通知 ——— 数据挖掘前沿进展 数据挖掘旨在利用智能数据分析技术, 从海量数据中提取或挖掘潜 在 的 知 识 和 规 律, 为 决 策 任 务 提 供 有 效 支 撑。 在 大 数 据时代背景下, 数据挖掘技术已在工业、 金融、 医疗、 教育、 交通、 媒 体 等 领 域 取 得 广 泛 应 用 . 然 而, 大 数 据 的 复 杂 多 样 性 也 为 数 据挖掘研究在理论、 方法、 应用等多个层面提出了新的挑战 . 为及时反映国内同行在数据挖掘方面的前沿研究成果,《 计算机研究与发展》 将于 2022 年出版“ 数据挖 掘 前 沿 进 展” 专 题 . 欢迎数据挖掘及相关研究领域的专家学者、 科研 人 员 踊 跃 投 稿 . 此 外, 专 题 组 稿 与 第 九 届 中 国 数 据 挖 掘 会 议 ( CCDM 2022 ) 合 作, 所有专题录用稿件均需在 CCDM 2022 会议报告交流 . 征文范围( 但不限于) 1 )数据挖掘理论与方法 分类、 聚类、 排序、 集成学习、 强化学习、 关联分析、 链接分析、 频繁模 式 挖 掘、 动 态 数 据 挖 掘、 交 互 式 与 联 机 挖 掘、 并 行 与 分 布式挖掘、 大规模数据挖掘、 数据预处理、 数据挖掘语言等 . 2 )特定类型数据挖掘与分析 关系数据挖掘、 图模式挖掘、 空间与 时 序 数 据 挖 掘、 数 据 流 与 增 量 挖 掘、 多 媒 体 数 据 挖 掘、 社 交 网 络 分 析 与 挖 掘、 文 本 挖 掘、 隐私保护数据挖掘、 生物信息数据挖掘、 推荐系统、 数据仓库等 . 3 )数据挖掘技术应用 面向工业、 金融、 医疗、 教育、 交通、 旅游、 管理、 电商、 电信等领域的数据挖掘技术及应用 . 征文要求 1 )论文应属于作者的科研成果, 数据真实可靠, 具有重要的 学 术 价 值 与 推 广 应 用 价 值, 且 未 在 国 内 外 公 开 发 行 的 刊 物 或 会议上发表, 不存在一稿多投问题 . 作者在投稿时, 需向编辑部提交版权转让协议 . )论文一律用 2 wo r d 格式排版, 论文格式体例参考近期出版的《 计算机研究与发展》 的要求( h t t c r ad i . c t. a c. cn / / / ) . p : 3 )论文须通过期刊网站( h t t c r ad i . c t. a c. cn ) 投稿, 投稿时提供作者的联系方式, 留言 中 务 必 注 明“ 数 据 挖 掘 2022 专 题” / / p : ( 否则按自由来稿处理) . 否则, 论文视为退出专刊 . 4 )论文预录用后, 至少有一位作者注册参加 CCDM 2022 会议并做口头报告 . 重要日期 论文截稿日期: 2022 年 1 月 8 日 最终稿提交日期: 2022 年 3 月 10 日 特邀编委 张长水 教 授 杨 博 教 授 钱 超 副教授 清华大学 z c s @ma i l. t s i nghua. edu. cn 吉林大学 ybo @ j l u. edu. cn 南京大学 q i anc @n u. edu. cn j 联系方式 编 辑 部: c r ad @ i c t. a c. cn , 010-62620696 , 010-62600350 通信地址:北京 2704 信箱《 计算机研究与发展》 编辑部 邮 编: 100190 录用通知日期: 2022 年 2 月 28 日 论文出版日期: 2022 年 8 月

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-16 17:06
浙ICP备14020137号-1 $bản đồ khách truy cập$