知识点相关性与遗忘程度融合的深度知识追踪模型
如果无法正常显示,请先停止浏览器的去广告插件。
1. 计算机研究与发展
Journal of Computer Research and Development
ISSN 1000-1239,CN 11-1777/TP
《计算机研究与发展》网络首发论文
题目: 知识点相关性与遗忘程度融合的深度知识追踪模型
作者: 贾瑞,董永权,刘源,陈成
收稿日期: 2023-08-23
网络首发日期: 2024-02-19
引用格式: 贾瑞,董永权,刘源,陈成.知识点相关性与遗忘程度融合的深度知识追踪
模型[J/OL].计算机研究与发展.
https://link.cnki.net/urlid/11.1777.TP.20240219.1356.018
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)
》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)
》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
2. 2024-02-19 16:46:47
https://link.cnki.net/urlid/11.1777.TP.20240219.1356.018
计 算 机 研 究 与 发 展
Journal of Computer Research and Development
DOI:10.7544/issn1000-1239. 202330697
知识点相关性与遗忘程度融合的深度知识追踪模型
贾 瑞 1 董永权 1,2,3 刘 源 1 陈 成 1
1 (江苏师范大学计算机科学与技术学院
2 (江苏省教育信息化工程技术研究中心
3 (徐州云计算工程技术研究中心
江苏徐州 221116)
江苏徐州 221116)
江苏徐州 221116)
(614891727@qq.com)
Deep Knowledge Tracing Model with the Integration of Skills Relation and
Forgetting Degree
Jia Rui 1 , Dong Yongquan 1,2,3 , Liu Yuan 1 , and Chen Cheng 1
1 ( College of Computer Science and Technology, Jiangsu Normal University, Xuzhou, Jiangsu 221116 )
2 ( Jiangsu Education Informatization Engineering Technology Research Center, Xuzhou, Jiangsu 221116 )
3 ( Xuzhou Cloud Computing Engineering Technology Research Center, Xuzhou, Jiangsu 221116 )
Abstract Knowledge tracing is a pivotal technique for modeling students' knowledge level, typically relies on their past
learning interactions to predict their future performance on exercises. These interactions represent a student's process of
answering a sequence of questions. Current knowledge tracing methods ignore the number of times a skill has been
practiced when modeling student’s forgetting behaviors. Also, few models consider the relation between skills and its
influence on performance prediction. To address these questions, we propose a deep knowledge tracing model with the
integration of skills relation and forgetting degree. Firstly, a relation matrix is constructed using statistical methods to
capture the relation between skills. Secondly, the time intervals between interactions and the number of times a student
practices the same skill are used to compute the forgetting degree of each skill for better modeling of students' forgetting
behaviors. Finally, skills relation and forgetting degrees are integrated into an attention module to obtain the influence
of each past interaction on future performance prediction. Based on new attention weights, students' performance on
future exercises and kon can be predicted. Experiments on two real-world online education datasets, algebra2005-2006
and ASSISTment 2012, demonstrate that the proposed model achieves better prediction results compared to existing
mainstream methods.
Key words knowledge tracing; deep knowledge tracing; skills relation; forgetting degree; Intelligent Education
摘要 知识追踪是对学习者知识水平建模的一种技术,根据学习者过去的学习交互预测其未来答题表现,这些
交互代表了学习者回答一个习题序列的过程.当前知识追踪方法在建模学习者遗忘行为时缺乏考虑知识点重复
练习次数,并且少有模型考虑知识点相关性对答题预测的影响.基于此,提出了一个融合知识点相关性和遗忘
程度的深度知识追踪模型.首先使用统计方法构建了一个关联矩阵,以捕获知识点之间的相关性.其次,利用交
互之间的时间间隔和学习者学习同一知识点的次数来计算知识点的遗忘程度,以更好地拟合学生的遗忘行为.
最后,将知识点相关性和遗忘程度整合到一个注意力模块中,以获得过去的每个交互对未来答题的影响,据此
预测学习者的答题结果.在真实的在线教育数据集 algebra2005-2006 和 ASSISTment2012 上的实验表明,相较
于已有主流方法,所提模型取得了更好的预测结果.
收稿日期:2023-08-23;修回日期:2024-01-08
基金项目:国家自然科学基金项目面上项目(61872168);江苏省教育科学 "十四五 "规划项目(D/2021/01/112);江苏师范大学研究生科研
与实践创新项目(2022XKT1549)
This work was supported by the General Program of the National Natural Science Foundation of China (61872168), the Project of Jiangsu Province
Education Science "14th Five-Year Plan" (D/2021/01/112), and the Graduate Research and Practice Innovation Program of Jiangsu Normal University
(2022XKT1549).
通信作者:董永权(tomdyq@163.com)
3. 计
算
机
研
究
与
发
展
2024 年
关键词 知识追踪;深度知识追踪;知识点相关性;遗忘程度;智慧教育
中图法分类号 TP18
中国大学 MOOC, Coursera 等智能导学平台提供
了大量的在线课程和练习,为学习者的学习带来了便
利和更多的选择.知识追踪(knowledge tracing,KT)
是智能导学平台的重要技术支撑,通过平台收集到的
学习记录,KT 模型可评估学习者对知识点的掌握程
度 [1] .KT 技术的深入研究可应用于学习者习题推荐、
学习路径选择等,有助于推进个性化学习的发展.KT
的任务主要包括:1)根据学习者的学习历史预测其
在未来学习上的答题表现;2)实时追踪学习者的知
识水平(即对各知识点的掌握程度) [2–4] .
传统的知识追踪技术主要包括基于隐马尔可夫
模型设计的贝叶斯知识追踪 [5] (Bayesian knowledge
tracing, BKT)及其变体.随着深度学习的迅速发展,
研究者们将其应用于知识追踪任务.相比于传统知识
追踪模型,深度学习方法具有更好的预测能力.2015
年,Piech 等人 [6] 首次利用循环神经网络(recurrent
neural network, RNN)和长短期记忆网络(long short-
term memory,LSTM)研究知识追踪.在此基础上,动
态 键 值 记 忆 网 络 [7] ( dynamic key-value memory
network,DKVMN)和基于自注意力机制的知识追踪
模型 [8] (self-attentive knowledge tracing,SAKT)相
继提出.DKVMN 和 SAKT 都是通过捕捉知识点之间
的关联性预测未来答题结果,二者的实验证明了将知
识点间关系纳入 KT 模型可以有效地提升模型的性能.
上述模型都忽视了知识点遗忘程度的影响.教育
心理学中的艾宾浩斯遗忘曲线理论指出 [9] ,学习者会
遗忘学习到的知识,表现为对知识点掌握程度的下降.
知识点的学习时间间隔和重复学习知识点的次数会
影响知识点的遗忘程度.目前,在深度知识追踪领域,
只有少数的研究者考虑了遗忘因素,DKT 的扩展工
作 [10] 表明学习者的遗忘与最近一次学习重复知识点
所间隔的时间、学习次数以及最近一次学习的时间间
隔 3 个要素有关.然而该研究只考虑了最近一次学习
和重复学习知识点 2 个情况,忽略了过去每一次学习
都会对预测结果产生影响,同时缺乏对知识点相关性
的考虑.
Pandey 等人 [11] 在 SAKT 基础上提出了关系感知
注 意 力 知 识 追 踪 ( relation-aware self-attention for
knowledge tracing, RKT)模型,设计了一个包含了习
题相关性和学习者遗忘行为的自注意力层计算过去
每一次学习对于预测结果的影响.RKT 相较于 SAKT,
预测的准确性更高,这说明了遗忘行为对预测学习者
表现有正向作用.但是 RKT 对影响遗忘的因素考虑不
全,忽视了重复练习次数的影响.综上所述,知识点相
关性和遗忘程度均有助于提高模型的预测性能.但是
现有模型并没有同时融合这 2 种因素.
针对上述问题,本文提出了一种融合知识相关性
和遗忘程度的深度知识追踪模型 (deep knowledge
tracing model with the integration of skill relation and
forgetting degree,RFKT).本文的主要创新和贡献如
下:
1)考虑了知识点相关性和遗忘程度对知识追踪
的影响,其中知识点相关性来自于先验知识,遗忘程
度考虑了 2 个因素:知识点的学习时间间隔和重复练
习次数.
2)提出了一个融合知识点相关性和遗忘程度的
深度知识追踪模型.通过将知识点相关性和遗忘程度
纳入注意力层,捕捉过去每一次学习对未来答题的影
响,使模型能够更好地预测学习者的答题情况.
3)在真实在线教育数据集 algebra2005-2006 和
ASSISTment2012 上进行了实验,结果表明 RFKT 能
够有效地对学习者的学习过程进行建模,其预测性能
优于现有模型.
1 相关工作
现有的知识追踪模型主要分为 2 类:基于隐马尔
可夫模型的知识追踪模型和基于深度学习的知识追
踪模型 [12] .
BKT 是隐马尔可夫模型在知识追踪领域应用的
经典模型,1995 年由 Albert 等人 [5] 引入教育领
域.BKT 将学习者的潜在知识状态建模为 1 组二元变
量,每一组二元变量表示学习者对 1 个知识点的掌握
情况.在 BKT 的基础上,通过考虑各种因素,研究者
们提出了许多改进方案.Yudelson 等人 [13] 考虑了个别
学习者的先验知识对预测学习者答题结果的影响.
Baker 等人 [14] 考虑了每个知识点的做错和猜错概率对
预测学习者答题结果的影响.Pardos 等人 [15] 考虑了习
题困难度对预测学习者答题结果的影响.这类模型将
学习者对各知识点的掌握程度分别建模,但是忽略了
各知识点之间的关系.
DKT [6] 是第 1 个将深度学习引入知识追踪的模
型.DKT 利用 RNN 处理学习者的学习历史序列, RNN
的隐藏状态向量包含了学习历史中的所有信息.但是
DKT 存在 2 个问题:一个是随着时间的推移,模型预
测的知识状态具有波动性和不稳定性;另一个是 DKT
模型缺乏可解释性,无法解释预测结果与历史习题之
间的关系.为了使得预测的学生知识状态趋于平稳,
Yeung 等人 [16] 提出了 DKT+,该模型通过添加正则化
项对损失函数进行扩充,用以平滑预测结果.对于
DKT 在可解释性方面的不足,Zhang 等人 [7] 提出了
DKVMN 模型,该模型引入了一个外部记忆模块来存
储知识概念,并更新学习者相应的知识点掌握情况,
可以较为准确的建模学习者对各个知识点的掌握情
况.但是 DKVMN 只能通过学习者最近一次学习记录
模拟学习者的知识水平,未能捕捉到学习过程中的长
期依赖.
Transformer [17] 的提出使得许多深度学习模型可
以使用注意力机制来捕获学习历史序列中的依赖关
系.基于此,Pandey 等人 [8] 提出了 SAKT.该模型的主
体为一个自注意力层,利用注意力机制捕捉学习历史
与未来答题结果之间的关系,预测学习者的答题结果,
4. 3
计
算
机
该方法证明了过去每一次学习对于学习者未来的答
题表现都具有影响.
DKT,DKVMN,SAKT 在预测时仅用到了学习
记录中的习题编号和习题答案,但是忽略了学习记录
中存在的其他因素,例如学习时间间隔和习题相关性
等.因此,Pandey 等人 [11] 在 SAKT 基础上又提出了
RKT 模型.RKT 分别利用习题文本内容和答题情况分
析习题间关系,利用做题时间建模学习者遗忘行为,
将二者融入自注意力模型中,提升模型性能.但是
RKT 只针对习题间的相关性进行建模,随着习题数目
的增多,其计算所消耗的时间也随之增加.同时, RKT
只考虑了学习时间间隔对遗忘程度的影响,而对重复
练习次数并未进行关注.除此之外,Zhou 等人提出了
LANA (leveled attentive knowledge tracing, LANA)
模型 [18] ,将时间因素作为一种特征用于建模,而没有
将其与学习者的遗忘行为进行关联.
在上述方法中,DKT,DKVMN,SAKT,LANA
的输入都是习题所对应的知识点,输出为学习者对各
知识点的掌握程度.而 RKT 的输入为习题,不包含知
识点信息,该模型无法输出学习者对各知识点的掌握
情况.因此,本文使用习题所对应的知识点信息作为
输入.为方便表述,下文中提及的“习题”与“知识点”
均为习题所对应的知识点.
总的来说,现有方法可以在一定程度上预测学习
者的答题结果,但或者忽略了历史记录中包含的知识
点间相关性信息,或者忽略了学习者的遗忘过程,或
者对于学习者的遗忘行为建模不全 . 本文提出的
RFKT 模型综合考虑到了知识点相关性和遗忘程度,
并从 2 个方面建模学习者的遗忘行为,预测学生未来
答题表现.
研
究
与
E
x i e i 第 i 个交互中的知识点 id
r i 第 i 个交互中学习者回答 e i 的正确性
t i 第 i 个交互的开始时间
rel i e i 与过去交互中每一个知识点之间的相关性
f i 学习者对过去交互中每个知识点的遗忘程度
符号
M
M K
p i 交互嵌入矩阵
知识点嵌入矩阵
φ 知识点相关性矩阵
I
i 个交互的知识点 id,E 表示知
识点总数; r i 0 , 1 表示第 i 个交互的回答正确性,0
表示回答错误,1 表示回答正确; t i 是第 i 个交互
的开始时间.知识追踪根据学习者过去的 n 1 个交互
序列 X x 1 , x 2 , , x n 1 ,预测学习者在第 n 个交互中
的答题结果 r n .
本文提出了一个深度知识追踪模型,该模型将知
识点相关性和遗忘程度作为上下文信息进行整合,并
将其传播到使用自注意力机制计算的注意力权重中,
以此代表过去的每一次交互对未来交互的影响.本文
使用的数学符号如表 1 所示.
KT 模型预测学习者对 e i 的掌握程度
2.2 知识点相关性计算
本文从学习者的交互数据中计算所有知识点彼
此之间的相关性,表示为关系矩阵 φ , φ i, j 代表了知识
点 j 对知识点 i 的重要性.
phi 是基于卡方的关联度量,主要用于测量 2 个
二元变量之间相关性,具有良好的解释性,故而本文
使用 phi 系数表示知识点间相关性.知识点相关性的
计算过程如下:
首先,通过仅考虑知识点 i 和 j 的相关性构建一
个列联表,如表 2 所示,表 2 中知识点 j 在交互序列
中出现在知识点 i 之前,取最近 3 次知识点 j 的答题
结果来判断学习者是否掌握了该知识点,如果 3 次答
案的平均值大于 0.5,则认为学习者掌握了知识点 j,
反之则认为学习者未掌握知识点 j.
知识点 j
e i 1 , 2 , , E 表示第
2024
展
Table 1 Symbol Representation
表 1 符号表示
含义
知识点数量
学习者的第 i 个交互
2 知识点相关性与遗忘程度融合的深度知识追
踪模型
本节主要介绍知识追踪的形式化定义、知识点
相关性和遗忘程度的计算过程及所提模型的各个模
块.
2.1 问题定义
知识追踪任务中,将学习者的 1 次学习称之为 1
个 交 互 . 第 i 个 交 互 表 示 为 x i e i ,r i ,t i , 其 中
发
Table 2 Columnar Table of Skills i and j
表 2 知识点 i 和 j 的列联表
知识点 i
正确
未掌握 n 00
掌握 n 10
b 1
总计
错误
n 01
n 11
b 2
总计
a 1
a 2
n
其次根据列联表计算 2 个知识点的 phi 系数,计
算过程如式(1)(2)(3)所示:
φ i, j
n 11 n 00 n 01 n 10
,
a 2 a 1 b 2 b 1
(1)
a 1 n 00 n 01 , a 2 n 10 n 11 ,
(2)
(3)
b 1 n 00 n 10 , b 2 n 01 n 11 ,
其中 n 00 代表了在未掌握知识点 j 的情况下,知识点 i
回答正确的次数; n 01 表示了在未掌握知识点 j 的情况
下,知识点 i 回答错误的次数;n 10 则代表在掌握知识
点 j 的情况下,知识点 i 回答正确的次数;而 n 11 表示
在掌握知识点 j 的情况下,知识点 i 回答正确的次数.
φ i, j 的值在− 1 和 1 之间, φ i, j 的绝对值越大,表示知识
点 j 对于知识点 i 的影响性越大,正值代表 2 个知识
5. 4
计
算
机
点正相关,负值代表 2 个知识点负相关.
最后可以根据知识点相关性矩阵计算得到 e i 与
前 i 1 个 交 互 中 知 识 点 之 间 的 相 关 性
研
究
与
发
2024
展
rel i φ e i ,e 1 ,φ e i, e 2 ,...,φ e i ,e i 1 ,计算过程如图 1 所示:
Fig.1 The process of calculating the skills relation
图 1 知识点相关性计算过程
2.3 学习者遗忘程度计算
艾宾浩斯发现,随着时间的流逝,人们会在一定
程度上遗忘之前学习过的知识,因此提出了遗忘曲线.
除此之外,艾宾浩斯也指出,通过多次的重复可以减
弱人们对于知识的遗忘程度.为了更好地模拟学习者
遗忘行为,本文将一个核函数设计成随时间呈指数衰
减的曲线,以贴合艾宾浩斯遗忘曲线.然后将知识点
重复练习次数加入到函数中,以更接近学习者的遗忘
行 为 . 本 文 计 算 e i 和 e j 之 间 的 相 对 时 间 间 隔 为
数 c j .最后,根据式(4)计算得到学习者的在时刻 t i
的遗忘程度 f i .计算过程如图 2 所示,图 2 中每个点
对应一个知识点,相同的颜色代表相同的知识点.在
图 2 中,学习时间间隔、知识点重复练习次数和遗忘
程度均表示为 1 维数组,通过向右补 0 而成为固定长
度数组.
Δ
Δ
Δ
f i exp i, 1 ,exp i, 2 ,..., exp i,i- 1
c 1
c 2
c i- 1 .
Δ j t i t j .接下来计算在时刻 t i 之前, e j 的重复练习次
图中'-'表示空值.
Fig.2 Calculation process of learners' forgetting degree
图 2 学习者遗忘程度计算过程
(4)
6. 5
计
算
机
研
究
与
发
2024
展
知识追踪模型 RFKT,具体框架如图 3 所示.模型主要
分为输入层、注意力层和预测层.
2.4 RFKT 模型
本文提出了知识相关性与遗忘程度融合的深度
Fig.3 RFKT framework
图 3 RFKT 框架
Q i M̂ i K W Q
2.4.1 输入层
模型的输入分为 2 个部分,一部分为时刻 i 之前
学习者的交互序列 X x 1 ,x 2 ,...,x i 1 ,为便于模型计算,
将交互 x j 表示为一个实数 y j = e j + r j × E , j 1,2,..., i 1 .
另一部分为待预测习题 e i .RFKT 训练了 2 个嵌入矩阵
M I
2 E d
和 M K
E d
,分别将交互 y j 和习题 e i 映射
到连续向量空间,得到交互嵌入 M y I 和习题嵌入 M e K .
j
i
学习者对知识点的掌握程度受到答题顺序的影
响,因此,RFKT 模型为每一个交互添加一个位置编
码 Pos i -1 d , Pos 是一个可训练的矩阵.输入层的输
出是交互嵌入矩阵 M̂ I 和习题嵌入矩阵 M̂ K :
M y I 1 Pos 1
M e K 2
I
K
ˆ I M y 2 Pos 2 , M
ˆ K M e 3 .
M
M K
M I P os
e
y
i
1
i
i -1
(5)
2.4.2 注意力层
注意力层的作用是计算历史交互与待预测习题
之间的相关权重.在本模型中,重新设计了注意力权
重计算公式,使得更多的关注点放在由知识点相关性
和遗忘程度确定的相关权重上.计算过程如下:
设 α i, j 表示第 j 个交互与习题 e i 的相关权重,利用
自注意力机制计算得到,如式(6)(7)所示:
α i, j
, K j M̂ I j W K ,
, γ
exp γ
exp γ i, j
i 1
j 1
i, j
Q i K j
(6)
T
,
(7)
d
i, j
其中 W Q d d , W K d d 分别表示查询和键映射矩
阵,将向量线性映射到不同的空间, d k 为映射矩阵的
维度.
之后,本模型将 α i, j 与知识点相关性 rel i, j 和遗忘程
k
k
度 f i, j 三者相加得到新的注意力权值 β i, j :
β i, j λ 1 λ 2 α i, j 1 λ 2 rel i, j 1 λ 1 f i, j ,
(8)
其中 rel i, j 代表知识点 j 与知识点 i 的相关性, f i, j 表示
在时刻 i 对知识点 j 的遗忘程度.为了避免计算量的明
显增加,本模型选择加法运算, λ 1 和 λ 2 是 2 个可训练
参数.
注意力层的第 i 个输出 O i 计算如式(9)所示,
其中 β i 为前 i 1 个交互与习题 e i 之间的相关权重,V
为前 i 1 个交互经过一个值矩阵 W V
的矩阵.
d d k
映射得到
i 1
O i Softmax β i V , V M̂ 1 I W V .
(9)
j 1
值得注意的是,在预测第 i 个答题结果时,只需
要考虑前 i 1 个交互,所以本文在注意力层中为键映
射矩阵 W K 添加一个上三角的掩码矩阵掩盖未来交互
信息.
7. 6
计
算
机
研
究
与
发
算法 1 给出了 RFKT 的工作流程:
x j e j ,r j ,t j ;待预测的习题 e i ;知识点相关性矩阵
rel ;知识点遗忘程度 f ;真实标签 a;
输出: 学习者对 e i 的掌握程度 P i .
○
1 初始化习题嵌入矩阵 M K E d 和交互嵌入
矩 阵 M I 2E d , 定 义 一 个 位 置 嵌 入 矩 阵
i 1 d
Pos ;
○
2 for j =1 to i 1 do
y j e j r j × E ; /*将交互元组 x i 表示为一个实
○
3
数*/
○
4 M y I j M I y j ;/* y j 映射到连续向量空间*/
○
5 M M
○
6 ˆ I M I P ; /* 添加位置编码 */
M
j
y j
j
○
7 ˆ K M K ;
M
i
e i
○
8 K j M̂ I j W K ; /*将交互嵌入经过映射得到键
K
e i
K
e i ;
/* e i 映射到连续向量空间*/
向量*/
○
9
Q i M̂ i K W Q ; /*将习题嵌入经过映射得到查
询向量*/
10
○
α i, j
, γ
exp γ
exp γ i, j
i 1
i, j
Q i K j T
d
2024
P i Sigmoid FW
i 3 b 3
算法 1.RFKT.
输 入 : 学 习 者 交 互 序 列 X x 1 ,x 2 ,...,x i 1 , 其 中
展
; /*计算自注意
i,j
(11)
,
其中 P i 为一个标量,表示学习者答对习题 e i 的概率,
W 3 d d , b 3 d 是训练中学习到的参数.
3 实验与结果
本节首先介绍实验的基本设置,包括数据集、测
评指标和对比方法.接着进行参数实验,已获得最优
的模型参数.随后展示本模型和各对比方法在各个数
据集的预测情况.最后进行消融实验以验证知识点相
关性和遗忘程度的有效性.
3.1 数据集
为了评估 RFKT 的有效性,使用 2 个真实的数据
集 algebra2005-2006 和 ASSISTment2012.对于所有的
数据集,删除了知识点有缺失值的数据和重复的记录.
algebra2005-2006 是在 2010 年 KDD 杯竞赛中发
布的一个开放数据集.该数据集包括 574 个学习者,
436 个知识点,1084 个习题以及 424918 条学习记录.
ASSISTment2012 数据集由 ASSISTment 在线辅
导平台提供,广泛用于 KT 任务.该数据集包括 28834
个学习者, 198 个知识点, 50983 个习题和 2629870 条
学习记录.
本文将数据集的 10%作为测试集.在其余 90%的
数据集中,取 20%作为验证集,其余 80%作为训练集.
每个实验重复 5 轮,将结果的平均值作为实验结果.
j =1
力权重*/
11
○
β i, j λ 1 λ 2 α i, j 1 λ 2 rel i, j 1 λ 1 f i, j ;
rel i, j
/* 将
和 f i, j 融入自注意力权重, β i, j 作为
新的注意力权值*/
12 end for
○
13 V
○
i 1
M ˆ W
j 1
I
j
V
; /*将前 i 1 个交互嵌入经过映射
得到值矩阵*/
14
○ 注意力层的输出: O i Softmax β i V ;
15 预测: F i ReLU OW
○
i 1 b 1 W 2 b 2 ;
16 P i Sigmoid FW
○
i 3 b 3 ;
17 用标签 a 评估预测值 P i ;
○
18 通过反向传播更新所有模型参数.
○
2.4.3 预测层
为了在模型中加入非线性,并考虑不同潜在维度
之间的相互作用,本模型使用前馈网络,如式(10)
所示:
(10)
F i FFN O i ReLU OW
i 1 b 1 W 2 b 2 ,
其中 W 1 d d , W 2 d d , b 1 d , b 2 d 是训练中
学习到的参数.
最后,将上述得到的 F i 通过 Sigmoid 激活函数全
连接网络来预测学习者的答题结果.
k
k
3.2 测评指标
对学习者答题结果的预测是一个二元分类问题,
即回答正确或错误.因此,本文使用曲线下面积(area
under curve, AUC)和精度(accuracy, ACC)指标
来比较模型性能.一般来说 AUC 或 ACC 值为 0.5 时
代表随机猜测时的预测结果, 2 个指标的值越大越好.
3.3 对比方法与参数设置
为了评估 RFKT 模型的性能,本文选择了 DKT,
DKT+,DKVMN,SAKT,RKT,LANA 作为对比方
法.所有方法的批处理大小为 256,使用 adam 作为优
化器,学习率为 0.001.其他参数设置如下.
DKT [6] :嵌入层和隐藏层维度为 100;
DKT+ [16] :嵌入层和隐藏层维度为 100, 3 个正则
化参数为 0.01,0.003,3.0;
DKVMN [7] :记忆矩阵列数为 50,嵌入层维度为
50,隐藏层维度为 20;
SAKT [8] :嵌入层维度为 100,隐藏层维度为 200,
注意力维度为 32,注意力头数为 8,随机失活率为 0.2;
RKT [11] :嵌入层维度为 100,隐藏层维度为 200,
注意力维度为 32,注意力头数为 4,随机失活率为 0.2;
LANA [18] :编码层和解码层数为 2,注意力维度
为 32,注意力头数为 8,随机失活率为 0.1;
RFKT:隐藏层维度为 300,注意力维度为 64,
随机失活率为 0.2.对于嵌入层维度 d 和注意力头数 h,
8. 7
计
算
机
本文通过在测试数据集上进行参数实验进行选取,测
试结果如图 4 所示,在 algebra2005-2006 数据集中,
当 d=150,h=4 时,平均 AUC 值为 88.19,高于其他
超参数设置情况,在 ASSISTment2012 数据集中,当
研
究
与
发
2024
展
d=150,h=2 时,平均 AUC 值为 88.23,高于其他超
参数设置情况.因此,对比实验中 RFKT 根据参数实
验的最优结果分别设置 2 个数据集的嵌入层维度和
注意力头数.
(a) algebra2005-2006
(b)ASSISTment2012
Fig.4 Comparison of AUC values of RFKT on two datasets with different hyperparameter settings
图 4 不同超参数设置下 RFKT 在 2 个数据集上的 AUC 值对比
3.4 对比实验及结果分析
本节对 RFKT 与 6 个对比方法的实验结果进行
分析,以观察 RFKT 在不同数据集上的预测性能.
如 表 3 所 示 , RFKT 在 algebra2005-2006 和
ASSISTment2012 数据集上都优于所有对比方法.具体
来说,在 algebra2005-2006 上, RFKT 的 AUC 和 ACC
分 别 比 次 优 方 法 RKT 高 5.6% 和 5.2%. 在
ASSISTment2012 上,RFKT 的 AUC 和 ACC 分别比
RKT 高 11.3%和 12.1%.
DKT,DKT+,DKVMN,SAKT 这 4 个模型都只
简单的考虑了知识点 id 及学习者答题情况,输入的
信息较少,所以它们对学习者未来答题表现的预测能
力相近.LANA 与 RKT 都考虑了时间因素,LANA 将
时间戳数据放入模型, RKT 则是将时间戳数据加工为
学习时间间隔, LANA 的性能并没有提升,而 RKT 有
较优的性能,证明了对数据进行加工的必要性.RKT
对学习者遗忘行为的建模缺乏对知识点重复练习次
数的考虑,RFKT 的预测性能优于 RKT,说明知识点
重复练习次数有利于模型建模学习者遗忘行为.
Table 3 The Prediction Results of Different Methods on Knowledge Tracing
表 3 不同模型在知识追踪任务上的预测结果
模型
%
algebra2005-2006
ASSISTment2012
AUC ACC AUC ACC
DKT [6] 80.34 80.25 72.75 73.51
DKT+ [16] 80.52 80.27 72.04 73.29
DKVMN [7] 79.17 79.62 72.20 73.20
SAKT [8] 79.78 80.01 72.35 73.27
RKT [11] 83.46 79.70 79.30 71.90
LANA [18] 78.17 79.11 72.54 73.38
RFKT(本文) 88.19 83.86 88.23 80.63
粗体表示最优值,下划线表示次优值.
3.5 消融实验
本节对 RFKT 进行了消融实验,以深入了解该模
型的每个部分对整体的贡献.通过移除模型中的一些
模块,得到了该模型的 5 个变体.
变体 1. 注意力层中移除知识点相关性,即仅保
留传统注意力权重和知识点遗忘程度,简写为 R.
变体 2. 遗忘程度的计算过程中,移除知识点重
复练习次数,即仅考虑学习时间间隔的遗忘行为,简
写为 C.
变体 3. 注意力层中移除知识点相关性的同时在
遗忘程度计算过程中移除知识点重复练习次数,即仅
保留传统注意力权重和只考虑了学习时间间隔的知
识点遗忘程度,简写为 RC.
变体 4. 注意力层中移除知识点遗忘程度,即仅
保留传统注意力权重和知识点相关性,简写为 F.
9. 8
计
算
机
变体 5. 注意力层中移除知识点相关性和遗忘
程度,即仅保留传统注意力权重,简写为 RF.
图 5(a)(b)分别展示了本文模型与 5 个变体
在 2 个数据集上 AUC 和 ACC 的预测结果.从实验结
果看,移除知识点相关性、遗忘程度、知识点重复练
习次数后模型性能有不同程度的下降,说明三者均对
模型的预测能力有提升作用.
对于变体 1,由于缺少考虑知识点相关性,难以
构建知识点之间的联系,从而造成了模型预测性能的
下降.对于变体 2,忽略了知识点重复练习次数在遗忘
过程中的作用,模型预测 AUC 下降,证明知识点重
复练习次数有助于提升模型的预测能力.对于变体 3,
考虑了传统注意力权重和学习时间间隔,其性能高于
研
究
与
发
展
2024
变体 5(仅考虑传统注意力权重),证明了学习时间
间隔的重要性.对于变体 4,忽略了学习者的遗忘行为,
模型预测性能下降,说明模拟学习者的遗忘行为对模
型预测能力的提升发挥了重要作用.对于变体 5,同时
移除了知识点相关性和遗忘程度,性能大幅度下降,
且其性能低于变体 1(仅移除知识点相关性)和变体
4(仅移除知识点遗忘程度)证明了知识点相关性和
遗忘程度 2 种因素相互作用,比单使用其中一种因素
能更好的预测学习者未来答题表现.
除此之外,变体 5 的预测性能与 DKT,DKT+,
DKVMN,SAKT 等方法相近,这是由于 RFKT 移除
知识点相关性和遗忘程度后与这 4 种模型所用的特
征一致,模型性能受到特征的限制.
(a) RFKT 与各变体的预测结果对比(AUC)
(b)RFKT 与各变体的预测结果对比(ACC)
Fig.5 The prediction results of RFKT and its variants on the knowledge tracing task
图 5 RFKT 与各变体的预测结果对比
RKT 与本文模型 RFKT 最为接近,二者之间存在
2 个区别:一是 RFKT 考虑了知识点相关性,而 RKT
10. 9
计
算
机
考虑的是习题相关性;二是 RFKT 考虑了知识点的重
复练习次数,而 RKT 没有考虑该因素.为了进一步研
究这 2 个因素的影响,设计了一个 RKT 变体,将知
识点重复练习次数纳入 RKT 的遗忘程度计算过程,
表示为 RKT+C.该变体在 algebra2005-2006 数据集上
的 AUC 结果如图 6 所示.对比 RKT+C 和 RFKT,二
者计算遗忘程度的方法相同,但考虑的相关性不同,
研
究
与
发
展
2024
RFKT 的性能优于 RKT+C,这说明相比于习题相关
性,知识点相关性对于知识追踪模型预测能力的提升
效果更好.对比 RKT+C 与 RKT,二者均使用了习题
相关性,但 RKT+C 在遗忘程度的计算过程中考虑了
知识点重复练习次数,其预测性能高于 RKT,证明了
知识点重复练习次数对于模型建模学习者遗忘行为
有正向作用.
Fig.6 A comparative study on algebra2005-2006 dataset of
RKT,RKT+C,and RFKT
图 6 RKT,RKT+C,RFKT 在 algebra2005-2006 数据集上的对比实验
3.6 知识追踪结果分析
知识追踪的任务之一是实时输出学习者对于各
个知识点的掌握程度,本文进行以下实验验证 RFKT
在此任务上的有效性.
本文截取了数据集 algebra2005-2006 中 1 位学习
者在一段时间内的学习记录,并使用 RFKT 追踪学习
者对 5 个知识点的掌握程度变化,如图 7 所示.图 7 中
t i 对应的雷达图表示时刻 i 学习者对 5 个知识点的掌
握程度,箭头上方的元组 e i ,r i 表示学习者的学习记
录, e i 表示学习的知识点, r i 表示答题情况.
实验结果显示,在时刻 t 0 ,学习者对知识点 22 答
题错误后,RFKT 模型评估的知识点 22 掌握程度有
所下降;在时刻 t 3 ,学习者对知识点 44 答题正确后,
RFKT 模型评估的知识点 44 的掌握程度有所提高.以
上结果说明:RFKT 在获得学习者答题结果后,都会
根据其更新对应知识点的掌握程度.
对比时刻 t 0 学习知识点 22 到时刻 t 4 第 2 次学习
知识点 22 期间,RFKT 模型显示学习者对于知识点
22 的掌握程度一直在下降,这是由于随着时间间隔的
增加,学习者对知识点的掌握程度会下降,证明了
RFKT 可以有效模拟学习者的遗忘行为.
Fig.7 Knowledge level output result of RFKT
图 7 RFKT 知识水平输出结果
4 总结与展望
本文提出了一个融合知识点相关性和遗忘程度
的深度知识追踪模型 RFKT,在预测学习者未来答题
表现方面有良好的准确性.这表明了在知识追踪中同
11. 10
计
算
机
时考虑知识点相关性和遗忘程度的必要性.
由于学习者有不同的认知能力和学习风格,知识
追踪过程的个性化可以使学习者的成绩得到更准确
的预测,未来将探索使用迁移学习和元学习等技术来
开发个性化的知识追踪模型,进一步研究学习者的个
体差异对知识追踪的影响.
研
究
[9]
与
发
2024
展
Choffin B, Popineau F, Bourda Y, et al. DAS3H: Modeling
student learning and forgetting for optimally scheduling
distributed practice of skills[J]. arXiv preprint, arXiv:
1905.06873, 2019
[10]
Nagatani K, Zhang Qian, Sato M, et al. Augmenting
knowledge
tracing
by
considering
forgetting
behavior[C]//Proc of the 19th World Wide Web Conf. New
作者贡献声明:贾瑞设计了初步的模型框架、实现了
本文的所有实验并撰写论文初稿;董永权对论文框架
和实验设计提出了建设性意见,并对论文进行了细致
修改;刘源参与了论文框架设计;陈成对实验设计提
出了建设性意见.
York: ACM, 2019: 3101-3107
[11]
Pandey S, Srivastava J. RKT: Relation-aware self-attention
for knowledge tracing[C]//Proc of the 29th ACM Int Conf
on Information & Knowledge Management. New York:
ACM, 2020: 1205-1214
[12]
Liu Qi, Shen Shuanghong, Huang Zhenya, et al. A survey
参 考 文 献 of knowledge tracing[J]. arXiv preprint, arXiv: 2105.15106,
[1] 2021
Liu Tieyuan, Chen Wei, Chang Liang, et al. Research
advances in the knowledge tracing based on deep learning
bayesian knowledge tracing models[C]// Proc of the 16th Int
59(1): 81-104 (in Chinese) Conf on Artificial Intelligence in Education. Berlin:
(刘铁园, 陈威, 常亮, 等. 基于深度学习的知识追踪 Springer, 2013: 171-180
[14]
modeling through contextual estimation of slip and guess
knowledge tracing model[J]. Journal of Computer Research probabilities in bayesian knowledge tracing[G]//LNCS
and Development, 2021, 58(12): 2618-2629 (in Chinese) 5091:Proc of the 9th Int Conf on Intelligent Tutoring
模型[J]. 计算机研究与发展, 2021, 58(12): 2618-2629)
[6]
performance comparison of deep knowledge tracing tracing[G]//LNCS 6075: Proc of the 18th Int Conf on User.
models[J]. Journal of Software, 2023, 34(3): 1365-1395 (in Berlin: Springer,2010: 255-266
[16]
knowledge
和性能比较[J]. 软件学报, 2023, 34(3): 1365-1395) regularization[J]. arXiv preprint, arXiv: 1806.02180, 2018
Yeung C K, Yeung D Y. Incorporating features learned by
enhanced
deep
knowledge
tracing
model
[17]
tracing
via
prediction-consistent
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you
for need[C]// Proc of the 31st Int Conf on Neural Information
STEM/Non-STEM job prediction[J]. International Journal Processing Systems. San Dieg: Curran Associates, 2017:
of Artificial Intelligence in Education, 2019, 29(3):253-278 5998-6008
Corbett A T, Anderson J R. Knowledge tracing: Modeling
[18]
Zhou Yuhao, Li Xihua, Cao Yunbo, et al. LANA: Towards
the acquisition of procedural knowledge[J]. User Modelling personalized
and User-Adapted Interaction, 1995, 4(4): 253-278 distinguishable interactive sequences[J]. arXiv preprint,
Piech C, Spencer J, Huang J, et al. Deep knowledge arXiv:2105.06266, 2021
Zhang Jiani, Shi Xingjia, King I, et al. Dynamic key-value
memory networks for knowledge tracing[C]//Proc of the
26th Int Conf on World Wide Web. New York: ACM, 2017:
765-774
[8]
Yeung C K, Yeung D Y. Addressing Two problems in deep
(王宇, 朱梦霞, 杨尚辉, 等. 深度知识追踪模型综述
tracing[J]. arXiv preprint, arXiv:1506.05908, 2015
[7]
Pardos Z A, Heffernan N T. Modeling individualization in
a Bayesian networks implementation of knowledge
an
[5]
Systems (ITS 2008). Berlin: Springer, 2008: 406-415
[15]
Wang Yu, Zhu Mengxia, Yang Shanghui, et al. Review and
Chinese)
[4]
Baker R S J, Corbett A T, Aleven V. More accurate student
Liu Kunjia, Li Xinyi, Tang Jiuyang, et al. Interpretable deep
(刘坤佳, 李欣奕, 唐九阳, 等. 可解释深度知识追踪
[3]
Yudelson M V, Koedinger K R, Gordon G J. Individualized
[J]. Journal of Computer Research and Development, 2022,
研究进展[J]. 计算机研究与发展, 2022, 59(1): 81-104)
[2]
[13]
Pandey S, Karypis G. A self-attentive model for knowledge
tracing[J]. arXiv preprint, arXiv: 1907.06837, 2019
deep
knowledge
tracing
through
12. 11
计
算
机
Jia Rui, born in 1999. Master candidate. Her main research
interests include data mining, knowledge tracing, machine learning.
贾瑞,1999 年生.硕士研究生.主要研究方向为数据挖掘、知
识追踪和机器学习.
Dong Yongquan, born in 1979. PhD, professor, Master’s
supervisor. His main research interests include deep learning, data
mining, Education informatization.
董永权, 1979 年生.博士,教授,硕士生导师.主要研究方向为
深度学习、数据挖掘和教育信息化.
Liu Yuan, born in 1997. Master candidate. His main research
interests include course recommendation, machine learning.
刘源,1997 年生.硕士研究生.主要研究方向为课程推荐和机
器学习.
Chen Cheng, born in 1999. Master candidate. His main research
interests include data mining, knowledge tracing, machine learning.
陈成,1999 年生.硕士研究生.主要研究方向为数据挖掘、知
识追踪和机器学习.
研
究
与
发
展
2024