论文在2022年10月收录于Knowledge-Based Systems期刊中 ——原文链接
后文里,我用DLKT来代替deep learning based knowledge tracing
这是综述性文章,评估了过往DLKT的各类模型。
从在线学习→智能导学系统→KT。KT不仅让学习者更好的理解他们的学习,也让平台和教师可以更了解甚至干预。然后介绍了主流的KT ,从BKT开始(介绍了它的概念变体和优缺点),再到DKT的优点,但由于其可解释性差、长期依赖、学习特征少,不断有变体和更新。以前的综述没有深入研究分析各个DLKT模型的独特贡献和改进方向。贡献如下
智能教育系统主要有三个部分:学生、练习(题目)、知识概念(技能)。
知识追踪(KT)定义:给定学生历史序列 s = { X 0 , . . . , X t } = { ( e 0 , a 0 ) , . . . , ( e t , a t ) } s=\{X_0,...,X_t\}=\{(e_0,a_0),...,(e_t,a_t)\} s={X0,...,Xt}={(e0,a0),...,(et,at)},预测下一组交互 X t + 1 X_{t+1} Xt+1(准确来说是预测 a t + 1 a_{t+1} at+1)
不同的模型和方法几乎采用相同的设计:负对数似然,因此KT的目标是 通过历史序列 学习给定的时间1-t学生练习过程的负对数似然性
其中, a t 和 a ^ t a_t和\hat a_t at和a^t分别表示真实值和预测值。
表1 中总结了这些DLKT模型,具体技术分为DKT及其变体、基于记忆网络的、基于注意力机制的、基于图结构的
2015年的DKT,使用序列模型(RNN、LSTM、GRU)作为基模型,通过one-hot编码将 X t X_t Xt转化为输入向量
DKT的问题在于,1. h t h_t ht代表了整体状态 2. 无法模拟概念间连接 3. 所有练习重要性一致 。DKT的各类扩展如表中所示,就不具体描述了
扩充外部记忆结构来跟踪复杂概念,最经典的是17年的DKVMN,重点在于key矩阵存储技能表示,value矩阵存储学生对每个技能的情况。具体而言,计算题目和技能的注意力权重→计算学生对题目的掌握程度→合并题目难度和学生掌握信息→预测。
SKVMN用修改后的LSTM(Hop-LSTM)进行顺序建模,具体见这两篇论文。
由于DKT缺乏可解释性,直接将可解释性纳入特定的模型结构中实现。共同点为:通过注意力机制学习交互中题目的权重,以表示预测时的该题的重要性。
最经典的是SAKT,将transformer模型首次应用于KT中,其他变体如表所示,具体细节见各自的论文。
由于KT中存在各种关系模式,部分研究使用图表示学习的方法捕获这类能力。
最经典的是GKT模型,其他变体也如表所示,具体细节见各自的论文
KT中有6种常用的数据集,A09、A12、A15、ASSISTChall、Statics2011、Simulated-5模拟数据集,具体区别如表2
AUC,值越大,预测能力越好
各个模型在主流数据集上存在差异,许多新结构发挥了积极的作用(Bi-CLKT),也改善了已有模型的局限和问题。
当前大数据的环境和教育问题里因材施教的需求以及深度学习的强大,使得KT逐渐成为一个重要的技术。本文回顾了以往的模型,并将DLKT模型分为四个大类,详细介绍了每类模型的优缺点以及针对最初3个问题的对应改进。其中,依赖性问题被自注意力机制解决,可解释性问题在深度学习中仍是挑战,缺乏特征问题的三大方法(嵌入、约束损失函数、新结构)各有优缺点。
此外仍有几点挑战:
文章的内容到这里就结束了,我个人感觉这篇文章并没有太多的创新点(针对1区期刊而言,似乎有点水分了),这里将DLKT分为4类,相信大部分研究者早已心照不宣地进行。另外这篇文章和之前那篇中文综述相比,将各类模型介绍的更加完整且详细,但也因此引申不多,只举了最经典的几个案例,优势是可以让初学者更快的了解与入门了。另外对于各类模型的比较和分析,也并没有得到确切的定量or定性结论,也没有一个权威的框架进行对比,内容较为发散,当然见解因人而异。
文章的最后也提出了知识追踪作为智能导学系统中的关键技术,在当前教育大数据环境下,依然还有很多值得研究的问题(提高预测性能、更具有可解释、落地实际问题)