【注】本文是针对EKT模型所做的改进
考虑到练习之间的层次关系
知识追踪是预测学习者知识掌握情况的一种方法,在计算机辅助教育系统中起着重要的作用。近年来,许多深度学习模型被应用于处理KT任务,取得了很好的效果。然而,限制仍然存在。现有的方法大多将练习记录简化为知识序列,不能充分挖掘练习中存在的丰富信息。现有的知识追踪诊断结果由于忽略了练习之间的先验关系而缺乏说服力。为了解决上述问题,我们提出了层次图知识跟踪模型HGKT,以探索练习之间潜在的层次关系。具体地说,我们引入问题模式的概念来构建一个层次练习图,可以模拟练习学习的依赖关系。此外,我们采用两种注意机制来突出学习者的重要历史状态。在测试阶段,我们提出了一个K&S诊断矩阵,它可以跟踪知识掌握和问题模式的转变,可以更容易地应用于不同的应用。大量的实验证明了我们提出的模型的有效性和可解释性。
知识追踪是计算机辅助教育系统的一项基础性工作,对教与学都有好处[1,2,18]。一个典型的知识追踪过程是这样的:当一个问题被发布时,学习者阅读它的文本,并应用知识来解决它。在获得一组学习者的交互项目后,提取相应的知识序列和练习的交互序列,训练出预测学习者隐藏知识状态的KT模型。然而,传统的知识跟踪工作流存在两个主要问题:(1)练习表示丢失问题: 传统工作流将练习记录简化为知识序列,忽略了练习中包含的难度和语义信息。换句话说,现有的方法在表示练习的过程中会丢失信息。(2)诊断不足问题:也难以根据诊断结果提供具体的学习建议。具体来说,假设我们知道学习者有一个薄弱的知识(例如,协同计算),很难决定哪一个更适合他(例如,图1 中的e7,e8),由于知识和练习之间的映射是太宽泛。
在文献中,有很多关于知识追综的努力。现有的方法可以分为传统的基于知识的方法和基于练习的方法。传统的基于知识的方法将学习者的练习序列转化为知识序列,而不考虑练习的文本信息。其中最流行的是贝叶斯知识追踪(Bayesian Knowledge Tracing, BKT)[5],它通过隐马尔可夫模型更新学习者的知识状态。深度学习方法,如深度知识追踪(DKT),将学习过程建模为循环神经网络[26]。动态键值记忆网络(Dynamic Key-Value Memory Network, DKVMN)通过引入两个记忆矩阵来表示知识和学习者对每个知识的掌握程度[38]来增强递归神经网络的能力。基于图的知识跟踪(GKT)将知识跟踪与图神经网络[25]相结合。它将学习者隐藏的知识状态编码为图节点的嵌入,并更新知识图中的状态。这些模型已被证明是有效的,但仍有局限性。现有的方法由于没有考虑练习的文本,都面临着练习表征缺失的问题。对于基于练习的轨迹,据我们所知,练习增强知识追踪(exercise Enhanced knowledge Tracing, EKT)是第一个将练习文本的特征整合到知识追踪模型[16]中的方法。而EKT通过将练习文本直接输入双向LSTM网络[14]来提取文本特征,这种方法没有考虑到练习的潜在层次图性质,并引入了文本嵌入带来的额外噪声。
我们解决练习表示损失问题和诊断不足问题的见解,取决于充分探索练习之间潜在的层次图关系的思想。结合练习之间的层次关系,不仅可以提高学习者成绩预测的准确性,还可以增强知识追踪的可解释性。图1清晰地展示了层次关系对知识诊断结果的影响,以及与传统的知识追踪方法相比,本方法的优势。由于研究人员已经证明利用先决条件关系到KT任务[3]的有效性,我们将练习之间的层次图关系分解为直接支持关系和间接支持关系。支持关系的直观表现是,它们代表了不同类型的练习学习依赖,可以作为知识追踪任务的约束。此外,为了学习更细粒度的习题表示,避免单一习题的噪音,受数学解字技术[11,37]的启发,我们引入问题图式的概念,总结出一组具有相似解的相似习题。只有当两个习题属于同一个问题图式时,它们之间的关系才是间接的支持。值得一提的是,我们假设每个练习只有一个主要知识和一个问题模式。考虑到属于不同知识的习题可能有相似的解,同样知识的习题由于难度的不同也可能属于不同的问题模式,我们假设知识与问题模式的关系是多对多的(如图2(a)所示)。
上述分析表明,在KT任务中引入先前练习支持关系的前景。然而,它也可能带来以下问题。首先,可以通过多种方式定义练习之间的直接支持关系,但哪种方式最适合KT任务尚不清楚。其次,问题图式和间接支持关系的定义需要从语义的角度理解练习。如何自动理解和表示信息仍然是一个挑战。第三,分层练习关系包含不同层次的练习特征,如何将这些不同层次的练习特征有机地结合起来仍然值得探索。最后,在对层次关系信息进行编码后,我们还希望模型在当前预测中始终能够利用过去的关键信息。
为了解决上述问题,我们提出了一个层次图知识跟踪框架HGKT,该框架结合了层次图神经网络和递归序列模型的优点,注意提高知识跟踪的性能。综上所述,本文的主要贡献如下:
我们在本文中制定的KT任务如下。知识追踪的目标是根据学习者的练习数据估计学习者隐藏的知识状态
在教育系统中,HEG是由不同层次的图组成的层次图,这些图存储了练习之间先验的直接和间接的支持关系。具体来说,HGKT中使用的HEG有两个图:下面的称为直接支持图,上面的称为间接支持图。底部图中的每个节点对应数据库中的一个练习,而顶部图中的每个节点对应一个问题模式。底部图模型中的图连接了直接支持关系,而这两个图之间的关系连接了间接支持关系 。形式上,我们定义HEG图 ( A , F , S e ) (A,F,S_e) (A,F,Se),其中 A ∈ 0 , 1 A\in {0,1} A∈0,1
整个框架结构如图3所示。在这里,系统1的目标是通过一个层次图神经网络(HGNN)来学习练习的层次图结构,并将这些资源提供给系统2。然后系统2进行顺序处理,进行性能预测,并为系统1收集线索,以更好地细化每个问题模式的嵌入。为了开始训练,我们首先需要从训练数据库和交互历史中生成HEG。因此,我们介绍几种方法构造的直接支持图3.2节和提取间接支持在3.3节从语义的角度关系的建设HEG,锻炼记录和问题模式嵌入结合递归神经网络(RNN)预测学习者的表现。值得一提的是,HGNN和RNN是以端到端方式训练的。
如图1所示,HGKT可以利用KT任务中练习之间的优先层次关系。但是,在大多数情况下,练习的层次关系并没有明确规定。在本节中,我们首先介绍几种方法来探索练习之间的直接支持关系,并进一步用于学习问题模式的表示。许多前人已经证明了在KT任务中引入图结构的有效性[25,33],因此我们在3.2.1,3.2.2,3.2.3节的练习中提出了几种基于相似规则的图结构。此外,基于贝叶斯统计推理,我们还提出了一种利用训练集中练习交互序列的先验练习支持关系构建直接支持图的方法。为了将之前的练习关系建模为约束,我们首先定义了以下关于练习支持关系的属性:
在本节中,我们首先描述一些方法来探索练习之间的间接支持关系。提取的层次关系被用来组成HEG。系统1的目标是学习每个练习的问题模式的表示,因此我们也提出了一种融合这些层次关系的方法。
挖掘间接支持关系的实质是为每个练习找到对应的问题模式(如图1所示),将其转化为练习的无监督聚类问题。考虑到问题模式的语义本质,我们使用BERT[6]对数据库中的所有练习进行编码,以获得其语义表示,因为许多成功案例已经证明了BERT能够理解文本背后的语义信息。此外,为了更好地获得多层次聚类结果,以适应不同层次学生的认知本质,我们采用层次聚类[17]对练习的BERT嵌入进行聚类。层次聚类是一种无监督聚类分析方法,使用凝聚或分裂策略来构建聚类的层次。通过设置不同的聚类阈值 λ λ λ,可以得到不同层次的聚类结果,从而找到最适合问题模式的层次。此外,为了更好地结合练习的图结构和聚类结果,受DiffPool[36]中提出的分配矩阵的激励,我们提出了一个练习分配矩阵 S e S_e Se,可以将直接支持图中的每个练习节点分配给间接支持图中的问题模式节点。
问题图式的引入可以有效地提高模型预测学习者成绩的效果。然而,问题模式的可解释性是未知的。基于上述挑战,我们提出了一种无监督模式总结算法。该算法的核心思想是利用TextRank[24]提取相应的有意义的条件描述和目标描述,并根据一定的规则对一个练习聚类进行描述。表1显示了一组练习的总结示例。关于算法的更多细节将在附录中介绍。
在本文中,我们证明了KT任务中练习之间层次关系的重要性。为了充分利用文本信息在习题中的应用,我们提出了一种新的知识跟踪框架HGKT,该框架充分利用了层次化习题图和序列模型的优势,注重增强知识跟踪能力。此外,我们提出了一个K&S诊断矩阵的概念,它可以跟踪知识和问题模式的掌握,这被证明比传统的知识跟踪方法更有效和有用的工业应用。此外,我们构建了一个包含练习文本信息的大规模知识跟踪数据集,并进行了广泛的实验,以证明我们提出的模型的有效性和可解释性。
总结