2020-KDD-Context-Aware Attentive Knowledge Tracing

Context-Aware Attentive Knowledge Tracing

主要内容

  • Context-Aware Attentive Knowledge Tracing
    • Abstract
    • 1 Introduction
    • 2 Knowledge tracing problem setup
      • 2.1 Question and Response Embeddings
    • 3 The AKT model
      • 3.1 Context-aware Representations and The Knowledge Retriever
      • 3.2 The Monotonic Attention Mechanism
      • 3.3 Response Prediction
      • 3.4 Rasch Model-Based Embeddings
    • 4 Experimental Results
      • 4.1 Experimental setup
      • 4.2 Result and Discussion
      • 4.3 Visualizing Learned AKT Parameters
    • 5 Conclusions and Future work

Abstract

知识追踪(KT)是指在教育应用中,根据学习者过去的表现来预测他们未来的表现的问题。最近使用灵活的基于深度神经网络的模型的知识追踪的发展在这项任务中表现出色。然而,这些模型往往提供有限的可解释性,从而使它们不足以用于个性化学习,而个性化学习需要使用可解释的反馈和可操作的建议来帮助学习者取得更好的学习成果。在本文中,我们提出了注意力知识追踪(AKT),它将灵活的基于注意力的神经网络模型与一系列受认知和心理测量模型启发的新型可解释模型组件结合起来。AKT使用一种新的单调的注意力机制,将学习者未来对评估问题的反应与他们过去的反应联系起来;除了问题之间的相似性之外,还使用指数衰减和上下文感知的相对距离措施来计算注意力权重。此外,我们使用Rasch模型来规范概念和问题的嵌入;这些嵌入能够捕捉同一概念的问题之间的个体差异,而不使用过多的参数。我们在几个真实世界的基准数据集上进行了实验,结果表明AKT在预测未来学习者的反应方面优于现有的KT方法(在某些情况下AUC最高可达6%)。我们还进行了几个案例研究,并表明AKT表现出良好的可解释性,因此在现实世界的教育环境中具有自动反馈和个性化的潜力。

1 Introduction

数据分析和智能辅导系统[32]的最新进展使大规模学习者数据的收集和分析成为可能;这些进展暗示了大规模个性化学习的潜力,通过分析每个学习者的学习历史数据,自动提供个性化的反馈[24]和学习活动建议[11]。

2 Knowledge tracing problem setup

每个学习者的表现记录由每个离散时间步的问题和回答序列组成。对于时间步t的学习者i,我们把他们回答的问题、这个问题所涉及的概念和他们的分级回答的组合表示为一个元组 ( q t i , c t i , r t i ) (q^i_t, c^i_t, r^i_t ) (qti,cti,rti),其中 q t i ∈ N + q^i_t∈N^+ qtiN+是问题索引, c t i ∈ N + c^i_t∈N^+ ctiN+是概念索引, r t i ∈ { 0 , 1 } r^i_t∈\{0, 1\} rti{0,1}是反应。在这个符号下, ( q t i , c t i , 1 ) (q^i_t, c^i_t, 1) (qti,cti,1)意味着学习者i在时间t对概念 c t i c^i_t cti上的问题 q t i q^i_t qti做出了正确的回答。我们注意到,这种设置与之前一些关于深度知识追踪的工作不同,这些工作通常忽略了问题索引,而将学习者的表现总结为 ( c t i , r t i ) (c^i_t , r^i_t) (cti,rti)。这种选择是为了避免过度参数化;详细分析见第3.3节。在下面的讨论中,我们省略上标i,因为我们讨论的是如何预测单个学习者的未来表现。给出他们到时间t-1的过去历史为 ( q 1 , c 1 , r 1 ) , . . . , ( q t − 1 , c t − 1 , r t − 1 ) {(q_1, c_1, r_1), ... , (q_{t-1}, c_{t-1}, r_{t-1})} (q1,c1,r1),...,(qt1,ct1,rt1),我们的目标是预测他们在当前时间步t对概念 c t c_t ct的问题 q t q_t qt的回答 r t r_t rt

2.1 Question and Response Embeddings

继之前的工作 [36] 之后,我们使用实值嵌入向量 x t ∈ R D x_t ∈ R^D xtRD y t ∈ R D y_t ∈ R^D ytRD 分别表示每个问题和每个问题-回答对 ( q t , r t ) (q_t , r_t) (qt,rt) x t x_t xt 表征有关问题的信息,而 y t y_t yt表征学习者通过回答问题获得的知识,分别具有正确和错误回答的两个独立嵌入。D表示这些嵌入的维度。因此,让Q表示问题的数量,总共有Q个问题嵌入向量和2Q个问题-回答嵌入向量。在大多数现实世界的教育环境中,题库中题目的数量比concept(即知识点)的数目要大得多,并且许多问题分配给很少的学习者。因此,大多数现有的 KT 方法使用概念来索引问题以避免过度参数化;涵盖同一概念的所有问题都被视为一个问题。在这种情况下, q t = c t q_t = c_t qt=ct Q = C Q = C Q=C

3 The AKT model

AKT方法由四个部分组成:两个自我注意的编码器,一个用于问题,一个用于知识获取,一个基于注意力的知识检索器,以及一个前馈反应预测模型;图1直观地显示了AKT方法及其相关的组成部分。
我们使用两个自我注意的编码器来学习问题和回答的上下文感知表征。我们把第一个编码器称为问题编码器,它根据学习者以前练习过的问题序列,对每个问题产生修正的、上下文的表征。同样地,我们把第二个编码器称为知识编码器,它对学习者在回答过去的问题时获得的知识进行修改,并将其与上下文结合起来。另外,我们也可以使用与先前工作类似的问题和回答的原始嵌入。我们发现,在大多数数据集中,上下文感知的表述表现得更好。我们把知识演化模型称为知识检索器,它利用注意力机制检索过去获得的与当前问题相关的知识。最后,反应预测模型利用检索到的知识预测学习者对当前问题的反应。AKT方法是由植根于认知科学和心理测量学的三种直觉所激发的;我们将在下文中详细介绍这些直觉。
2020-KDD-Context-Aware Attentive Knowledge Tracing_第1张图片
图 1:AKT 方法概述。 我们使用基于 Rasch 模型的嵌入作为问题和回答的原始嵌入。 问题和知识编码器计算问题和回答对的上下文感知表示。 知识检索器使用这些表示作为输入并计算学习者的知识状态。 为简单起见,我们没有在编码器中展示单调注意机制。我们也没有展示子层。

3.1 Context-aware Representations and The Knowledge Retriever

如上所述,我们在模型中使用了两个编码器。问题编码器采用原始问题嵌入 { x 1 , . . . , x t } \{x_1, . . . , x_t \} {x1,...,xt} 作为输入并输出一系列上下文感知问题嵌入 { x ^ 1 , . . . , x ^ t } \{\hat{x}_1, . . ., \hat{x}_t \} {x^1,...,x^t}使用单调注意机制(在下一小节中详细介绍)。每个问题的上下文感知嵌入取决于它本身和过去的问题,即 x ^ t = f e n c 1 ( x 1 , . . , x t ) \hat{x}_t = f_{enc1}(x_1, . . , x_t ) x^t=fenc1(x1,..,xt)。类似地,知识编码器采用原始问题-响应嵌入 { y 1 , . . . , y t − 1 } \{y_1, . . . , y_{t−1}\} {y1,...,yt1} 作为输入并输出一系列获得的实际知识 { y ^ 1 , . . . , y ^ t − 1 } \{\hat{y}_1, . . . ,\hat{y}_{t−1}\} {y^1,...,y^t1}使用相同的单调注意机制。所获知识的上下文感知嵌入取决于学习者对当前问题和过去问题的反应,即 y ^ t − 1 = f e n c 2 ( y 1 , . . . , y t − 1 ) \hat{y}_{t−1} = f_{enc2}(y_1, . . . , y_{t−1}) y^t1=fenc2(y1,...,yt1)

选择使用上下文感知嵌入而不是原始嵌入反映了我们的第一个直觉:学习者在回答问题时理解和学习的方式取决于学习者。
这些修改后的表示反映了每个学习者对问题的实际理解以及他们实际获得的知识,考虑到他们的个人反应历史。这种模型选择的动机是这样的直觉:对于具有不同过去响应序列的两个学习者,他们理解相同问题的方式以及他们从练习中获得的知识可能不同。

知识检索器将上下文感知问题和问题-响应对嵌入 x ^ 1 : t \hat{x}_{1:t} x^1:t y ^ 1 : t − 1 \hat{y}_{1:t−1} y^1:t1 作为输入,并为当前问题输出检索到的知识状态 h t h_t ht。我们注意到,在 AKT 中,学习者当前的知识状态也是上下文感知的,因为这取决于他们正在回答的当前问题;这种模型选择与包括 DKT 在内的大多数现有方法中的模型选择不同。我们还注意到知识检索器只能使用过去问题的信息、学习者对这些问题的回答以及当前问题的表示,而不能使用学习者对当前问题的回答,即 h t = f k r ( x ^ 1 , . . . , x ^ t , y ^ 1 , . . , y ^ t − 1 ) h_t = f_{kr}(\hat{x}_1, . . . , \hat{x}_t , \hat{y}_1, . . , \hat{y}_{t−1}) ht=fkr(x^1,...,x^t,y^1,..,y^t1)。响应预测模型使用检索到的知识来预测当前响应。

3.2 The Monotonic Attention Mechanism

我们对编码器和知识检索器使用缩放点积注意机制的修改后的单调版本。我们首先简要总结原始的缩放点积注意机制。在这个框架下,每个编码器和知识检索器都有一个键、查询和值嵌入层,分别将输入映射到维度 Dq = Dk 、Dk 和 Dv 的输出查询、键和值。让 qt ∈ RDk×1 表示与学习者在时间 t 响应的问题对应的查询,缩放的点积注意力值 αt,τ 使用 softmax 函数 [5] 计算为 αt,τ = Softmax( q⊺ t kτ p Dk ) = exp( q⊺ tk √ τ Dk ) Í τ ′ exp( q⊺ √t kτ Dk ) ∈ [0, 1]。

缩放后的点积注意力机制的输出由Í τ αt,τ vτ ∈ RDv×1 给出。 kτ ∈ RDk×1 和 vτ ∈ RDv×1 分别表示问题在时间步 τ 的键和值。根据特定的组件,输出取决于过去和当前(τ ≤ t 对于问题和知识编码器)或仅过去(τ < t 对于知识检索器)。

两个编码器都采用自注意力机制,即使用相同的输入计算 qt 、 kt 和 vt ; 问题编码器使用 {x1, . . . , xt } 而知识编码器使用 {y1, . . . , yt−1}。另一方面,知识检索器不使用自注意力。如图 1 所示,在时间步 t ,它使用 ˆxt(当前问题的修改嵌入),{ˆx1, . . . ,ˆxt−1}(过去问题的上下文感知嵌入)和 {ˆy1, . . . ,ˆyt−1}(过去问题-响应对的上下文感知嵌入)作为输入,分别生成查询、键和值。 我们注意到 SAKT 使用问题嵌入来映射查询,而响应嵌入用于键值映射。 在我们的实验中,我们发现使用问题嵌入来映射查询和键更有效。

然而,这种基本的缩放点积注意力机制对于 KT 来说可能是不够的。 原因是学习是暂时的,记忆衰退[21]; 当我们预测他们对当前问题的反应时,学习者在遥远过去的表现不如最近的表现那么有用。 因此,我们开发了一种新的单调注意机制,反映了我们的第二个直觉:当学习者面临一个新问题时,过去的经验 i) 不相关的概念和 ii) 太久以前的经验不太可能高度相关。 具体来说,我们向注意力分数添加一个乘法指数衰减项,如下所示:
α t , τ = e x p ( s t , τ ) ∑ τ ′ e x p ( s t , τ ′ ) s t , τ = e x p ( − θ d ( t , τ ) ) q t T k τ D k \alpha_{t,\tau} = \frac{exp(s_t,\tau)}{\sum_{\tau^{'}}exp(s_t,\tau')} \\ s_{t,\tau}=\frac{exp(-\theta d(t, \tau)) q_t^Tk_{\tau}}{\sqrt{D_k}} αt,τ=τexp(st,τ)exp(st,τ)st,τ=Dk exp(θd(t,τ))qtTkτ
其中 θ > 0 是可学习的衰减率参数,d(t , τ ) 是时间步长 t 和 τ 之间的时间距离度量。换句话说,当前问题对过去问题的注意力权重不仅取决于相应查询和关键字之间的相似性,还取决于它们之间的相对时间步数。总之,我们的单调注意机制采用指数衰减曲线的基本形式,当过去的问题与当前的问题高度相似时,可能会在时间步长出现尖峰。我们注意到我们对注意力权重应用指数衰减而不是潜在知识,这是现有学习器模型中的常见方法(参见例如 [17, 26])。

我们注意到,还有许多其他可能的方法来表征注意力的时间动态。首先,在注意力网络擅长的语言任务中,可以使用附加位置嵌入或可学习嵌入 [29] 对时间动态进行建模。其次,在我们的单调注意机制中,我们还可以将指数衰减参数化为 st,τ = q⊺ t k √ τ Dk − θ · d(t , τ )。然而,这些变化都不会导致与我们选择的模型设置相当的性能;在我们的实验中,我们将使用位置编码而不是单调注意力将 AKT 与其变体进行比较。

上下文感知距离度量。指数衰减函数决定了注意力权重随着当前时间指数与前一时间指数之间的距离增加而衰减的速率。定义两个时间指数之间距离的一种直接方法是它们的绝对值差,即 d(t , τ ) = |t − τ |。然而,这种距离不是上下文感知的,并且忽略了每个学习者的实践历史。例如,考虑学习者练习的以下两个概念序列:维恩图 (VD)1,VD2,···,VD8,素数 (PN)9,PN10 和 PN1,VD2,VD3,···,VD9 , PN10,其中符号“VD2”表示学习者在时间步长 2 练习了维恩图的概念。在这个例子中,学习者在 t = 10 时回答了一个关于素数的问题,即当前时间索引,在两个在这些序列中,但最近关于质数的过去实践来自不同的时间索引。由于维恩图和素数的概​​念并不是紧密相关的,所以在预测他们对当前练习题的答案时,学习者之前在素数上的练习比最近在维恩图上的练习更适合我们。在这种情况下,通过直接的绝对值差异,指数衰减曲线将显着降低分配给 t = 1 时素数练习的注意力权重。

因此,我们针对指数衰减机制(在编码器中)提出了以下时间步长 d(t , τ ) 之间的上下文感知距离度量,其中 τ ≤ t:
d ( t , τ ) = ∣ t − τ ∣ ∑ t ′ = τ + 1 t γ t , t ′ γ t , t ′ = e x p ( q t T k t ′ D k ) ∑ 1 ≤ τ ′ ≤ t e x p ( q t T k τ ′ D k ) d(t, \tau) = |t-\tau|\sum_{t'=\tau+1}^{t} \gamma_{t,t'} \\ \gamma_{t,t'} = \frac{exp(\frac{q_t^Tk_{t'}}{\sqrt{D_k}})}{\sum_{1≤\tau'≤t} exp(\frac{q_t^Tk_{\tau'}}{\sqrt{D_k}})} d(t,τ)=tτt=τ+1tγt,tγt,t=1τtexp(Dk qtTkτ)exp(Dk qtTkt)
对于知识检索器,我们将 τ ′ ≤ t 替换为 τ < t,将 t ′ ≤ t 替换为 t ′ < t。换句话说,这个上下文感知距离度量使用另一个 softmax 函数根据过去实践的概念与当前概念的相关性来调整连续时间索引之间的距离。在实践中,在模型训练过程中的每次迭代中,我们使用当前的 AKT 模型参数来计算修改后的距离度量并加以固定;我们不通过距离度量传递梯度。

多头注意力和子层。我们还结合了多头注意力,它可以有效地在多个时间尺度上关注过去的位置 [29]。因此,我们使用 H 个独立的注意力头,其中每个头都有自己的衰减率 θ,将最终输出连接成 (Dv·H)×1 向量并将其传递给下一层。这种模型设计使 AKT 能够在多个时间尺度上总结过去的学习者表现,这与多尺度上下文、DASH 和 DAS3H 模型中的多个时间窗口有一些相似之处 [2, 15, 21]。我们还使用了几个子层,包括一个用于层归一化 [14]、一个用于 dropout [27]、一个全连接前馈层以及每个编码器和知识检索器中的一个残差连接层 [6]。

3.3 Response Prediction

AKT 方法的最后一个组成部分是预测学习者对当前问题的反应。预测模型的输入是一个向量,它连接了检索到的知识(知识检索器输出 ht )和当前问题嵌入 xt ;该输入通过另一个全连接网络,最后通过 sigmoid 函数 [5] 生成学习者正确回答当前问题的预测概率 ˆ rt ∈ [0, 1]。通过最小化所有学习器响应的二元交叉熵损失,整个 AKT 方法中的所有可学习参数都以端到端的方式进行训练,即 ℓ = Í i Í t −(rit log ˆ rit + (1 − rit ) log(1 − ˆ rit ))。

3.4 Rasch Model-Based Embeddings

正如我们上面讨论的,现有的 KT 方法使用概念来索引问题,即设置 qt = ct 。由于数据稀疏,此设置是必要的。让 Q 表示问题的总数,L 表示学习者的数量。在大多数现实世界的学习者反应数据集中,学习者反应的数量与 CL 相当,远少于 QL,因为许多问题分配给了很少的学习者。因此,使用概念来索引问题可以有效避免过度参数化和过度拟合。然而,这种基本设置忽略了涵盖同一概念的问题之间的个体差异,从而限制了 KT 方法的灵活性及其个性化的潜力。

我们使用心理测量学中经典而强大的模型 Rasch 模型(也称为 1PL IRT 模型)[16, 25] 来构建原始问题和知识嵌入。 Rasch 模型使用两个标量来表征学习者正确回答问题的概率:问题的难度和学习者的能力。尽管它很简单,但当知识是静态的 [12, 31] 时,它在正式评估中表现出与更复杂的学习者表现预测模型相当的表现。具体来说,我们在时间步长 t 从概念 ct 构建问题 qt 的嵌入为 xt = cct + μqt · dct ,其中 cct ∈ RD 是这个问题涵盖的概念的嵌入,而 dct ∈ RD 是一个向量,总结了涵盖这个概念的问题的变化,而 μqt ∈ R 是一个标量难度参数,它控制这个问题偏离它所涵盖的概念的程度。来自概念 ct 的问题-响应对 (qt , rt ) 使用每一对的标量难度参数类似地扩展:yt = e(ct ,rt ) + μqt · f(ct ,rt ),其中 e(ct ,rt ) ∈ RD 和 f(ct ,rt ) ∈ RD 是概念-响应嵌入和变异向量。这种模型选择反映了我们的第三种直觉:标记为涵盖相同概念的问题密切相关,但具有不容忽视的重要个体差异。这种模型选择的部分灵感来自另一项融合 KT 和 IRT 模型的工作 [8]。

这些基于 Rasch 模型的嵌入在建模个体问题差异和避免过度参数化之间取得了适当的平衡。对于问题嵌入,该模型的嵌入参数总数为 2CD + Q,比使用概念索引问题(CD)的模型略多,但远低于每个问题的模型单独参数化 (QD),因为 C ≪ Q 和 D ≫ 1。我们进一步将概念响应嵌入定义为 e(ct ,rt ) = cct + grt ,其中 g1 和 g0 表示正确和不正确响应的嵌入(无论概念),分别。
因此,对于概念-响应嵌入,我们只引入了总共 (C + 2)D + Q 个新嵌入参数,而不是 2CD + Q 个新嵌入参数。我们注意到我们的问题和问题-响应嵌入共享一组参数 (cct);此设置与现有的基于神经网络的 KT 方法不同,后者两者相互独立。这些紧凑的嵌入表示不仅显着减少了 AKT 和其他一些 KT 方法中的参数数量,从而提高了未来学习器性能预测的性能;详见表 5。

4 Experimental Results

在本节中,我们详细介绍了我们为测试几个真实世界数据集而进行的一系列实验。我们通过预测未来学习者的反应定量评估 AKT,并通过一系列可视化和案例研究定性评估 AKT。

4.1 Experimental setup

Dataset.我们使用四个基准数据集评估 AKT 和几个基线在预测未来学习者反应方面的性能:ASSISTments2009、ASSISTments2015、ASSISTments2017 和 Statics2011。ASSISTments 数据集是从在线辅导平台收集的;特别是,ASSISTments2009 数据集在过去十年中一直是 KT 方法的标准基准。 Statics2011 数据集是从大学水平的静力学工程课程中收集的。在所有这些数据集上,我们遵循文献中的一系列标准预处理步骤。对于 ASSISTments2009 数据集,我们删除了所有与命名概念无关的交互。对于 ASSISTments2015 数据集,我们删除了“isCorrect”字段不是 0 或 1 的所有交互。
我们在表 1 中列出了学习者、概念、问题和问题响应对的数量。在这些数据集中,只有 ASSISTments2009 和 ASSISTments2017 数据集包含问题 ID;因此,基于 Rasch 模型的嵌入仅适用于这两个数据集。

Baseline methods and evaluation metric。我们将 AKT 与几种基线 KT 方法进行比较,包括 BKT+ [35]、DKT、DKT+(这是 DKT 的改进版本,具有预测一致性的正则化 [34])、DKVMN [36] 和最近提出的自我注意 KT( SAKT) 方法 [18],它使用一种注意力机制,可以将其视为 AKT 的一个特例,没有问题和响应的上下文感知表示以及单调注意力机制。我们使用接收者操作特征曲线 (AUC) 下的面积作为指标来评估所有 KT 方法在预测二元值未来学习者对问题的回答方面的性能。

Training and testing。出于评估目的,我们对所有模型和所有数据集执行标准 k 折交叉验证(k = 5)。因此,对于每个折叠,20% 的学习器用作测试集,20% 用作验证集,60% 用作训练集。对于每个折叠,我们使用验证集来执行提前停止并调整每个 KT 方法的参数。

出于计算效率的原因,我们在 [23, 36] 之后截断了长度超过 200 的学习者响应序列。如果学习器有 200 多个响应,我们会将他们的整个序列分解为多个较短的序列。我们使用 Adam 优化器以 24 个学习器的批量大小训练所有模型 [10],以确保整个批次都可以放入我们机器的内存中(配备一个 NVIDIA Titan X GPU)。我们实现了所有版本的 AKT火炬;我们还重新实现了 DKT、DKT+ 和 SAKT,因为包含问题 ID 需要新的数据集分区并导致新的实验结果。我们对AKT、DKT、DKT+和SAKT使用Xavier参数初始化方法[4];对于 DKVMN,我们遵循他们的工作并使用来自正态分布的样本来初始化参数 [36]。我们不会重新实施 BKT+;它在各种数据集上的表现取自 [36]。对于大多数数据集和大多数算法,一个训练周期不到 10 秒。我们将最大 epoch 数设置为 300。

4.2 Result and Discussion

表 2 列出了所有数据集上所有 KT 方法在预测未来学习者反应方面的表现;我们报告了五个测试折叠的平均值和标准偏差。 AKT-R 和 AKT-NR 分别代表带有和不带有基于 Rasch 模型的嵌入的 AKT 模型的变体。我们看到 AKT(有时显着)在 ASSISTments 数据集上优于其他 KT 方法,而 DKT+ 在最小的 Statics2011 数据集上略胜于 AKT。一般来说,AKT 在较大的数据集上表现更好;这一结果表明注意力机制比循环神经网络更灵活,因此更有能力捕捉包含在大规模现实世界学习者反应数据集中的丰富信息。在 ASSISTments2015 和 ASSISTments2017 数据集上,AKT-NR 将 AUC 比最接近的基线提高了 6% 和 1%。它与在 Statics2011 和 ASSISTments2009 数据集上表现最佳的基线相当。更重要的是,在具有问题 ID 的 ASSISTments2009 和 2017 数据集上,AKT-R 显着优于其他 KT 方法,分别比最接近的基线高 2% 和 6%。我们注意到,在我们的实现中,DKT 优于更高级的 DKVMN 方法。虽然我们能够使用相同的实验设置复制 DKVMN 的性能 [36],但我们发现 DKT 的性能比之前在该工作中报告的要好得多。DKT+ 的性能与 DKT 不相上下,但在 Statics2011 数据集上略有改进。我们还观察到基于 RNN 的模型 DKT 在所有数据集上都优于 SAKT。

Ablation study. 为了证明 AKT 方法中的三个关键创新、问题和响应的上下文感知表示、单调注意机制和基于 Rasch 模型的嵌入,我们进行了三个额外的消融实验,比较了 AKT 方法的几种变体。第一个实验使用上下文感知问题和响应表示(使用问题和知识编码器)与两个变体 AKTraw-NR 和 AKTraw-R 比较 AKT-NR 和 AKT-R;在这些变体中,我们使用原始问题和响应嵌入作为它们的表示,而不是上下文感知表示(即,不通过编码器传递它们)。第二个实验将 AKT-NR 与几种没有单调注意机制的变体进行比较。这些变体包括 AKT-NRpos,它使用(可学习的)位置编码来捕获学习者响应数据中的时间依赖性和 AKT-NRfixed,它使用使用不同频率的正弦和余弦函数的(固定)位置编码 [29]。第三个实验在 ASSISTments2009 和 2017 数据集上将 AKT-R 与 AKT-NR、DKT、DKT-R、DKT+、DKT±R、DKVMN、DKVMN-R、SAKT 和 SAKT-R 进行比较,其中问题 ID 可用; DKT-R、DKT±R、DKVMN-R 和 SAKT-R 分别是指使用基于 Rasch 模型的嵌入作为输入增强的 DKT、DKT+、DKVMN 和 SAKT 方法。

表 3 显示了上下文感知表示(即问题和知识编码器)的第一个消融实验的结果(由于空间限制,只有测试折叠的平均值而不是标准偏差)。在所有数据集上,AKT-R 和 AKTNR 都优于其对应物 AKTraw-NR 和 AKTraw-R,它们仅使用具有指数衰减的单一自注意力机制(即知识检索器)。这些结果表明,我们对问题和响应的上下文感知表示在总结每个学习者的实践历史方面是有效的。

表4显示了单调注意机制的第二次消融实验的结果。我们看到,AKT-NR在所有的数据集上都明显优于其他使用位置嵌入的注意机制,包括SAKT,约为1%到6%。我们推测,产生这一结果的原因是,与语言任务中更常见的词与词之间的强长距离依赖不同,未来学习者的表现对过去的依赖被限制在一个更短的时间窗口。因此,在注意力权重中使用具有不同指数衰减率的多头注意力可以有效地捕捉到不同时间尺度上对过去的短期依赖性。

表 5 显示了基于 Rasch 模型的嵌入在两个 ASSISTments 数据集上的第三个消融实验的结果,其中问题 ID 可用。所有添加了基于 Rasch 模型的嵌入的基线 KT 方法都优于其常规版本,尤其是在 ASSISTments2017 数据集上。这些结果证实了我们的直觉,即将涵盖相同概念的所有问题视为单个问题是有问题的。只要可以避免过度参数化,就不应忽视这些问题之间的个体差异。

Remark. 我们的标准实验设置遵循 [23, 36] 中使用的设置。在此设置中,对于标记有多个概念的问题(在 ASSISTments2009 数据集中),单个学习者的响应会重复多次,每个概念一个。其他作品对这些问题使用了不同的实验设置;在 [31] 中,作者删除了这些问题,因此 DKT 的性能下降到 0.71。在[33]中,作者为同时出现的单个概念的每个组合构建了新概念,因此,DKT 的性能下降到 0.73。因此,我们还在 ASSISTments2009 数据集上使用了另一种实验设置。对于标有多个概念的问题,我们对相应的概念嵌入求平均,并将它们用作输入嵌入和响应预测。表 6 列出了该设置下所有 KT 方法在 ASSISTments2009 数据集上的性能。使用平均嵌入时 DKT 的性能下降到 0.76,比 [31, 33] 下的设置要好。与我们所有 KT 方法的标准实验设置相比,我们观察到类似的性能下降,而 AKT-R 仍然轻松胜过所有基线。

4.3 Visualizing Learned AKT Parameters

Monotonic attention.图 2 显示了使用 ASSISTments2009 数据集的 AKT 单调注意机制提供的可解释性。图 2(a) 以一个学习者的知识检索器中的注意力权重为例;我们绘制了注意力权重,用于预测他们在三个注意力头上的 20 个连续练习问题上的表现。我们看到每个注意力头都在自己的时间尺度上运行:它们都有不同宽度的注意力窗口。例如,第二个头能够处理整个过去,最多 20 个时间步长(在本例中);相反,第三个头只能关注最近的过去,主要关注最后的 3-5 个时间步骤。这一观察结果表明,过去的一些问题和回答包含高度预测学习者对当前问题的回答的信息;这些信息可以被具有不同衰减率的多个注意力头有效地捕获.

图 2(b) 将知识检索器中单个学习器的标准化注意力权重可视化为三个连续时间步长。在第一行,学习者在从 T − 10 到 T − 5 练习这个概念之后,在时间 T 回答关于概念 30 的问题,然后休息一下练习概念 42,然后在时间 T 回到概念 30 − 1. 我们看到 AKT 预测他们对当前问题的反应是更多地关注这个概念的先前实践(在最近和更远的过去),而不是在最近的另一个概念上的实践。在中间一行,学习者再次切换到概念 42 的练习。同样,AKT 学会在时间 T - 2 和 T - 1 时将注意力集中在同一概念的过去练习上,而不是紧接着的过去对不同概念的练习。 在下一行中,学习者连续第二次对概念42进行练习,AKT显示出与第一行类似的焦点模式,但概念30和42的角色互换了。这些观察结果表明,AKT 的单调注意机制有可能通过将学习者当前的反应与过去的反应联系起来,向教师提供反馈;这些信息可能使教师能够选择他们已经练习过的某些问题,以便在继续之前重新练习并清除误解。我们还注意到,AKT 使用数据驱动的方法学习这些与现有 KT 方法中手工制作的特征相匹配的注意力模式(例如,对这个概念的总尝试次数和正确尝试次数)[15, 22]。

Rasch model-based embeddings. 图 3 使用 ASSISTments2009 数据集,使用 t-SNE [28] 将学习到的基于 Rasch 模型的几个概念的问题嵌入可视化,以及它们对选定问题的经验难度(跨学习者正确响应的部分)。我们还根据每个概念的经验困难突出显示了每个概念中最难和最简单的问题。

我们看到同一概念的问题形成一条曲线,并按难度排序:对于大多数概念,线段一端的问题是简单的,而另一端的问题是困难的。这个结果证实了我们的直觉,即来自同一概念的问题并不相同,而是彼此密切相关; Rasch 模型可以使用其难度参数很好地捕捉这种关系。
表 7 列出了三个不同概念的示例问题,“Ordering Positive Decimals”、“Probability of a Single Event”和“Conversion of Fractions to Percents”,以及它们的学习难度参数。我们为每个概念展示了三个问题:一个简单的一个,一个平均一个,一个艰难的。以“单个事件的概率”概念为例,学习难度参数值(μq)对于简单的为 -0.0515,对于平均为 0.0088,对于困难的为 0.0548。这些习得的难度级别符合我们对这些问题难度级别的理解。

这些结果表明 AKT 有可能应用于现实世界的教育环境。使用估计的难度参数,计算机化学习平台可以 i) 根据每个学习者过去的回答自动为每个学习者选择具有适当难度级别的问题,或者 ii) 通过向教师提供从真实数据中学到的问题难度级别的反馈,支持他们调整课程计划.因此,AKT 改进了现有的 KT 方法,不仅提供了最先进的预测性能,而且还展示了可解释性和个性化学习的潜力。

5 Conclusions and Future work

在本文中,我们提出了专注的知识追踪,这是一种完全依赖于注意力网络的知识追踪的新方法。我们的方法在现有知识追踪方法的基础上进行了改进,建立了问题和回答的上下文感知表征,使用单调的注意力机制来总结过去学习者在正确时间尺度上的表现,并使用Rasch模型来捕捉涵盖同一概念的问题之间的个体差异。在一系列基准的真实世界学习者反应数据集上的实验结果表明,我们的方法优于最先进的KT方法,并表现出良好的可解释性。未来工作的途径包括:i)纳入问题文本,以进一步提高问题和概念嵌入的可解释性;ii)测试我们的方法是否可以提高发生记忆衰减的语言学习数据集的预测性能[26]。

你可能感兴趣的:(知识追踪)