Graph-based Knowledge Tracing: Modeling Student Proficiency Using Graph Neural Network
Abstract
最近,计算机辅助学习系统的进步引起了知识追踪研究的增加,其中学生在课业练习上的表现是随着时间的推移而预测的。从数据结构的角度来看,课业有可能被结构化为一个图。将这种图结构的性质纳入知识追踪模型,作为一种关系性的归纳偏差,可以提高其性能;但是,以前的方法,如深度知识追踪,并没有考虑这种潜在的图结构。受图神经网络(GNN)最近的成功启发,我们在此提出一种基于GNN的知识追踪方法,即基于图的知识追踪。将知识结构铸造成一个图,使我们能够将知识追踪任务重新表述为GNN中的时间序列节点级分类问题。由于知识图结构在大多数情况下没有明确提供,我们提出了图结构的各种实现方法。在两个开放的数据集上的经验验证表明,我们的方法可以潜在地改善对学生成绩的预测,并且与以前的方法相比,表现出更多的可解释性预测,而不需要任何额外的信息。
1 Introduction
最近,计算机辅助学习系统的进步使得知识追踪的研究越来越多[5],学生在课业练习中的表现会随着时间的推移而被预测。准确的预测有助于学生确定适合其个人知识水平的内容,从而促进更有效的学习。这对电子学习平台和教师来说特别重要,因为他们可以提高学生的参与度,也可以防止辍学。虽然已经提出了各种知识追踪方法,但Piech等人[17]报告说,一种称为深度知识追踪(DKT)的方法,利用了循环神经网络(RNN)[24],其性能明显优于以前的任何方法。
从数据结构的角度来看,一个课业可以潜在地被结构化为一个图。掌握课业的要求被划分为知识概念,称为节点,而这些概念共享依赖关系,称为边。让我们考虑一个例子,如下。一个课业知识被分为三个概念v = {v1,v2,v3},对v1的理解取决于对v2的理解。同时,v2又依赖于v3(例如,v1、v2和v3分别代表解二次方程、解线性方程和项的转置)。在这里,概念和它们的依赖关系可以分别被看作是一个图的节点和边,其中边的方向是从v3到v2,从v2到v1。因此,纳入课业知识的图结构性质可以有效地改善知识追踪模型;然而,以前基于深度学习的方法,如DKT,并没有考虑这种性质。以往基于深度学习的方法的架构,如RNN,一般在顺序数据上表现良好,但不能有效处理图结构的数据。
最近,通过深度学习处理图结构数据的图神经网络(GNN)[8]的研究正在获得关注。尽管对这种不规则领域数据的操作对现有的机器学习方法来说是一种挑战,但各种泛化框架和重要的操作已经被开发出来[2, 7, 23],并在各个研究领域取得了成功。Battaglia等人[2]从关系归纳偏见的角度解释了GNN的表现力,它通过纳入人类对数据性质的先验知识来提高机器学习模型的样本效率。为了将这种优势融入到知识追踪中,我们将其重新表述为GNN的应用,并提出了一个新颖的模型,可以在考虑潜在知识结构的同时预测课业熟练程度的过程。
使用GNN进行知识追踪时遇到的一个挑战是潜在图结构的定义。GNN拥有相当大的表达能力,可以对图形结构的数据进行建模;然而,在知识追踪设置的几个案例中,图形结构本身,即相关的概念和关系的强度,并没有明确地提供。人类专家有可能对内容关系进行启发式的手工注释;然而,这需要深厚的领域知识和大量的时间;因此,很难事先为电子学习平台中的所有内容定义图结构。我们把这个问题称为隐性图结构问题。一个直接的解决方案是使用可以从数据中自动得出的简单统计数据来定义图结构,如概念回答的过渡概率。另一个解决方案是在优化主要任务的同时学习图结构本身。最近GNN研究中的一个相关主题是边缘特征学习,为此已经提出了几种方法。尽管这些技术不能直接应用于我们的问题,但它们可以被扩展以使其应用于我们的案例。
使用GNN进行知识追踪时遇到的一个挑战是潜在图结构的定义。GNN拥有相当大的表达能力,可以对图形结构的数据进行建模;然而,在知识追踪设置的几个案例中,图形结构本身,即相关的概念和关系的强度,并没有明确地提供。人类专家有可能对内容关系进行启发式的手工注释;然而,这需要深厚的领域知识和大量的时间;因此,很难事先为电子学习平台中的所有内容定义图结构。我们把这个问题称为隐性图结构问题。一个直接的解决方案是使用可以从数据中自动得出的简单统计数据来定义图结构,如概念回答的过渡概率。另一个解决方案是在优化主要任务的同时学习图结构本身。最近GNN研究中的一个相关主题是边缘特征学习,为此已经提出了几种方法。尽管这些技术不能直接应用于我们的问题,但它们可以被扩展以使其应用于我们的案例。
在本文中,我们提出了一种基于GNN的知识追踪方法,也就是基于图的知识追踪(GKT)。我们的模型将知识追踪重新表述为GNN中的一个时间序列节点级分类问题。这一表述基于三个假设。1)课业知识被分解成一定数量的知识概念。2)学生有自己的时间性知识状态,代表他们对课业概念的熟练程度。3)课业知识被结构化为一个图,这影响了学生知识状态的更新:如果一个学生回答了一个概念,不管是正确的还是错误的,他/她的知识状态不仅会影响到被回答的概念,还会影响到图中相邻节点的其他相关概念。
使用两个公开的数学练习记录数据集的一个子集,我们对我们的方法进行了经验验证。在预测性能方面,我们的模型优于以前基于深度学习的方法,这表明我们的模型在提高学生成绩的预测方面具有很大的潜力。此外,通过分析训练有素的模型的预测模式,可以从模型的预测中清楚地解释学生的熟练程度,即学生获得理解的概念,以及他们对这些概念所需的时间,而以前的方法则表现出较差的可解释性。这意味着我们的模型与以前的模型相比提供了更多的可解释性预测。获得的结果验证了我们的模型在提高知识追踪的性能和应用于实际教育环境的潜力,同时假设目标课件是图形结构的。 我们的贡献有以下几点:
- 我们证明了将知识追踪作为GNN的一种应用,可以提高学生的成绩预测,而不需要任何额外的信息。基于更精确的内容个性化,学生可以更有效地掌握课程作业。网络学习平台可以提供更高质量的服务,以保持高用户参与度。
- 我们的模型提高了模型预测的可解释性。教师和学生可以更精确地识别学生的知识状态,学生可以通过理解推荐的练习的原因而更有动力去做这些练习。网络学习平台和教师可以通过分析学生在哪一点上失败,更容易重新设计课业课程。
- 为了解决隐性图结构问题,我们提出了各种实现方法,并从经验上验证了其有效性。
研究人员可以从性能提升中获益,而不需要人类专家对概念之间的关系做昂贵的注释。教育专家可以有一个新的标准来考虑什么是好的知识结构,以改善课程设计。
2 Related Work
2.1 Knowledge Tracing
知识追踪是根据一段时间内的课业练习来预测学生成绩的任务。它可以表述为 yt = KT (x1, - -, xt),其中xt = {qt , r t }是一个元组,考虑到一个已答的练习qt和该练习在时间步骤t是否答对r t,yt是学生在下一个时间步骤t + 1正确回答每个练习的概率,而KT是知识追踪模型。
自从Piech等人[17]首次提出基于深度学习的知识追踪方法,即DKT,并证明了RNN的相当大的表达能力,许多研究者都采用RNN或其扩展作为KT 。这些模型定义了一个隐藏的状态,或者说是学生的时间知识状态,ht ,并根据学生的练习成绩经常性地更新它。基于RNN的模型必须将x表示为一个固定大小的向量,在许多情况下,xt是由两个二进制向量连接起来表示的,这两个向量分别代表哪个练习回答正确和错误。因此,对于有N个独特练习的数据集,xt∈{0, 1}2N。输出向量yt的长度与练习的数量相同,其中每个元素代表学生正确回答该特定练习的预测概率。训练目标是使模型下观察到的学生回答序列的负对数可能性(NLL)最小。
2.2 GNN
GNN[8]是一种可以在图形结构的数据上运行的神经网络。图是一种数据结构,它将对象和它们的关系分别表示为节点和边。虽然对这种不规则领域数据的操作对现有的机器学习方法来说是一种挑战,但图的相当大的表达能力增加了对GNN的研究,近年来,各种泛化框架和重要操作已经被开发出来[2, 7, 23],并在各种研究领域取得了成功,如社会科学[9, 14]和自然科学[1, 6, 18]。
我们使用GNN的主要动机是卷积神经网络(CNNs)的成功[15]。利用局部连接、权重共享和多层结构,CNN可以提取多尺度的局部空间特征,并对其进行组合以构建富有表现力的表征,从而在计算机视觉等多个研究领域取得了突破。然而,CNN只能在常规的欧几里得数据上操作,如图像和文本,而现实世界中的一些应用会产生非欧几里得数据。另一方面,GNN将这些非欧几里得数据结构视为图,并使CNN的相同优势体现在这些高度多样化的数据上。Battaglia等人[2]从关系归纳偏见的角度解释了GNN和CNN的这种表达能力,它通过纳入人类对数据性质的先验知识来提高机器学习模型的样本效率。
在GNN的几个研究课题中,边缘特征学习[1, 3, 7]与我们的工作最为相关。图形注意力网络(GATs)[21]将多头注意力机制[20]应用于GNN,并在训练过程中实现边缘权重的学习,而不需要预先定义它们。神经关系推理(NRI)[13]利用变异自动编码器(VAE)[12],以无监督的方式学习潜在的图结构。我们的方法假定潜伏图结构是课业知识概念的基础,并使用图运算符对学生在每个概念中的能力的时间转换进行建模。然而,在许多情况下,图结构本身并没有被明确地提供。我们通过设计模型来解决这个问题,通过扩展这些边缘特征学习机制,在优化学生成绩预测的同时学习边缘连接本身。我们在第3.3节中对此进行了详细解释。
3 Graph-based Knowledge Tracing
在此,我们假设课业有可能被结构为图G=(V,E);掌握课业的要求被分解为N个知识概念,称为节点V={v1,–,vN },这些概念共享依赖关系,称为边E?V ×V。此外,我们假设学生在时间步骤t独立地拥有每个概念的时间知识状态,ht = {ht i∈V },这个知识状态随时间更新如下:当学生解决了一个与概念vi相关的练习,那么学生对被回答的概念本身ht i和其相关概念htj∈Ni的知识状态就会被更新。这里,Ni表示与vi相邻的一组节点。
3.1 Problem Definition
在此,我们假设课业有可能被结构为图G=(V,E);掌握课业的要求被分解为N个知识概念,称为节点V={v1,–,vN },这些概念共享依赖关系,称为边E?V ×V。此外,我们假设学生在时间步骤t对每个概念都有一个独立的时间知识状态,ht = {ht i∈V },这个知识状态随时间更新如下:当学生解决了一个与概念vi相关的练习,那么学生对被回答的概念本身ht i和其相关概念htj∈Ni的知识状态就会被更新。这里,Ni表示与vi相邻的一组节点。
3.2 Proposed Method
GKT将GNN应用于知识追踪任务,并利用知识的图结构性质。我们在图1中展示了GKT的架构。下面几段将详细解释这些过程。
3.2.1 Aggregate
首先,该模型对被回答的概念i及其邻近的概念j∈Ni的隐藏状态和嵌入进行汇总。h′t k = h htk , xt Ex i (k = i) h htk , Ec (k) i (k , i), 其中xt∈{0, 1}2N是一个输入向量,代表在时间步骤t中回答正确和错误的练习。
E
x
∈
R
2
N
×
e
E_x \in R^{2N×e}
Ex?∈R2N×e是嵌入概念索引和答案响应的矩阵,Ec∈RN×e是嵌入概念索引的矩阵,Ec(k)代表Ec的第k行,e是嵌入的大小。
3.2.2 Update
接下来,模型根据聚集的特征和知识图结构更新隐藏状态。 其中xt∈{0, 1}2N是一个输入向量,代表在时间步骤t中回答正确和错误的练习。Ex∈R2N×e是嵌入概念索引和答案响应的矩阵,Ec∈RN×e是嵌入概念索引的矩阵,Ec(k)代表Ec的第k行,e是嵌入的大小。
3.2.3 Predict
最后,模型输出学生在下一时间步正确回答每个概念的预测概率。ytk = σ(Woutht+1 k + bk ),其中Wout是所有节点通用的权重矩阵,bk是节点k的偏置项,σ是一个sigmoid函数。该模型的训练是为了最小化观测值的NLL。我们可以利用边缘信息来收集邻近概念的知识状态;但是,我们确认只根据目标概念htk的知识状态来预测ytk更好;因此,我们将图结构信息的使用限制在更新阶段。
3.3 Implementation of Latent Graph Structure and
f
n
e
i
g
h
b
o
r
f_{neighbor}
fneighbor?
GKT可以利用知识的图结构性质来实现知识追踪的目的;但是,在大多数情况下,结构本身并没有被明确提供。为了实现方程1中的潜在图结构和fneighbor,我们引入了两种方法。
3.3.1 Statistics-based Approach
基于统计学的方法根据某些统计数据实现邻接矩阵A,并将其应用于fneighbor,如下:fneighbor(h′t i , h′tj ) = Ai, j fout([h′t i , h′tj ]) + Aj,i fin([h′t i , h′tj ]), (2) 其中fout和fin为MLPs。这里,我们介绍三种类型的图。
密集图是一个简单的密集连接图,其中Ai, j是1 |V |-1,如果i , j;否则,是0。
过渡图是一个过渡概率矩阵,其中Ai, j是íni, j k ni,k,如果i , j;否则,它是0。这里,ni, j表示概念j在概念i被回答后立即被回答的次数。
DKT图是根据训练好的DKT模型的条件预测概率生成的图,由Piech等人提出[17]。
3.3.2 Learning-based Approach
在这种方法中,图结构的学习是与性能预测的优化同步进行的。这里,我们介绍三种学习图结构的方法。
参数化邻接矩阵(PAM)简单地将邻接矩阵A参数化,并在某些约束条件下用其他参数对其进行优化,使A满足邻接矩阵的属性。 fneighbor的定义与公式2类似。
多头关注(MHA)利用多头关注机制[20],根据两个节点的特征推断出它们之间的边缘权重。fneighbor定义如下:fneighbor(h′t i , h′tj ) = 1 K ? k ∈K αk i j fk (h′t i , h′tj ),其中k是总共K个头中的头索引,αk i j是第k个头从vi到vj的注意权重,fk是第k个头的神经网络。
变量自动编码器(VAE)假设离散的潜变量代表了边缘的类型,并根据节点特征推断出它们。fneighbor定义如下:fneighbor(h′t i , h′tj ) = ? k ∈K zk i j fk (h′t i , h′tj ) ,其中k是总共K种类型中的边缘类型,zk i j是从Gumbel-Softmax分布中采样的潜变量[16],fk是第k种边缘类型的神经网络。VAE使编码分布q(z|x)和先验分布p(z)之间的NLL和Kullback-Leibler分歧最小。使用一个边缘类型来代表 "非边缘 "类,意味着没有消息沿着这个边缘类型传递;此外,在 "非边缘 "标签上设置一个高概率,鼓励生成一个稀疏的图。
3.4 Comparison with Previous Methods
所提出的方法与之前的方法的比较可以通过两个方面来完成。我们在图2中展示了这种比较。
第一个方面是学生的时间知识状态的定义,ht。在DKT中,ht被表示为一个单一的隐藏向量,每个概念的知识状态没有被分开。这使每个概念的知识状态的建模变得复杂,并导致长时序的性能下降,以及模型如何预测学生对每个概念的熟练程度的低可解释性。为了解决这些缺点,Zhang等人[25]提出了动态键值记忆网络(DKVMN),它利用两个记忆矩阵,其中一个可以被视为学生时间知识状态ht的堆栈,为每个概念分别定义。虽然这与GKT几乎相同,但它们略有不同,因为GKT直接为每个概念的知识状态建模,而DKVMN则定义了另一个低维的潜在概念,随后为其知识状态建模。
另一个方面是指在知识状态更新过程中概念之间的相互作用。在DKVMN中,原始输入概念和潜概念之间的关系权重是通过一个简单的点积关注机制来计算的,这可能不足以对知识概念之间的复杂和多重关系进行建模。同时,GKT使用K个不同的神经网络对K个边缘类型的输入概念之间的关系权重,或边缘权重进行建模。这样就可以对概念之间的多种复杂关系进行建模。
4 EXPERIMENTS
4.1 Datasets
在实验中,我们使用了学生数学练习日志的两个开放数据集:ASSISTments 2009-2010“skill-builder”由在线教育服务 ASSISTments1(以下称为“ASSISTments”)提供和 Bridge to Algebra 2006-2007 [19] 用于KDDCup 教育数据挖掘挑战赛(以下简称“KDDCup”)。在这两个数据集中,每个练习都分配了人类预定义的知识概念标签。我们在表 1 中提供了每个数据集中现有概念标签的示例。
我们使用特定条件预处理每个数据集。对于ASSISTments,我们将同时回答的日志合二为一,随后提取与命名概念标签相关联的日志,最后提取与至少10次回答的概念标签相关联的日志。对于 KDDCup,我们将问题和步骤的组合视为一个答案,然后提取与命名且非哑元的概念标签相关联的日志,最后提取至少 10 次回答的概念标签相关联的日志。由于频繁同时出现的标签,将同时的回答日志组合成一组可以防止不公平的高预测性能。排除未命名或虚拟的概念标签可以消除噪音。用回答每个概念标签的次数对日志进行阈值处理,以确保有足够数量的日志来消除噪音。在使用上述条件对数据集进行预处理后,我们为 ASSISTments 数据集获得了 62, 955 个日志,由 1, 000 名学生和 101 项技能组成,并为 KDDCup 数据集获得了 98, 200 条日志,由 1, 000 名学生和 211 项技能组成。
4.2 Implementation Details
对于每个数据集,我们将学生分成训练:验证:测试 = 8:1:1。我们使用训练学生的数据训练模型,并使用验证学生的数据调整超参数。
DKT 我们按照 Piech 等人搜索了超参数。[17]。隐藏层的大小为 200,我们为 RNN 使用了 GRU。我们应用了从 ht 到 yt 的 dropout,下降率为 0.5。批量大小为 32,我们使用 Adam [11] 作为优化器,学习率为 0.001。
DKVMN 我们跟随 Zhang 等人搜索了超参数。[25]。 ASSISTments 数据集的内存槽大小为 20,KDDCup 数据集的内存槽大小为 50。 ASSISTments 数据集的隐藏向量大小为 32,KDDCup 数据集的隐藏向量大小为 128。批量大小为 32,我们使用 Adam 作为优化器,学习率为 0.001。
GKT 所有隐藏向量和嵌入矩阵的大小为 32。对于模型中的 MLP,我们将隐藏向量中的 dropout 应用到输出向量,丢弃率为 0.5,并对输出应用批量归一化 [10]层。批量大小为 16,我们使用 Adam 作为优化器,学习率为 0.01。我们在 MHA 和 VAE 中设置 K = 2,以便公平比较基于学习的方法和基于统计的方法,作为后者假设了两种边缘类型:传入边缘和传出边缘。
4.3 Prediction Performance
首先,我们评估GKT的预测性能。我们将DKT和DKVMN作为基线,并将GKT的曲线下面积(AUC)得分与它们进行比较。我们在表2中列出了结果。每个数据集的最高分都用粗体表示。在这两个数据集中,GKT的AUC得分都是最高的。这表明GKT能够比以前的方法更好地追踪学生的知识状态,因为以前的方法不考虑知识图谱结构。在基于统计的方法中,过渡图或DKT图的表现优于简单密集图。这表明以某种方式表示节点之间的稀疏关系使GKT的表现更好,尽管改进的程度很小。在基于学习的方法中,使用基于节点特征的神经网络估计边缘信息的MHA或VAE比PAM表现更好,因为后者只是优化了邻接矩阵。然而,这两种方法的最佳性能几乎相似,而表现最好的方法在两个数据集之间是不同的。因此,有必要对各种数据集进行进一步的实验。
4.4 Interpretability of the Prediction
接下来,我们将模型如何预测学生的知识状态随时间的变化进行可视化,并评估其预测的可解释性。这种可视化帮助学生和教师有效而直观地认识到前者的知识状态;因此,其可解释性很重要。在这里,我们根据以下两点来评估可解释性。 (1)在时间T之前,随机抽取学生的做题情况
(2)在训练模型的输出层,移除掉偏差向量。
(3)将学生的回答向量
x
t
≤
T
x_{t ≤T}
xt≤T?输入到训练模型,并将输出向量
y
t
≤
T
y_{t ≤T}
yt≤T?进行叠加
(4)将输出值进行正则化,结果控制在0到1之间
我们随机抽出一个学生,在图3a和3b中描述了学生对一个概念子集的知识状态变化。x轴和y轴分别表示时间步骤和概念指数,单元格的颜色表示在该时间步骤中能力水平的变化程度。绿色表示增加,红色表示减少。我们把回答正确和不正确的元素分别用"?"和"×"来填充。
如图3a所示,GKT只更新相关概念的知识状态,而DKT则不明确地更新所有概念的状态,不能模拟相关概念的变化。此外,图3b显示,虽然概念29没有被回答,但它的知识状态在t=28和t=75时被明确更新。在这些时间步骤中,概念4得到了正确的回答,而且给定的图显示了概念4和29之间的边,如图的右侧所示。这表明,GKT根据给定的图明确地模拟了学生的知识状态。然而,DKT并没有表现出这种行为。这些结果表明,GKT可以对每个概念的学生熟练程度进行独特而合理的建模,并提供更多可解释的预测。
4.5 Network Analysis
最后,我们从训练好的GKT模型中提取学习到的图结构并进行分析。在基于学习的方法中,GKT学习了有助于预测学生成绩的图结构。因此,从表现出高预测性能的模型中提取的图可以提供对好的知识结构的洞察力。
图4描述了这些网络,其中左边是网络概览,右边是图形的局部连接。节点的颜色从蓝色到红色分级,其中越早回答的练习,色调越蓝。节点的大小与它们的外度成正比,意味着较大的节点影响更多的节点。
首先,在DKT图中,为了便于比较,类似颜色的节点会相互连接,从而产生集群。由于DKT用相同的单一隐藏向量对所有概念的隐藏状态进行建模,对概念之间的长期依赖性进行建模是很困难的。因此,该模型倾向于学习以时间上接近的顺序回答的节点之间的依赖关系。从PAM中提取的图表现出与DKT图类似的结构,其中构建了集群;从图的右上方,我们可以察觉到一些几何概念是相连的。从MHA中提取的图显示了来自某些节点的几条外延线。
尽管该模型有可能学到了一些与其他图形不同的概念之间的特殊依赖关系,但其预测可能是有偏见的。因此,我们必须评估这种结构对预测性能的影响。从VAE中提取的图与其他图不同,它形成了一个密集的图,其中几个节点相互连接。虽然这些连接中有许多难以解释,但从图的右下方,我们可以确定一些统计概念是相连的。
5 DISCUSSION
5.1 Differences Between Learning-based Approaches
在这项研究中,为了解决隐含图结构问题,我们提出了两种实现方法,同时在基于学习的方法中开发了三种方法,即PAM、MHA和VAE。
在下文中,我们将讨论它们之间的区别。PAM和其他两种方法的区别在于识别边缘特征估计是否可以被条件化。在PAM中,邻接矩阵被直接优化,并且不存在估计边缘特征的条件。而在MHA和VAE中,可以选择边缘特征预测的条件;在这里,我们选择了概念嵌入Ec作为输入,这样就可以学到一个对学生不变的稳定的概念图,这也是知识追踪最相同和简单的设置。
MHA和VAE的区别在于计算边缘权重的方法。在MHA中,当一个概念i被回答时,注意力分数被计算出来并在所有相邻的概念中被归一化。此外,MHA可以利用多头关注为每条边缘学习k个边缘权重。而在VAE中,基于被回答的概念对和其相邻的每个概念,每个边缘特征都是独立计算的;Gumbel Softmax函数只渲染了k个边缘权重中的一个接近1,其他接近0。此外,VAE 可以定义一些先验分布,从而可以定义整个图的稀疏性。
因此,如第4.5节所示,每种方法都学习了不同的图结构;然而,我们发现它们的预测性能有微小的差异。在边缘估计中加入一些约束条件有可能导致预测性能的差异。因此,从基于学习的方法中选择的影响必须作为未来工作的一部分进行调查。
5.2 Dataset Generalizability
在这项研究中,为了验证我们模型的性能,我们使用了原始数据集的一个子集,如第4.1节所述,为了减少噪音,排除了数据少的学生和概念。尽管实验证明了我们的模型在提高预测性能及其可解释性方面的潜力,但我们必须放松限制,以证明在先前研究的相同设置下,我们的模型的好处可以更清楚地显示出来。
此外,我们必须验证我们的方法在不同主体数据集中的适用性。我们使用的数据集的主体仅限于数学,就像Piech等人[17]的情况一样。鉴于存在DKT应用于编程教育的报告[22],并且GKT是一个通用算法,完成了之前的算法,如DKT,GKT也可以在各种学科中有效。然而,不同的科目会表现出不同的潜伏图结构;因此,我们必须比较科目对我们模型的影响,例如,什么类型的图适合预测学生的成绩,或者可以从基于学习的方法中获得。
5.3 Incorporating Richer GNN Architectures
我们提出了第一个基于GNN的知识追踪方法,并验证了相对简单的架构。在下文中,我们讨论了改进我们模型的三个方向。
一个是根据节点的边缘类型,对节点之间的信息传播施加适当的约束。在这项研究中,为了进行公平的比较,我们为基于统计和基于学习的方法定义了两种类型的边缘。然而,我们并没有对每个节点类型施加任何约束;因此,每个节点类型的意义,如依赖方向和因果关系可能是轻微的,特别是对于学习的边缘。解决这个问题的方法是根据节点的边缘类型对节点之间的信息传播施加一些约束,例如,为边缘定义方向,并将传播限制在一个方向,即从源节点到目标节点。此外,这可以作为一种关系性的归纳偏见,并提高GKT的样本效率和可解释性。
另一种是将所有概念共有的隐藏状态,如DKT的隐藏状态,纳入GKT。虽然只采用单一的隐藏向量来表示学生的知识状态,使DKT中概念之间复杂的相互作用的建模变得复杂,但在GKT中加入这种类型的表示,可以通过作为全局特征来提高性能[2]。全局特征意味着每个节点的共同特征,可以代表可变概念之间共同的知识状态,或者代表学生的原始智能对个别概念理解的不变性。 最后一个可能的解决方案是实施多跳传播。
在这项研究中,我们将传播限制在单跳,即在一个时间步骤中,某个节点的回答信息只传播给它的邻近节点。然而,为了有效地模拟人类的学习机制,使用多跳将是更合适的。此外,这可以使模型学习到稀疏的连接,因为模型可以将特征传播到远处的节点,而不与其他节点连接。
6 CONCLUSION
我们提出了一种基于GNN的知识追踪方法,称为GKT,它考虑了以前基于深度学习的方法所忽视的潜在知识结构。我们将知识结构铸造成一个图,并将知识追踪任务重新表述为GNN的应用。在两个开放的数据集上进行的经验验证表明,我们的方法有可能改善对学生能力的预测,并且比以前的方法表现出高度可解释性的预测。 这些结果证实了我们的方法在提高知识追踪性能方面的潜力以及将其应用于实际教育环境的可能性。我们相信这项工作可以帮助改善不同环境下学生的学习经验。
|