Brunmair, M., & Richter, T. (2019). Similarity matters: A meta-analysis of interleaved learning and its moderators. Psychological bulletin, 145(11), 1029.
https://www.researchgate.net/publication/335004545_Similarity_matters_A_meta-analysis_of_interleaved_learning_and_its_moderators?enrichId
1 Introduction
归纳学习是人们获取知识的重要方法。概念化知识能够直接被人们习得,然而归纳学习指的是人们基于实际的案例来对概念进行学习。相对而言归纳学习更接近于是一种保守的学习方式,因为归纳学习的实现条件并不需要相对正式的学习指导,人们处在不同的环境中也能进行归纳学习,从婴儿学习语言到医生区分x光。非常多领域都意识到并且在研究归纳学习的重要性。
因为人们可以在不同环境中进行归纳学习,归纳学习的学习对象也会非常广阔。根据已知实验,包括了归纳区分生物物种、学习绘画风格、学习数学方法、学习心理疾病等等。同时影响归纳学习效果的因素有很多,其中多数都能被归类为学习材料和学习者的特点。其中一个重要且容易操作的影响因素就是学习材料的呈现方式。一种是组块呈现方式,就是讲同一类的学习材料在一组内集中呈现学习,另一种是交叉学习,每个学习材料都交叉着其他不同类型的学习材料呈现。有相当一部分研究表明交叉学习的效果会更好,但也有说交叉学习的学习效果不佳的,并指出学习效果的优势只在特定条件呈现。
这篇元分析的目的是分析交叉学习在不同学习材料、不同学习条件、不同学习者之间会呈现出怎样的正向效果,或者是逆向效果。
1.1 Interleaving duringlearning: an illustration and a definition
其中一种操作间隔的方法是操纵不同学习项目之间的学习间隔。很多实验已经证明了学习之间存在间隔效应,间隔效应指的是当学习相同种类的学习项目时,学习过程就不在需要学习的分类结构。此外,许多研究在研究间隔效应的时候,相同的学习项目会不断的重复。而在交叉学习时,同一种类型的学习项目则会被其他类的学习项目隔开。在Kornell & Bjork(2008)的研究中,他们采用了12位画家的画作为学习项目来进行交叉学习的实验。在学习阶段其中六位画家的画被交叉呈现,另外六位画家的画以一个画家一个画家以组块的形式呈现。一共学习12组(MSSMMSSMMSSM,M代表组块学习,S代表交叉学习)。测试的任务会展示一幅画要求被试对其作者做出对应。从结果来看,交叉学习的画被试会学习的更好。因此这个范式也在绘画学习的研究中广泛应用。这只是其中一个研究,还有其他不同领域学习的研究说明了交叉学习的特点,作者想要以量化的角度去研究这些因素的影响。
既然要研究交叉学习效应,就要做出定义,交叉效应的定义为:an interleaved compared to a blocked inductive learning condition onthe performance in a subsequent category discrimination or classification task。交叉效应的反面就是组块效应(blocking effect)。
根据交叉效应的定义,可以排除一些个例,比如,Duggan and Payne (2001) 的研究即时交叉了学习材料,也更多的关注被试对学习程序的影响(并非直接学习对象),不考察区分任务或者归纳学习,因此不算在里面。同样考察CI(contextual interference)的研究也应该排除,除非这些研究也能严格符合定义研究交叉学习。CI的研究更多关注运动学习比如篮球投篮训练,很多运动技能的学习都可以认为是归纳学习的一种,尽管有这么多相似之处,但存在重要的概念性的不同。运动学习是程序化并且存在大量的内隐学习,不存在概念化的知识和框架。而归纳学习的对象更强调陈述性的学习成分,学习者非常清晰的知道自己在学什么。另外一个重要指标是学习者可以对不同的学习对象进行严格的区分。因此研究CI的运动学习多数都不符合这个标准,也就不归于归纳学习中。但仍然把严格研究交叉学习和组块学习差异效果的研究纳入其中。
1.2 Key theories onthe interleaving effect
1、Discriminative contrast hypothesis
该理论基于一个研究现象:交叉学习条件下学习项目之间的时间间隔会阻碍归纳学习,并且对组块学习没有帮助。并且Kang and Pashler提出减少时间间隔能够提高学习序列中学习项目之间的对比度以帮助被试提高区分度。
2、attention bias framework(aka sequentialattention theory)
这个理论在Discriminativecontrast hypothesis的基础上,认为交叉呈现的方式强调了不同项目之间的差异,而组块呈现则更强调相似度。因此在学习不同类型的项目、学习存在不同项目的结构时显然是交叉学习的方式会更好。学习不同类型项目结构的关键就是发现项目之间不同或者相同的特定并加以区分归类
3、massing-aids-induction hypothesis
这个理论认为组块的区分提高了归纳学习,因为促进了被试对同一类型共同特点的学习,但这个理论不能解释交叉效应带来的好处,也只能解释一些交叉学习效果不好的情况。
1.3 Generalizabilityand potential moderators of interleaving and blocking effects
1、type of learning materials
最常用的的学习材料时视觉材料,可以是描绘自然风光的图像(比如照片或者画),也可以是描绘人造物的。已经有不少研究证明了自然图像能够帮助被试区分不同画风(Metcalfe & Xu, 2016; Kang & Pashler, 2012; Kornell &Bjork; 2008; Kornell et al., 2010; Verkoeijen & Bouwmeester, 2014; Zulkiply, 2015; Zulkiply & Burt, 2013a, 2013b)、区分不同类型的鸟(Birnbaum et al., 2013; Wahlheim et al., 2011)的学习。然而对于人造物的图像则有不同的结果。Lavis and Mitchell采用了20x20网格的彩色图像,图像之间的分类有六个特殊的特征定义,另一个例子是Higgins and Ross (2011)所用的外星人图像。
多数人造物图像的结构都表明交叉效应的正面性,也有研究指出了相反的结果。比如,当不同类型的学习对象本身区分度就很大时(Zulkiply & Burt, 2013b)、要做到区分需要一些先验知识铺垫(Noh, Yan, Bjork, & Maddox, 2016)或者被试在被动学习的状态(Carvalho & Goldstone, 2015a)。
同样,当学习材料时说明性文字时,也会出现不同的结果。Zulkiply and Burt (2013a)研究发现交叉学习能够帮助对不同心理疾病的学,但Dobson (2011)发现交叉学习对被试学习人体免疫系统的知识时没有帮助。
当学习数学任务时,也会出现不同的结果。当区分采用不同体积公式的固体几何图形时,或者采用不同计算棱角边长公式的固体几何图形时有正向的交叉效应(Taylor & Rohrer, 2010)。但是Sana et al. (2017)发现,如果学习对象是统计概念、语言化描述的研究时,没有正向的交叉效应,也有研究报告说部分学习概念完全没有交叉学习效应或是组块学习效应。
学者认为,出现这样的情况是部分数学任务可以采用多个维度去区分,数学任务可以由不同的范畴维度排列交叉顺序(Rau et al., 2013)。可能对于“正交”这个维度去区分是交叉排列,但是其他维度则不是。不是一种合适的测试工具。
绝大多数研究包含了以上积累研究方法,但也有采用味觉、发音、未见过的事物作为学习对象的研究。
2、material characteristics
根据attentional bias framework,分类内和分类间的相似度会影响交叉学习效应。当分类之间的区分更难时交叉学习则会有更加积极的影响。(Carvalho & Goldstone, 2014a, 2015a, 2017; Zulkiply & Burt,2013b)
3、retention interval
多数研究没有发现学习方式和保留间隔之间存在交互作用,也很少有研究会控制保留间隔这个变量,只有一个研究发现,保留30天的交叉学习效果会比保留一天的交叉学习效果好
4、retention vs. transfer test
归纳学习可以采用retention和Transfer的方式来测试其学习程度。许多实验都会同时报告retention和transfer。
5、successive vs. simultaneous presentation
交叉学习可以有两种不同的呈现方式,连续的和同时的。连续的表示带学习的项目一个一个呈现出来,而同时的表示待学习项目多个同时呈现出现。目前并不清楚两种方式的的效果好坏,Wahlheim et al. (2011)的实验认为同时连续呈现会更好,但也有实验(Higgins & Ross, 2011; Mundy, Honey, & Dwyer, 2007)认为同时呈现更好,也有实验做出来没有关系。
6、temporal spacing
有些学者认为项目之间的时间间隔能够帮助归纳学习,因此认为可能是时间间隔导致出现归纳学习效应,因为交叉学习本身就带有学习项之间的时间间隔。然而有些研究发现有些没有加额外的时间间隔的交叉学习的学习效果会更好,并且组块学习不受时间间隔影响(Birnbaum, et al., 2013; Kang & Pashler 2012; Mitchell, Nash,& Hall, 2008; Zulkiply & Burt, 2013b)
7、age
很少有研究涉及年龄这一因素,只有Lin et al. (2016)发现,更年轻的成年人会从交叉学习中受益更大,同时他是从MRI数据中发现这一结论的,表明交叉学习会伴随着更加活跃的脑部活动
8、population
多数研究的被试都是在校大学生,同样有些研究采用了线上数据,以及部分儿童的数据。其中有一个实验涉及到老年人。
1.4 Rationale ofthe Present Study
做这个全面的元分析除了研究交叉学习对学习效果的影响,还有两个目的。第一个是了解交叉效应的普遍性。有许多研究认为归纳学习有潜力成为一种普及的教学工具。然而对这样一种教育工具能普及到什么领域并不了解,应用效果,学习条件,学习材料也不清楚,同时也不清楚这种教学能让学生记忆多久。第二个目的是了解影响交叉效应的两个调节因素——类别内的相似性和类别之间的相似性。研究者提出更高的类别间和类别内相似度会促进交叉学习的效果。The discriminative-contrast hypothesis认为时间间隔对交叉学习的效应有重要影响,同时认为相邻的不同类别的学习项目在时间和空间上越接近效应越强。
2 Method
2.1 Review criteria
采用interleav block random schedule pract effect等词进行关键词搜索
2.2 Selectioncriteria
1、实验设计包括交叉学习和组块学习
2、保留时间、结果测量、每项学习的时间、时间间隔在交叉学习和组块学习一致
3、有效的数据报告
2.3 Coded variables
2.3.1 Study characteristics
Published vs. unpublished studies
Student vs. nonstudent samples
Mean age
2.3.2 Characteristicsof the intervention
Design、Intentional vs. incidental Learning
Temporal spacing
Simultaneous vs. successive presentation
Retention Interval
Retention vs. transfer tests
2.3.3 Type of learningmaterials
1、大师的画作;2、自然生物的照片;3、人造物的照片;4、数学任务;5、说明性文
6、单词;7、对液体的味觉
2.3.4 MaterialCharacteristics
1、类别间的相似性
2、类别内的相似性
3、复杂度
4、熟悉度
5、好奇程度
作者开发了一套量表工具用来评估描述所有学习的材料的特点。分类和评分的依据来自实验本身的图文描述。一共有5位评选成员来评选。评价结果的信效度如表1,最后好奇程度因为过低的信度被删除。
2.4 Effect SizeCalculation
首先,作者会计算组块学习和交叉学习的差异效应量。所有组间的效应量用Cohen’s d来衡量,组内的用Cohen’s dav来衡量。接下来,作者会用d来计算Hedges’g,因为d往往会高估小样本的效应量,并且和d有一样的能表示效应量的效果。
3 Result
作者做出了k=238效应量的158份样本。一共8466位被试,平均年龄为21.32岁。并且一共有71份不同的学习材料。
3.1 OverallEffect of Interleaving and Generalizability across Learning Materials
Table2为实验的主要结果,作者采用多层级模型解决嵌套结构问题——解决相同样本中不同效应量的相关。作者还使用了仅包含独立效应的模型来进一步控制包含依赖效应所引起的潜在偏差。最后作者还会报告样本内和样本间的异质性
3.1.1 Effect ofInterleaving
作者发现了一个整体为正向的交叉效应(k = 238; g = 0.42; p< .001, 95% CI [0.34, 0.50]),当使用只包含独立效应的两级随机效应模型进行估计时,总体交叉学习效应几乎相同(k = 138; g = 0.43; p < .001, 95% CI [0.35, 0.51])。同时我们用一个包含独立效应量的两级随机效应模型进行评估,这种方法能够忽略独立效应量导致的嵌套结构,因为过量的样本会提供过多的效应量。这个模型下总体效应量是向下倾斜的(k = 238; g = 0.36; p < .001, 95% CI [0.29, 0.42])。因此,与只提供一种效应大小的样本相比,基于提供一种以上效应大小的样本的交叉学习效应的平均g值显著低于只提供一种效应大小的样本。总的来看多重等级是个可行的测量方法。
3.1.2 Generalizabilityacross learning materials
作者发现了不同学习素材之间的显著差异(k = 238; QM = 52.64,p < .001),间隔学习对所有视觉刺激有正向效果,最高的效应量是画作(g = 0.67, p< .001, 95% CI [0.57, 0.77])和自然照片(g = 0.35, p <.001, 95% CI [0.16, 0.55])。在文字任务中,只有数学任务是有积极的交叉学习效应g =0.34 (p = .005, 95% CI [0.11, 0.57]),说明性文字没有效应,而单词则有反向的交叉学习效应(g = -0.39 (p > .001, 95% CI [-0.64, -0.14])。异质性在表2中有报告。
3.2 ModeratorAnalysis: Meta-Regression Models
作者采用了一系列三个嵌套的元回归模型来评估调节变量对交叉学习效应的影响(表三)。在模型1中,作者输入了研究和特定干扰特点(?),在模型2中,作者加入了量化的学习材料特点作为潜在的条件变量,包括了学习项目的相似性。在模型3中添加了一系列画的学习材料作为分类依据除了基于效应量总体样本的分析外,我们还分析了效应量的子集,以评估调节因子效应的稳定性(敏感性分析,表4)。这些子集包含了来自独立样本的效应量。同时,区分味觉和时间间隔的研究不在调节分析内因为样本特殊,会给分析带来噪音。
作者使用模型3来政策异常值,一共有12个异常值被排除
3.2.1 Type ofLearning Materials
作者讲学习材料类型归在模型3中测试不同学习材料带来的差异是由研究设置和材料特点导致的。以画作作为标准材料,其他材料交叉学习的效应量仍然全部显著小于画作。说明性文字的负权重最高(b = -0.56; SE = 0.18; p = .001),以此是单词(b =-0.48; SE = 0.23; p = .014)和数学任务(b = -0.43; SE = 0.18;p = .004)。总的来说,相比于模型2没有加入学习材料,不同种类的学习材料解释了4%的变化量。
3.2.2 MaterialCharacteristics
和attention bias theory估计的一样类别间的相似度对交叉学习有正向的影响,而类别内的相似度对交叉学习有负向的影响。熟悉度在所有模型中都是对交叉学习效应的影响最大的特点。复杂度在不同的模型和样本中呈现了不同的结果
3.2.3 Design
无明显结果
3.2.4 Intentionalvs. Incidental Learning
随机学习对效应量有负向的影响。然而,这些影响没有达到统计的显著。
3.2.5 RetentionInterval
无影响
3.2.6 Simultaneousvs. successive presentation
无影响,作者用只做了只有两个呈现方式都能够操作的研究,发现连续呈现的效应量更大(g= 0.44, p < .001, 95% CI [0.24, 0.64]),同时呈现的效应量更小(g= 0.29, p = .005, 95% CI [0.09, 0.50]),但是差异不显著
3.2.7 Retentionvs. Transfer
没有发现影响
3.2.8 StudentSamples
大学生的效应量相对更高
3.2.9 Publishedvs. unpublished studies
无影响
3.2.10 Mean Age
年轻人的效应量会更高,但是相对而言年龄只能解释13.4%的样本差异,而且对于那些视觉素材来说年龄解释了30.9%的差异。
3.2.11 Temporalspacing
时间间隔对交叉学习效应有显著的影响。同时发现了只有对立即连续切换的学习目标来说有显著的交叉学习效应(g = 0.73, 95% CI [0.51, 0.95]),而对长时间的间隔的学习项目则没有(g = 0.22, 95% CI [-0.13, 0.45])。同时有干扰项的呈现方式也会对交叉学习效应有影响(g = 0.51, 95% CI [0.07, 0.96])
4 Discussion
4.1 Generalizability
4.1.1 Learning material
作者的研究发现,视觉素材作为学习对象能够产生非常显著的交叉学习效应,而对于研究者来说,视觉素材是非常好的能够让被试采用分类结构归纳学习的工具。然而,对于说明性文字以及味觉来说,交叉学习没有好处。当学习素材是单词,交叉学习甚至呈现出了负作用。统计分析结果说明,学习材料之间存在显著的异质性。作者采用了随机影响模型来检测效应量是否来自随机变量,结果是否定的。数学任务和说明性文字有很微弱的交叉学习效应。而且因为数学的多维度分类,作为测量工具不是很好。
4.1.2 Populationand age
研究发现交叉学习在学生群体中有最好的表现。然而,这个不是一个可信的结论。因为绝大多数的样本都是学生群体,没法和少量的非学生被试比较。学生群体的效应量自然会大。对于年龄,年轻成年人的交叉学习效果更好,而且这个结果非常显著,但是也有研究质疑认为因为绝大部分研究对象是学生群体,且多数都是视觉素材的学习对象,效应量自然高。
对于年龄在交叉学习上出现的差异可以用认知功能在年龄上的变化解释。Lin et al. (2016)的研究通过心理生理的范式(MRI)研究了脑区活跃度和交叉学习/组块学习的关系。年轻人展现出了更有效的小环境拓扑结构,更强的功能隔离,以及较高的网络中心性和交叉练习后更好的学习之间的重要联系,然而老年人则没有。当然也有其他学习分类理论能够解释这个现象,比如年轻人和老年人因为隔代在思维方式上的差异;随着年龄的变化语言和内隐学习功能的变化等等。但是这个结果和别的研究存在出入,有研究发现年龄是一个无关变量。
4.1.3 Retention vs. transfer tests
无影响
4.2 Theoretical and practical implications
本研究的结果支持了discriminative contrast hypothesis和attentional bias framework,发现当项目间无间隔或干扰时,交替式学习更加有效。当项目间间隔过大时,可能会阻碍特征的识别和类别的区分。
与attentional bias hypothesis一致,本研究发现当类别间的相似性增加、材料变复杂时,interleaving effect也变大。当类别内的相似性增加时,interleaving effect变小。
对于实际应用,本研究结果强调了交替学习可以有效的促进归纳学习。但对于不同类型的学习材料会有不同程度的影响。当使用写实的视觉刺激作为学习材料时,交替式呈现的效果很好,且最好是刺激比较复杂、不同类别难以区分、同一类别内的样本相似度较低。因此,在诸如艺术史、生物学、医学、地质学和其他需要对复杂的自然视觉刺激进行区分和分类的学科中,交替式学习可能是一种非常有用的教学工具。
交替式学习同样可以促进对人为图片的归纳学习,比如描述抽象过程、理论模型、集合对象或化学元素的逻辑图或示意图。但如果使用这些图片的目的是降低复杂性并强调不同概念间的差异时,交替式学习可能不太有效。
而当学习材料是数学任务、说明性文字、语法规则、外国语言或单词(如名字)时,并不鼓励使用交替式学习。