本文是针对论文《家庭适应学校教育冲击的不平等:COVID催生的实时在线学习(Inequality in Household Adaptation to Schooling Shocks: Covid-Induced Online Learning Engagement in Real Time)》的一篇论文解析, 该论文于2020年7月发表于《NBER》期刊上。该研究作者包括Andrew Bacher-Hicks,Joshua Goodman以及Christine Mulhern。
COVID-19使美国的学校全部停止线下授课,而从幼儿园到高三,大约5500万美国学生受到了影响。的学年受到严重干扰。尽管大多数学校很快就开始提供线上教育(Hamilton,2020; Lake,Dusseault,2020),但仍然有学者关注着COVID对教育领域的影响。人们越来越担心这种空前转变的影响(Malkus,2020; von Hippel,2020),尤其令人关注的是,低收入家庭的学生是否会在此次COVID冲击下的“在线教育转型”中受到不平等待遇:由于这部分学生拥有更少的获取线上资源的机会,因此他们所遭受的“线下教学取消”的损失将很难被弥补(Horowitz,2020年)。因此本文作者认为,当前至关重要的是了解COVID-19导致的学校停课对学生获取在线学习资源的影响,特别是对于低收入家庭学生的影响。
本文使用高频且具有代表性的Google搜索数据来实时衡量COVID-19期间学校停止线下授课时,家长和学生如何获取线上学习资源。
本文作者使用了Google趋势(Google trend)来衡量“搜索强度”(search intensity)。Google trend可以提供全国及美国210个DMA(Designated Market Area)区域的每周线上搜索数据,由于这些DMA在地理范围上互不重复,且是可获取数据的最精细的区位级别,因此本文作者选择根据DMA划分,对统计结果进行区域异质性研究。本文将“搜索强度”(search intensity)定义为,对于给定关键字或主题,某一区域搜索量占总Google搜索量的比重。Google trend提供的数据可以实现对“搜索趋势”的跨时间及跨区域比较,且本文将数据转化为对数形式,以便更好地解释回归系数。
本文将搜索关键字及主题设定为与“线上学习”相关的术语,本文作者一共汇总了45个相关词条,并汇总了2015-2020年的每周数据,整理出如下表1所示的“前十位搜索关键词”,其中“school-centered resources”(SC资源)代表某一“学习平台品牌”提供的在线学习资源,而“parent-centered resources”(PS资源)代表常规的在线学习资源,因为SC资源一般都是由学校指导学生使用的,而PS资源一般都是父母自主在网上进行搜索后再提供给学生使用。
从上表可知,无论危机前还是危机后,在美国被搜索最多的线上教育平台还是“Google课堂”(Google classroom),而“可汗学院”(Khan Academy)紧随其后,而普通的线上学习搜索词条(右列)的搜索强度远低于此。
本文作者进一步将两列中的项目组合,来创建2个新的衡量指标。进行这一步处理的原因如下:
1. 对于给定区域内“周搜索数”过低的词条,Google trend并不会公开其数据,因此“交叉项”可以降低这些遗失数据的影响。
2. “交叉项”可以帮助作者更好地了解美国在COVID-19期间对“线上学习资源”的总体需求
3. Google trend一次只允许下载几个词条的数据,因为本文只能选取搜索量最高的词条数据。
在此基础上,本文作者构建了如下变量(1)来衡量前十个搜索词条在某时某地的“总搜索强度”
* 其中,d表示某一DMA区,t表示第t周。美国社区调查(ACS)及斯坦福教育数据档案馆(SEDA)
本文使用了来自2016年美国社区调查(ACS)的县级(county)数据,来衡量COVID-19前每一个DMA区的人口特征,本文作者选取了如下人口特征指标:家庭平均收入,家庭收入中位数、持有学士学位的成人比例、拥有宽带互联网的家庭比例、拥有计算机的家庭比例。由于这五个指标之间的高度相关性,本文作者选取每一个DMA内,用人口加权后最高的指标来进行回归。本文进一步使用来自斯坦福教育数据档案馆(SEDA)的数据来进行补充,如本文作者选取了:农村地区的学校比例和学龄人口的种族组成。下表A2汇总了这些指标的统计性特征:
第一阶段:全国(country-level)“before-after”模型
本文首先估计了“COVID-19导致的学校线下停课”对全国范围内“线上学习资源搜索强度”的影响,回归方程(2)如下:
- 因变量为某一时点,全国“搜索强度”的对数,t代表第t周,w表示一年中t周的位置(1-52),y表示学年(2015-2020)。
- iBeforet和iAftert表示2020年3月1日前后第t周的指标,i表示第t周与基准日期(3月1日)之间的时间差,而这一基准日期则是各州政府开始考虑“学校线下停课”这一措施的起始日期。其中包含了w和y的固定效应(本文作者称之为calendar effects),因此系数βi可以解释为“同比搜索强度差异”。这一变量包含了最近一年52周的数据(3月1日基准周除外),而前四年的数据则被作者用来确定w的固定效应(变量PriorYearst)。这一处理使得βi代表了相对于2020.03.01,第i周“搜索强度”与基于往年数据预测的“搜索强度”的偏离程度。
作者进一步将这些指标全部归纳在PostCovid这一变量内,新的方程(3)如下:
这一处理意味着,β可以解释为“COVID后总体搜索强度的同比增加率”。由于各州政府对“学校线下停课”的政策讨论开始于3月初,且几乎所有学校都在3月16日至3月23日之间停掉了线下授课,因此本文剔除了2020年3月的数据。这也就意味着,式(3)中的β等于式(2)中β4至β12(2020年4月及5月)的平均值。
这一阶段,本文作者使用了“异方差稳健标准误”,且剔除了学校假期时段的数据。
第二阶段:基于DMA的区域异质性-倍差法(difference-in-difference)模型
在这一阶段,本文作者通过将“Covid前/后”指标与“某DMA高/低于各地社会经济状况(SES)均值”的指标进行交互,得到如下方程(4):
其中,γi表示高SES和低SES的DMA之间的每周搜索强度的差异。
通过进一步整理,本文构建了如下模型(5):
其中,β1和β2分别代表了高SES和低SES区域的“COVID后总体搜索强度”的变化,因此式(5)中“β1、β2之差”其实就等于式(4)中“γ4至γ12的平均值”.
此外,本文作者还生成“PostCovid”以及“DMA社会人口特征”(见数据部分)的交互项,来生成这一阶段的“倍差法”模型。
这一阶段,本文作者使用了“DMA聚类标准误”,并用“DMA人口数”进行了加权。在这一部分作者也剔除了学校假期时段的数据。
第一阶段:全国模型
本文研究发现,至2020年3月,最近一年的“线上学习资源全国搜索强度”与往年模式相同,但3月后,同比搜索强度却激增。如下图1所示,往年对PS资源的在线搜索通常在学年初达到峰值后不断下降,直到暑假完全消失,而对CS资源的在线搜索却在学年内较为稳定,并在暑假内大幅下降。而COVID导致的学校线下停课改变了这一模式。从下图1可观察到,到3月下旬,全国范围内对PS和CS学习资源的搜索强度都大致翻了一番,随后,搜索强度开始下降:这可能是由于学生家庭已经找到了适合的在线学习资源。
第二阶段:区域异质性
如下图2所示,COVID后“搜索强度”的变化呈现出了明显的区域异质性:
从上图可以看出,在收入水平较高、父母学历较高且电脑网络技术较为普及的美国东北海岸和西海岸,COVID后的搜索强度也有着显著增加,这表明高SES区域的在线学习资源“搜索强度”也更高。
上图三是根据式(4)回归结果绘制的,可以看出,在收入更高、电脑网络技术更普及的地区(高SES区域),每周的搜索强度明显更高。而到3月中旬,高SES区域的PS和CS的搜索强度都有所提高,且比低SES区域的搜索强度高30%左右,这一差异不仅显著,且并没有随着事件而衰减。
下表2也进一步表明,高SES地区的“COVID后在线学习资源搜索强度”涨幅高于低SES地区。表二中板块(A)是对式(3)回归结果的汇总,板块(B)是对式(5)回归结果的汇总。可以看出,全国范围内,COVID后,各类在线学习资源的搜索强度都有着显著的提高,而搜索强度的增幅在高SES地区则更高。通过观察面板(B)可以看出,无论高SES地区还是低SES地区,PS资源搜索强度的增长幅度都高于CS资源,而在每一类资源内进行比较,可以发现高SES地区的搜索强度增幅都明显高于低SES地区。而板块(B)中,HighSES这一项的回归结果表明,COVID前高SES地区和低SES地区的搜索强度之间并不存在明显差异。因此,本文作者认为,COVID扩大了在线学习资源搜索强度的区域差异。
而通过上表2中的板块(C),可以看出学生家庭收入水平越高、区域内拥有电脑和网络设施的家庭越多,该区域的COVID后搜索强度增长幅度越大,且PS资源的搜索强度增长幅度要高于CS资源。但农村地区学校比例越高、区域内黑人学生占比越高,搜索强度则越低,同样可以观察到,PS资源的搜索强度增长幅度要高于CS资源。
此外,本文还注意到:
1. 下表A5表示,COVID后搜索强度的区域差异与SES呈线性关系,这也就意味着这一差距并不仅是由落后地区单独造成的,同样也受到了发达地区的影响。
2. 下表A6表示,区域间搜索强度差距的扩大不仅仅是各区域之间SES差距的结果,也是区域内部各地SES差距的结果。即使在各区域间进行比较,仍然能观察到基于SES的搜索强度差距。
3. 下表A7则表示,哪怕剔除了低搜索量的DMA的数据,回归结果也没有变化。
通过以上回归结果,本文发现COVID造成的学校线下停课,使线上学习资源的搜索强度急剧增加,停课的冲击使“学校使用在线平台教学”的需求以及“学生家庭使用补充性在线学习资源”的需求均明显增加。而未来“学校停课”或“仅部分学校重新开课”的可能性也使这些线上学习资源在学生的学习生活中继续扮演着重要的角色。
此外,本文进一步发现了,高SES(社会经济状况)地区搜索强度的增加幅度,显著高于低SES(社会经济状况)地区。这一结果表明,接下来的学年里,学生之间的学习差距将比往年更大。
本文研究结果为一些政策性建议提供了支撑。政府可能需要为低SES(社会经济状况)地区及农村社区的学生提供更多的支撑,来帮助他们克服COVID-19带来的教育挑战。由于近期内,在线学习很有可能仍然是学校教育的重要组成部分,因此学习校长和政策制定者更应该重点提高学生家庭对计算机和宽带互联网的使用能力。提高学生对在线学习平台的获取能力,可能将是使学习机会平等化并防止差距进一步扩大的重要举措。
互联网搜索数据有助于我们研究家庭教育选择的演变,以及这些选择中所体现的的社会经济不平等现象。基于本文的研究,未来研究者可以关注“线上学习”的实时变化情况,并通过选取不同搜索关键词、不同国家的数据来开展新的研究。“学生家庭如何适应学校冲击”这一课题还没有得到充分的探索,而互联网搜索数据则可以用于这一课题的研究。本文作者认为,理解并解释学生及其父母对这一冲击的应对方式,对研究者预测COVID对教育的长期影响至关重要。
Andrew Bacher-Hicks,Joshua Goodman,Christine Mulhern (2020). Inequality in Household Adaptation to Schooling Shocks: Covid-Induced Online Learning Engagement in Real Time (No. w27555). National Bureau of Economic Research.
专栏介绍
长按二维码直接进入专栏
本文为唧唧堂《新冠病毒主题论文导读专栏》内一篇论文解析,唧唧堂将在本专栏收录发布所有新冠病毒主题的经济金融社会心理等社科类论文解析导读。
本专栏论文收录无截止时限,现已有超100篇NBER工作论文解析中,未来唧唧堂将源源不断把发现的新冠病毒主题论文放入本专栏,期待各位研究人的关注与订阅。点击了解专栏!
唧唧堂现招募更多经济金融研究人加入写作小组,以更快完成本专栏内容的解析产出。点击加入写作小组!
推荐
订阅