本项目对中国大学Mooc的国家精品栏目进行了探索分析,共815门课程,涵盖12个字段,于3月29日由web scraper爬取获得,通过python进行数据清理,最后由tableau完成可视化及分析。
爬取结构如上图,数据清理部分详见github。本文将对分析及可视化就以下几个部分进行阐述(以下对中国大学Mooc国家精品课简称为mooc):
清理后在tableau中打开,部分数据如下图:
先简单探索一番,熟悉数据。如下图为最近一期课程开课时间—数量对应图。
很明显,mooc的两个开课高峰点是三月和九月,分别对应春、秋两个开学季。这里春季的开课数量显著高于秋季是由于本次数据爬取于三月末,此时乃春季开课高峰,图中显示的秋季小高峰对应的是一部分上一期在秋季开课的课程。
探索阶段实际上会打开更多的标签页 ,意在对分析对象有一个整体把握,为深入分析做准备,这里就不展开。
开课数量的专业前三名分别是,理学、计算机、工学,其中理学和计算机的平均值和中值表现还不错。理学稍有水分,因为探索分析时发现,理学中高等数学(一)的参加人数占了很大比例。工学的问题很明显,以开课数第一名(高于第二名30个点)的成绩在参加人数上被第一、二名远远甩在身后。考虑到前两名一个是理学(理科)一个是计算机(互联网),光看总人数似乎也没有大问题;但取出平均数和中值,可以看到工学参加人数的平均数和中值均是第二名。结合上面的数据,从需、求两方面分析可以有以下推测:
1.工学学子们还没有习惯听网课学习。(如果是这样(工科学子覆盖较低),可以考虑向工科院校推广慕课)
2.工学类课程众多,有较多的小众冷门课程
3.工学类各学校同一科目考核的重点不同,学生学习以课堂学习为主
这里引入了平均值和中值,其中平均值可以更加客观地表示专业类别(整体上)课程的需求,而平均值和中值的组合可以让我们大致了解特定专业类下课程参加人数的分布。参加人数只是笼统地表示了该专业类课程的受众基数。
举例来说,如果平均值大而中值较小的话,说明整个组成主要是小值,平均值是由极大值的突出引起。如上图的外语,外语专业类别下课程的参加人数如下:
上面我们分析出工学课程的覆盖可能存在问题,顺着思路我们试着对用户画像、用户行为分析,由此从为数不多的字段中提取了这样的简单行为逻辑—(课程)进入-参加-评价,尝试分析Mooc平台部分用户的用户画像。
事实上,仅仅以专业类为单位进行行为分析,并不严谨。而对每一专业类别都展开分析,过于复杂。所以这里选择对专业类别层面上的极端值分析。
通过计算课程评价数/参加人数 = 参评比,可以发现法学和教育教学的参评比远高于第三名,结合参评比的含义,可以得到—参加法学和教育教学的学员较其它专业学员有更高的活跃度。
精品课程是教育部评定,也就是课程未上线就被评为精品课。一门课是否精品,课程内容本身自然是核心,而当一门课由由传统课堂(线下)搬到线上,我们认为课程内容质量不变,但精品的评定就要考虑更多因素,比如视频质量,录制是否流畅清晰?讲课老师是否适应网络授课?鉴于此类因素较难考量,这里不得不选一个折衷方案—通过观察迭代次数来推测精品率。因为要打造精品,迭代一定是核心手段。比如,课程A的开课次数为1,课程B的开课次数为5,那我们可以认为,课程A还有较大的迭代空间,课程B更趋于完美,此时如果你对A、B课程均感兴趣,可以选择先参加B课程。
这里把开课次数平均数看作迭代次数(考虑到每个学校可能都有慕课负责人,可以以学校为标签来看各学校迭代打造精品的意识)。观察上图,平均开课次数的最小值为3(注意这里的平均数只是粗略计算,实际有很多刚开课的课程——开课次数为一),是不是可以说各大学的迭代意识都是很强呢?
说完精品,我们来看爆款。 北大MOOC工作组的组长李晓明表示,当有足够多的优秀教师主动去开MOOC,优质的MOOC课程成千上万,也就是发展规模到达一定的量时,到时将会是一个繁荣的课程市场,而这个市场将呈现长尾分布。而爆款就是长尾的头部。一个例子—大约两年前,哈佛讲“正义论”的教授迈克尔·桑德尔被邀请在韩国首尔最大的棒球场为韩知名棒球队试球,一个在网络公开课上授课的老师能在国外受到如此欢迎,那么,中国MOOC领域是否也会出现如此的明星教师,或者至少受欢迎程度能堪比百家讲坛的于丹或易中天呢?李晓明认为这是可能,而且这种最受欢迎的课程较多可能会出现在人文社科领域。以北大的《Chinese for beginners》为例,他说这门课现在已经有27万来自世界各地的学习者学习了,很受欢迎。在李老师的《慕课》一书中也有提到,他曾经在出席国际会议时,有两个外国人专门来告诉他学过这门课,这让他感到很欣慰。
类比微信公众号的爆款—阅读量10W+,这里将课程评价数和参加人数作为爆款指标。参考课程评价数和参加人数的平均值、中位数等相关统计值,分别设定阈值,二者满足其一则将其看作爆款。最终课程评价数阈值为1500,参加人数阈值为100,000。课程评价数据、参加人数数据如下:
成为精品的原因是课程内容质量好,但从精品到爆款需要什么呢?简单说是传播,而造就这传播的可能是口碑效应,也可能是社会层面的氛围传播。比如数据结构这门课程,我曾多次看到有人力荐,进入课程主页,从课程详情、具体课时安排到最后的常见问题,要么精致,要么妥当,收割口碑的爆款;如python语言程序设计、医学统计学是随着python语言的火热、大数据+热潮成为爆款的...
mooc对于一些人来说一定是一个宝库,尤其是那些想法多、喜欢折腾的宝宝,比如我。而我对它唯一的不满就是——有些状态为已关闭的课程竟然不能观看之前的开课内容。mooc官方给出的解释是大学相关政策导致。把政策这个黑洞放到一边,我想是不是可以通过简单的数据分析来找出关闭原因呢?
上图为课程的三种状态,接下来的分析对象是状态为“老师已关闭该学期,无法查看”的课程。
如图题所示,我将推测可能为原因的几个字段抽取出来。碍于分析水平,目前只能初步猜测为以下原因:
1.参加人数太少
2.开课次数已经足够多
3.持续周数较长(老师可能需要休息调整)
4.课程评价较差
本次分析中,数据源仅来自中国大学Mooc国家精品栏目,维度单一,数据量小,不足以支撑深入分析。数据处理过程较为顺利,处理后得到的数据基本符合预期。在字段‘授课教师’的处理中,考虑到其分析价值有限,选择经济适用的方案—清除换行符,保留授课教师模块的全部信息。涉及文本处理,是要进一步完善的地方。可视化方面也基本满意,归功于tableau的快捷灵活,可以考虑作为日后的主要工具(小数据量 )。分析部分欠缺较多,具体如下:缺少明确的分析目的;数据推演少,联想猜测多;未能获得具体可行的结论指导行为。
注:
中国大学MOOC通过率仅1.5%
北京大学李晓明:MOOC在中国都能怎么玩儿?
本次采集的数据中,评论数为总评论数,参加人数为本期情况