2018年春季《数据科学导论》课程回顾(一)

【这个帖子是总结数据科学教学体系设计和教学经验的,会有一些比较发散的议论和思考,抛砖引玉,请看官不要苛责,多提宝贵意见。因为数据科学导论课程最大的困难是,能讲的,该讲的东西太多,不知如何取舍;而且针对不同背景和先修课程的学生,内容也会存在很大差异,这些都是巨大的挑战,需要迭代改进。】

2018年春季学期要结束了,这个学期给人民大学统计学院“数据科学与大数据技术”本科专业学生开设《数据科学导论》课程,感觉头绪纷乱,压力山大。不过几个月的课程讲下来,效果似乎还可以。

本课程的目标是大一下学期学生,他们已经接触过下列课程:微积分、线性代数、概率论(高中水平)、统计学(入门课程)、编程(学了一点C语言)、最优化(求最大值最小值)。按照《深度学习》中的先修课程要求,他们可以开始自学了,如果是速成课程的话,讲几次Python,然后拿scikit-learn跑数据集,就OK了。不过这些学生的长远目标是成为专业的数据科学家,他们的学习时间至少要按照6年来设定,因此面向一年级学生的《数据科学导论》课程就不宜局限于调用API或者点按钮了,可能更需要帮助他们完成从高中数学到数值计算和数学建模的转型。高中数学的特点是应试和推公式,与现实无关,自然需要新的课程和实践来逐步扭转思维定势。

新瓶装旧酒吗?数据科学继承传统的一面

那么,将目标设定为数值计算和数学建模的原因何在,难道数据科学不是一个更漂亮的包装吗?问题在于,数据科学是什么?数据科学和数据科学家是先有鸡还是先有蛋,这些都是待定的问题。对于新生来说,他们并不需要更多的营销口号和包装,他们需要的是干货,尤其是必不可少的基本功。

我很喜欢用下面这个思想实验来思考需要什么样的基本功:如果伟大的欧拉(或者高斯)穿越到2018年,他需要补多少课程,花多长时间进入数据科学领域?

我的答案是:好像不太用补课,除了矩阵。他还要花几个月时间学一点Python,至于神经网络的反向传播算法、最大似然、MCMC和EM算法之类,对他来说应该很轻松吧?变分推断,欧拉是变分法的发明者。此外,估计以欧拉的智慧,他不会纠结于频率派和贝叶斯的恩怨,也不会认为用相关性就可以不谈论因果分析。所以基本上估计用不了一年,也许欧拉就会贡献出一些新算法。这个思想实验的要点在于:考虑目前流行的各种数据科学算法,如果不需要数学上的严格化证明,则除了矩阵以外,凡是和微积分沾边的,欧拉都不用补课就能掌握。

从专业数学家的角度来看,这种理论上的原地踏步简直不可想象,《老顾谈几何》认为有可能出现理论上的突破。当然,如果着眼未来,这也证明从中学到大学的数学建模教学体系效率太低,否则掌握了数学建模能力的人,加上编程,应该很容易理解数据科学方法。 它还可能意味着改进教学体系的可能,如果从《数据科学》这个系列入手,借助Python和R的威力,应当可以大大提高很多学生的数学建模能力,当然,这是一个更宏大的主题,本帖无暇展开论述。

新瓶:组合也是创新

可能有读者觉得将数据科学几乎等同于(也许是贬低为)数学建模的一个变种,有些过于简单化了。的确如此,下面我们就来考究一番,数据科学如何不同于传统的数学建模。数学建模的基本形象是一门松散的课程,尽管两者的基本内容和技能组合大体重叠。按照证明两个集合相等或包含关系的思路,我们可以这样来证明:任取数据科学领域的某种算法或实践,把它放到数学建模的课程里,有问题吗?没有问题,所以数据科学包含于数学建模;同理,任取数学建模里面的算法或实践,它一定属于数据科学吗?答案是否,比如偏微分方程组的数值解,没有人会认为它属于数据科学,但是把它放入数学建模课程里,没有违和感。

结论是:数据科学比数学建模小,目前可见的主要差别是,传统的科学计算中有很大一部分内容不属于公认的数据科学领域。但是数据科学与科学计算共享了很多基础模块,比如两者的软件都是以矩阵运算模块为核心。或者说,如果某人精通科学计算的一些领域,则他转入数据科学领域应当不难。反过来呢?我不知道该怎么评估。

所以我们还是来看看数据科学的主要特点,它是形成了一套依托新的技术体系(数据管理体系)的工程化方法论和Best Practice。简单说来,数据科学是依托技术体系的工程化成果,对很多人的科学观乃至世界观都会造成冲击:科学、技术和工程就这么混在一起了?至少,在美国英语中,scientist是动手能力超强的人物,比如Crazy Scientist。实际上,我们想象中的高冷大神图灵的动手能力就很强,能够自己组装电子仪器(《图灵传》中有据可查)。

在数据科学家中,有些人喜欢用来自1990年代的CRISDM工作循环(当时叫数据挖掘),Python的Sklearn则引入Pipepline类来组装分析流程,这些都是工程化的成果,也是真正的数据科学家必备的工具箱。创新至少分两种,革命性的,比如牛顿莱布尼茨的微积分公式,组合式的,将现有零件组合成强力武器,这也是创新,而且是更为常见的创新。

【今天先到这里,2018年6月4日】

你可能感兴趣的:(数据科学导论课程,数据科学导论,随机化策略,数据驱动,概率建模,计算思维)