有人说 2020 年是过去 10 年最糟糕的一年,却是未来 10 年最好的一年。这当然是一句玩笑话了。2020 年很多人不容易,有的人失去了自己的亲人,有些人失去了自己的工作。不管怎么样生活还要继续。前不久,立信20级的一位应用统计新生找到我,问我有没有什么建议,我给他做了详细的解答,最近突然想起来之前答应王立庆老师为数学和统计专业提出点意见,那我就借CSDN这个平台来谈谈我的一些看法。
没错作为一个数学或统计的大一新生,首先需要做的就是打好基础,所谓基础不牢地动山摇,基础的重要性人尽皆知,可是真正打好基础的人数比例是恒定的,只有那么点。其实这条简单的道理也是由大数定律可以保证的(大量重复的随机试验会自动呈现出一种客观规律性——例如一届又一届新生中一个班级里真正认真学习的人数比例其实是基本固定的)。作为统计专业的学生需要学习哪些基础课程呢?
1、数学分析 2、高等代数
如果只给出课程不给学习资料,就相当于只给鸡汤没有给勺子,那我在这边推荐两位老师的课程,1、复旦 陈纪修老师的数学分析课程 2、北大 邱维声老师的高等代数课程。
学完这两门课程后就可以学习概率论与数理统计课程了,推荐茆诗松老师的概率论与数理统计教材
这三门基础课掌握的扎实程度决定了后期的专业课学习的效果。
建议
数学分析,高等代数理论比较抽象,如果老师能够多举一些例子可能便于学生理解,一个很好的范例是——线性的本质这一教程通过几何的演示将抽象的线性代数讲的通俗易懂。对于统计专业的学生建议老师讲解,矩阵的谱分解以及奇异值分解SVD,为统计专业课主成分分析打好基础。对于矩阵可以从行空间列空间两个角度进行讲解。
统计专业的专业课主要有回归分析,多元统计分析,时间序列分析等。关于教材强烈希望学校变更时间序列教材,推荐使用蔡瑞胸老师的金融时间序列分析,蔡老师是芝加哥大学时间序列分析国际顶级专家,在国际顶级杂志发表多篇文章。
建议
关于回归分析,希望老师能够在讲述正则方程组求解回归系数的基础上,加上梯度下降算法的讲解以提供学生另一种求解系数的方法,正规方程组虽然能够一步求出回归系数的估计,但是当数据量及数据特征较多时,矩阵求逆计算量很大,而梯度下降法是迭代算法,运算速度较快,其扩展随机梯度下降算法能够处理数百万级别的数据量。
关于多元统计分析,希望老师强调 LDA 线性判别分析和主成分分析PCA的讲解,LDA 的推导及主成分分析的思想在各互联网公司面试十分常见。
关于时间序列分析,对于想要从事金融行业的同学来说 ARCH 和 GARCH 模型要深刻理解和掌握(其本质仍然是ARMA模型的思想),从个人的学习经历来说,时间序列分析包括两大类,一类是计量经济领域的模型例如向量自回归, ARCH 和 GARCH 模型等,另一类是深度学习方向的循环神经网络 RNN 和 长短期记忆网络 LSTM。
1、李航统计学习方法
这本书理论推导较为详细,希望同学们能够耐下心来努力推导,由于个人基础原因,本人断断续续推导4个月才将全书推完,这本书实在太难啃了,需要对概率统计及微积分,十分熟悉。本书是想进BAT华为等互联网公司数据挖掘岗位或者算法工程师工作同学的必读书目。
2、周志华的机器学习西瓜书
南京大学周志华教授,可能是为数不多的没有出国留学经验的机器学习顶级大师,周志华的机器学习书在大厂的算法,数据挖掘部门可以说是人手一本。说实话这本书不适合初学者,推导过程十分不详细,但是这本书比较全面,几乎覆盖了机器学习的方方面面。可结合南瓜书进行阅读(南瓜书是对西瓜书中的公式进行详细推导的一本开源书目)
3、The element of statistical learning
这本书主要适用于频率学派的统计学者阅读,网上可搜到pdf版本。这本书是斯坦福大学几个统计大牛写的。本书难度较大听王老师说读完这本书就硕士毕业了,个人觉得 emmmm,你自己体会,如果你能啃完这本书、熟练理解掌握书中内容并且依然对统计学习有浓厚兴趣,建议去读个博士做做研究。个人偏向与将这本书当作参考书,查阅资料使用。
1、EXCEL
有同学会认为不就个excel,有这么难,有必要学嘛,其实还真有必要好好学习学习,一般小企业实习的时候用的都是excel,数据透视表,vlookup,countif ,sumif 这些函数一定要熟练使用,大学有时间考个计算机二级,哪怕考不出证书,excel 也要掌握点东西,否则公司可能会说统计专业的连excel都用不来。
2、SQL语言
SQL 又称结构化查询语言,对于做数据分析的人来说,不会SQL就连数据都获取不了,网易公司数据分析的笔试考的就是SQL取数,可见其重要性。
3、tableau
商业数据分析可视化神器,个人了解不多,但是招聘网站上都说要求,数据可视化可能用这个又方便又好看
4、R 和 python
有人问我R 和 python 选哪个学,我思考了挺久的,这两门语言我都学过,个人认为如果你像搞研究就去学 R,如果想工作就去学python。R语言适合统计专业的使用,因为它就是统计学家发明的语言,但是从编程的角度来说,确实不是特别规范,而且运行速度可能不是很快。python 可以做网页爬虫,可以做网页开发,可以做数据分析,有人开玩笑说 python除了不能生孩子别的都能做。下面有张最新的计算机语言排名图
可以看到 python 排在第三位,应该是比较热门的语言了。
没错,我们现在是处于大数据时代,对于统计既有机遇,又有挑战。从我个人来看,挑战比较多,说实话我们学校统计专业可能不具备处理大数据的能力,不要说大数据几个G的数据可能都不行,原因很简单,如果你电脑内存只有8G,你如何将16G的数据读到内存中处理呢,数据会将你的内存占满然后你的代码会报错。如果使用的是SPSS这类的软件,可能将1G以上的数据导入的时候,软件已经不响应了。
关于大数据的处理我了解到的情况是可能需要用到spark hadoop hive 等这种分布式处理的工具,这些都是计算机专业比较熟悉的,想处理大数据可能得学习此类的相关工具。
今天就说到这里,下一次我们谈谈考研和就业。