一战,本校本专业,初试成绩398,排名18。2018年3月到6月准备本院的夏令营选拔,以概率论与数理统计为主。成功通过,但是由于绩点太低没有保上研。7月开始准备初试,最后成功上岸。鉴于网上的公共课资源十分丰富,这篇经验贴主要介绍人大统计专硕专业课备考经验。
初试我一共复习了以下几本书:统计学、回归、时序、多元、概率论与数理统计,具体的版本如下所示
统计学与回归今年与往年没有太多不同,大家只要认真刷书、做笔记、做真题、背书,这两科应该是不会丢分的。
时序这门课变化很大。往年都是考非平稳时序的建模,今年初试考了平稳的定义与检验,复试笔试考了纯随机性检验,这些都是《统计学》之外的内容,所以《应用时间序列分析》这本书大家是一定要好好看的。至于看到什么程度,视大家自己的时间松紧来定,我因为时间比较紧,并且本科已经学过一遍,所以多元时序分析那一章根本没有看,大家时间宽裕的话可以从头到尾刷一遍。
多元是我今年初试丢分最多的科目。我在做完往年真题之后发现多元只会考文科题,所以复习多元时根本没有推导中间的数学过程,就只背了答案,结果上了初试考场发现一共有45分多元……而且都是偏数理证明方向的,我只能凭着自己的印象一阵狂糊。所以大家一定一定要把多元这本书中的数理推导自己推一遍,PCA跟因子分析是重点。目前来看多元一般只会考到第8章,但是最近专业课变得厉害,时间宽裕的同学多看点吧。
人大对于概率论与数理统计考得不多,而且题都比较简单,把茆诗松的那本书从头到尾刷了一遍,基本没有什么问题。尽管这一块考得比较简单,但是对于理解其它科目非常重要,建议大家把茆诗松的这本书从例题到习题通通刷一遍。相信我,刷完之后你对统计学的理解会上一个档次。
今年大家复习一定要带上《抽样技术》这本书,初试考了半道大题,复试笔试考了一道大题,然而我这本书一个字都没有读过……在考场上看到抽样的题特别想抽死自己,没办法,一阵狂糊,就结果来看还不错,后面会专门讲一下面对不会写的题目时的应对措施。
总的来说,统计学、回归、概率论与数理统计与往年变化不大;但是时序、多元的考试内容变化较大,并且考得更数理一些;抽样则从时考时不考变成了必考。因此大家的复习要比往年更全面、更细致。
复试在初试六本书的基础上又增加了两本书:国核、非参,图片如下:
这两本书一般不会出现在复试笔试中,但是面试中可能会问到。我的一个同学面试时就抽到了一道国核的题,他只好说他不会……不过这两本书占面试题目的比例应当不会特别大,我就根本没有买这两本书……学有余力的同学可以扫一下,没有必要细刷。
首先明确一点,人大统计432主要考察你对专业课知识的理解与背诵,出的题目形式也往往是简答题、论述题和有套路的计算题,因此大家要把专业课当作文科而非理科来复习。既然是文科,笔记就极端重要。记笔记、整理笔记可以帮助你理解知识点,而到考前直接背诵自己的笔记即可,下面介绍一下我记笔记的方式。
第一步是刷书,在刷书的过程中把笔记记到笔记本上,而且不放过任何一个细节。无论是琐碎的知识点(比如LB统计量的表达式),还是复杂的数理推导(比如多元正态分布协方差阵的最大似然估计),统统记到笔记上。因为你永远不知道今年会考什么,你的一时侥幸可能就是20分的差距。上面举的两个例子都是今年的初试与复试题,而我在第一遍刷书的时候都忽视了,然后我就付出了20分的代价,希望大家不要重蹈覆辙。
第二步是把你笔记本上记的笔记转化成自查提纲。转化时先用黑笔写出提示词,答案空着,复印几份(黑字笔记),然后用红笔填好答案(红字笔记)。下面是我做的提纲示例:
第三步是背诵你的红字笔记。背诵时不能觉得自己懂了就差不多了,要争取做到一字不落,这是专业课背诵与政治背诵的区别。专业课考察以文科题为主,但是内容依旧是理科内容,只有专业准确的表述才能拿到一道题的满分。
第四步是在你的黑字笔记上默写,然后对照你的红字笔记进行批改。默写一遍之后基本上就很难再忘了,即使忘了捡起来也很快。我在复试之前也忘记了很多专业课知识,但是用三天就全部回忆起来了,默写一遍的印象是单纯背诵无法比拟的。有时间的同学还可以默写一下数理推导,人大的专业课即使考数理一般也是考书本上的证明,把专业课的数理推导弄清楚对于理解帮助也很大。
我相信如果能够做到上面四步,初试的专业课基本没有问题。这种方法的缺点是十分耗时,我大概要用一整天的时间才能完成一个专题的量。所以大家一定要尽早开始专业课的复习!
复试一共分为三个部分:笔试、英语面试、专业课面试。其中笔试包括英语听力、翻译和专业课。听力个人感觉比六级难不少,可能跟播音模糊有关,我基本上每段录音都有听不清的地方,建议大家直接用托福听力练手。翻译依然是政府工作报告里的原文,大家在复试之前多背几个政策名词、经济名词。
专业课笔试一共5道大题,每题20分。今年考了多元、时序、抽样、统计学和一道课外的辛普森悖论。除了辛普森悖论这道题不常规,其它都是常规题,如果你按照我上面给出的方法进行复习,应当没有什么问题。而辛普森这道题则是在考察大家平时的积累了,吴恩达的机器学习课程中提到过辛普森悖论,所以我在考场上凭借印象答了出来。如果现在你还是大一大二的话,可以多到Coursera上修几门数据科学的课程,拓展一下视野。事实上,辛普森这道题在下面这个公众号上出现过,题干几乎一模一样,而且推送时间就是在复试笔试的前一周,个人感觉出题老师就是直接从这个公众号上扒的题目……大家可以关注一下,万一明年又扒了一道呢。
专业课面试是从一堆题中间抽两题作答,老师会根据你的回答扩展性地追问。我运气比较好,抽到了两道很简单的题目,一道是K-means聚类的过程以及如何确定K,一道是探究性别与学习成绩的关系。第一道问题的答案在学长的资料中都有,面试时候直接背就行了。后来老师追问我有哪些随机因素影响K-means聚类的表现,我直接答得学长资料中总结的K-means聚类的缺陷,所以大家在背书时要多留个心眼,一个答案是可以回答多个题目的。
第二题的题干让我以为这是在考两总体的均值差检验,然后我就背了一遍,结果老师说不是这个意思……其实老师是想考你运用所学知识解决现实问题的能力,给你一个大的话题然后让你自己想模型来解决,这也是人大统计面试的一大特点。遇到这种题目,先回答需要搜集哪些自变量、因变量的数据,然后说运用什么模型,最后说如何分析模型的结论。比如这道题我就回答了自变量可以搜集高考分数、家乡省份、学习时间,因变量可以取某次考试的成绩,建立多元线性回归模型,然后按照性别分类作一个邹至庄检验,如果通过了邹至庄检验则说明性别对学习成绩的影响不显著,如果没有通过就说明显著。然后老师就问我如果要把多次考试的成绩引入因变量呢?我回答可以用指数平滑加权成一个成绩。如果有多个科目的考试成绩呢?我回答可以用因子分析得到公共因子后分别作检验。答完这两个问题我感觉老师们对我还是比较满意的。可以看出这种面试题目已经不可能通过简单地背诵作答了,需要多个学科的交叉运用以及对于问题本身的洞悉。因此我建议大家平时复习时不要把课本上的内容看作知识,而是看作工具,每复习到一个知识点就想想自己可以在哪些场合使用它,到时面试时就不会慌。
今年的英语面试变化很大。往年英语面试一般不会问专业课问题,而今年则完全不同,逮着专业课问题猛问……面试老师是教过我的时序老师,用英语问我最喜欢的科目是什么,我想都没想就答了时序,然后对时序一通猛夸,夸的时候我看到老师不好意思地笑了……然后她就问Please name several models in time series.我心里一万匹草泥马飘过,怎么今年还问专业课问题???幸好只是模型名称,我就答了Autoregression和Moving average.然后她又问我时间序列与横截面数据有哪些不同……这道题是在书上的一个小角落里,所以真的不能放过任何一个知识点。我看到旁边的老师都已经开始坏笑了,不过我好歹也是修过纽约大学时序的人,当我说出stationary这个词的时候我看到老师惊喜地对视了一眼,我就知道英语面试稳了。后面又问了我大学最难忘的经历是什么,属于很常规的问题了,我在考前总结了一份常规的英语面试题,下面列给大家:
所以大家在复习专业课时记得背英文的专业术语,到时即使不会用英语答题,扯几个专业术语至少也不会特别难看。至于发音跟口语,我在考前一个星期每天都找人练半个小时,不需要练到什么水平,只要做到敢于说英语,不会出现dead silence就好了,复习的重心依然要放到专业课上。
总的来说,面试考察的是大家真实的数据思维与数据素养,这些是不可能通过背书跟刷题获得的,只能在实践与思考中获得。我的建议是本科时多做几个项目,多干几份实习,多参加几个比赛;如果你已经在备考了,不要只把知识当作通过考试的工具,在复习时多想想每个模型的用处,读死书的应试型选手是最容易在复试中被淘汰的。