复试准备

规划,每天3个小时以上在计算方法上。今天把简历写完,明天开始构建英语口语模板,并且每天必须听一段英语psy中文站,在考前几天英语专业术语、六级听力攻克好。

  1. 《计算方法》
    此书应尽快处理呐
  2. 英语的笔试、口语、听力
  1. 面试的简历

  2. 大数据相关

  • 一文读懂大数据计算框架与平台
  • 咨询李冲大神关于大数据开发的步骤,大数据分析的步骤,可以提及一下。

面试问题汇总:

  1. 请做个简短的自我介绍。
    早上好,尊敬的各位老师,我叫谢光武,来自华侨大学的机电工程专业。专业课程培养了我针对特定问题比如机器人项目系统化思考的能力;与此同时,一直在修读我校西方哲学的课程,哲学文本的阅读培养了我对基本问题的好奇心和建立自己的一套价值体系,从中能获得一种秩序。
    由于对统计、数据挖掘、机器学习的浓厚兴趣,也自学了不少课程如茆诗松《概率论与数理统计》, Introduction to statistical learning, 吴恩达《机器学习》等。

  2. 你为什么考研?
    这是受概率论与数理统计的老师的影响。他现在正在埃默里大学做博士后的研究。去年5月份,当我在准备好几个数据分析有关的面试时,我老师打电话给我,建议我去读一个大数据方向的专硕。他认为我有把一个问题搞清楚的那中研究潜质,不要错过了机会。
    我也希望自己到时不要辜负老师的期望,在学问的道路上能走的更远一些。

  3. 你认为你最大的优势是什么?
    更加多元的思维方式。因为本科我是机电系的,所培养的系统化思维能力或者把问题有序化步骤化的思维,对数据分析还有算法都有较大的帮助。目前许多流行算法都相对成熟,关键是用一些创造性的思维方式进行优化这些算法。比如OCR技术,图片识别文字的技术,算法再优良它都有其极限,所以有一个公司是把机器识别不出来的部分做成验证码,让人工去识别,正确率立马提升了一个等级。有一个让我印象深刻的例子是MIT的算法利用emoji 表情来识别人的情绪,去做一个讽刺语境的监测,可用来辅助识别IS网络用法。除了机电课程外,我还修习了大量的哲学类、设计类课程,这些对我今后的研究都有较大的帮助。

  4. 为什么来西交大?
    分三个方面来回答吧,首先相当看好西安这个城市,一带一路加上阿里巴巴、华为、京东相继在西安设立总部,西安的互联网环境和AI blockchain领域都有相当多的机会;然后,西安交大是我向往的学校,尤其是得知邱维声教授、李承治教授这些原本在北大教书的老教授在数院带数学实验班,非常的激动,正是通过他们的视频我才喜欢上数学,可以说是一个近距离接触偶像的机会。

  5. 为什么选择跨专业就读大数据这个专业?
    因为对统计学和数学的兴趣。促使我这个决定的有三个人。第一个是我的概率论与数理统计的老师,他激发了我对统计这个学科的好奇,为什么样本可以用来估计总体?甚至可以用来预测?它背后的原理是什么?后来我花了两个多月的时间,以样本方差的自由度入手,慢慢的理顺了统计学的逻辑,这个过程让我感受到了求知的喜悦以及数学的魅力,原来自由度也是可以从矩阵的向量空间角度去理解。第二个是伟大的数学家Kolmogrov, 他的出现使得概率论成为数学嘛,他对我的影响更多的是哲学层面的,他提出的概率论的公理化定义,调和了概率论历史的一个很大分歧,之前概率论一直在经验定义和频率定义在竞争,一个从主观层面一个从客观层面。因为当时我正好在啃康德的Critique of Pure Reason, 康德试图调和哲学上的分歧经验论和实在论,所以我能很好的感受到概率论发展历程中的那种冲突和张力,也就更加明白kolmogrov的那种伟大。第三个是茆诗松老师的《概率论与数理统计》,那本书太漂亮了,虽然是很久之前看的,但是他引入特征函数去论述大数定律和中心极限定理,真的是简洁优雅震撼了。

  6. 研究生的计划是什么?
    短期看,将会加强数学方面的学习,像邱维声老师的高等代数是我梦寐以求的课程了;还有吴恩达老师发布的deep learning.AI课程。正在学的有, Berkely University的The Structure and Interpretation of Computer Programs And Data Structures (Java) ;以及Stand Ford的convex optimization. 同是也计划 结合大数据、区块链、人工智能这三项技术。

  7. 用英语阐述一个算法

  8. data mining 你学到了什么/如何理解数据分析/你是如何理解大数据的?
    从我在Kaggle、建模比赛、还有工作经历看,我觉得最重要的是前面几步,尤其是Feature engineering, 这个步骤做好了,可以起到事半功倍的效果。在特征选择中常常发现机器学习往往处于非常shallow的层面,在这个层面机器学习只能看到一些非常表面的现象,特征非常多,数据稀疏的要命,很多算法表现的很糟糕。所以如果能基于问题的理解,去合并变量,或者创造一些变量,将会有很好的提升。第二个是Data processing层面了,这是最繁琐的一步,要找数据、填充缺失值、变量筛选,把数据的训练集和测试集都弄好了,接下来才能去跑算法和模型。
    我觉得现在一些主流的算法,包括深度学习这些,都已经相对的成熟了,我们要做的更多是应用,以及如何去调整参数,对算法进行局部的优化。所以我研究生的一个目标就是把convex optimization numerical analysis 这些给学好。

  9. 你了解的算法有哪些?
    算法看了不少,就supervised learning 的来说,分类算法有Logistic regression, LDA,QDA, SVM, 神经网络,朴素贝叶斯,EM等;回归的话从线性回归,然后引入L1正则化的 lasso,引入L2正则化的 ridge 等。
    unsupervised learning 的有KNN, 聚类算法注入K-means clustering,Hierachical clustering 等。
    我平时用的比较多是PCA 和 随机森林。PCA是降维算法,在处理高维问题时一定要用到的,实用性很强,它特征值选取是基于雅可比旋转法来计算全部特征值和特征向量。其缺点是变量的选择只能考虑方差,不能考虑到偏差,而且对于无监督机器学习来说,并不能通过验证集或者测试集来判断他的MSE,结果无法衡量,因此无法确定所找到的变量是否是最有价值的模式,解决办法是通过定性分析和多次选择来做决定。

随机森林用的比较多的原因是因为它能输出一个基于基尼系数或者纯度的变量重要性排名,因为我们在使用一个算法时不仅要考虑到它的预测性能,还要考虑他的可解释性,这两个其实是冲突的,这也体现在一个算法的方差与偏差的均衡吧。所以相比于神经网络这种黑箱子模型,我解决问题倾向于选择随机森岭。其背后的原理倒也不难理解,先是生成大量的决策树取求其平均以减小方差,这便是袋装法,然后基于袋装法进行简单粗暴的在生成树剔除一些变量,以解决树重复的问题。

8.L1正则化可以进行特征筛选的原因,从几何和后验概率的角度考虑

正则化一般用来解决curse of dimensionality,即解决参数过多导致的过拟合问题,L1正则化是各个参数绝对值累加,也叫做L1惩罚项或者叫1范数,用于lasso模型。相比起ridge模型的L2正则化来说,它最大的特点在于可以把系数强制设为0。

(在分类算法中,LR和SVM的区别也类似,后者的loss term可以为0,而LR则是无限接近0.

复试准备_第1张图片
image

loss function损失函数刻画的是拟合程度的量化,LF值越低代表着测试集上实际值与预测值的差距越小,因而越小表示模型越好。)

从几何角度解释L1,比如lasso 可以转化成优化问题求解,其约束条件是绝对值之和小于某个值。

image

拿一个二维问题举例的话,这个约束条件是一个菱形区域。在这个限制条件下,目标函数越小越好,即目标函数与该区域第一相交的位置。

复试准备_第2张图片
image

这幅图是一个很好的例子,对于L1正则化,第一次相交的点是在坐标轴处,即有一个系数为0,把该项删除,从而达到特征选择的目的。而对于L2来说,第一次相交一般不在坐标轴,但同样可以看出他们第一次相交时,有一个系数被压缩了,接近0但不会等于0.

从后验概率的角度看的话, 正则化是为模型参数估计增加一个先验知识,先验知识会引导损失函数最小值过程朝着约束方向迭代。整个最优化问题可以看做是一个最大后验估计,其中正则化项对应后验估计中的先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计。L1正则化是假设参数数服从均值为0,尺度为lambda的尖峰拉普拉斯分布,因此倾向于得到一个许多系数(完全)为零的模型,即稀疏解模型。

  1. R、Python、 Matlab这三个编程软件的区别?
    R语言最大的问题是包太分散了,做个复杂点的数据清洗甚至要加载好几十个包,主要是用来做可视化方便点,然后安装一些最新的算法包也比较快;
    而python的库相对统一,数据分析的话pandas、numpy库基本就够用了,然后还有经典机器学习算法非常方便的sckit-learn库。
    Matlab主要是用来做矩阵的处理,因为我是机电系的,在做机器人的运动模型就涉及到大量的矩阵运算和逆运算。而且Matlab用来做信号处理和各种仿真会方便很多,本科期间用到的主要是Matlab,也会用它来跑一些粒子群算法、遗传算法还有神经网络这些。

你可能感兴趣的:(复试准备)