数据分析、数据挖掘、机器学习实习面经总结

本人统计渣硕,上半年找实习,陆陆续续面试了十几家公司的数据分析、挖掘、算法相关的岗位,在这里把能记得的公司的面试内容回顾总结一下,有些记不得了,印象深刻的尽量回忆写下来。


某创业生态型企业,文本挖掘岗位

大数据部门负责人面,(了解公司业务流程做行业生态信息整合的,目前项目是全网人才抓取建库)
基础问题,各编程语言掌握情况、为何会跨专业、对相关行业的了解;
算法leader询问了的基于文本的语义分析问题,包括特征提取和tf-idf算法语义权重计算,LDA原理、爬虫基础、数据清洗相关、课程作业设计相关细节、学期课程
业务设计人才库去重问题,考虑两个:unique字段和计算文本相似度
R的一些包(Rcurl爬虫两个问题,一个是面对验证码的解决方案,一个是基于搜索引擎的爬取问题),关于R package doc 的阅读和包的改写,基于Rserve的协同工作,实现paper算法的时长,是否有自主尝试tensorflow等开源框架等,最后还问了jieba和哈工大LTP在使用上的区别,谈一下感受


某二手车,数据分析岗位

笔试:包括SQL数据查询、考了个快速排序和插入排序、mapreduce的wc功能实现

算法(写公式、作图):kmeans的迭代方式、理想目的、何时收敛;
决策树的几种类型、特征选择、相关指标计算,过拟合的解决方式(为何、如何剪枝),决策树大方差以及预测曲面不光滑问题、重抽样相关,随机森林原理;
处理流程:标准化操作、数据库相关范式 询问在上一次实习的项目经验、原理、实现以及业务逻辑,如何设置jieba分词时的参数和解决实体分词的关系


电商巨头,60BD了,数据分析岗位

记得部分,Sql笔试,决策树(建树方案、不同类型(ID3.0、C4.5、C5.0、cart)、剪枝过拟合问题解决方案)、Logistic回归(手推、作图)、svm(对偶手推细节 、作图)、完整的多元回归处理流程(从清洗(缺失值插补)到建模(合适模型训练、调参)完成到验证(哪些指标取验证)、稀疏矩阵解决方案)、询问在上一次实习的项目经验、原理、实现以及业务逻辑、Excel的基本函数实操


BAT机器学习岗

主要还是根据简历内容来问的,也怪自己没有准备,表现不佳。
机器学习方面:svm 三种情况极其对应方法,对偶算法求分类决策函数细节,手推,不同kernel trick 原理以及适合场景。
在线上环境中如何用kmeans基于数据自动获取k而不靠人去拍一个k;
PCA和Lda 区别,svd在其中扮演的作用;
分词的结果呈现方式有那些;高维稀疏数据如何选择合适降维方法。
代码方面,位运算和反转等方法的操作,与leetcode 和剑指offer 上做过的题目相似度还是比较高的,比如移位查找,带分隔的字符串反转、独立反转,树的反转等等


某k12企业top,数据挖掘岗位

主要考查的基本还是机器学习算法,首先让我实现一个梯度下降的参数更新,给定目标函数与收敛目标,求偏导迭代更新即可。然后问项目和前实习经历,这个好说。然后回到算法,问了很多细致的,有一些细节可能掌握不够全,如semi-NB 解决强约束naive 特性的问题,周志华书里有写但我没细看,比如计算文本相似度为什么用余弦不用欧式,分类问题的多标签问题,几个算法的损失函数和最优化方法。


某D轮垂直top 1,算法工程师岗位

这里省略了项目经历的内容,结合简历让我重点表述的知识点包括,手推LR 基于MLE 的实现,写了个wc 的mapreduce ,写个top k的海量查找,BP算法的推倒实现,建模大赛用TextCNN做文本分类的结构及训练方式,然后问了很多项目里基于特征工程的内容(CTR预估和风控比赛),如特征组合、离散等,猜想应该跟这个岗位也有关系(好像有部分广告推荐工作,FE自动化是基础吧),其他时间聊了这个行业的事,与业务生态。


目前能想起来就大致这么多,有空了再补充补充,等校招结束了,把校招的面试经历也加进来。

你可能感兴趣的:(校招/实习面试)