百度机器学习实习面试总结

面试之前

       之前投了百度的简历,抱着试一试的心态,没想到真的给了我面试的机会,所以同学们凡事都要试一试,不到最后谁知道会不会成功呢。然后之前打电话约好是下午两点,后来他说开会又改到了三点,大的公司真的是非常的忙,所以我们要体谅体谅。

       上午上完课赶紧从学校去赶地铁,真的是怕晚了,结果早到了半个多小时,然后在附近看了看,好多大公司都在那一片,感觉还是大公司好啊,这装饰,这外形。进去以后到前台出示预约二维码,扫了以后让我在那等一下,等面试官下来接你。等了一会那个面试官过来找我,然后就去了四楼的一个休息区,路上也看到了好多人都在那安静的工作,感觉这都是牛人啊!!!

 

面试过程

      到了以后让我做了一个简短的自我介绍,所以自我介绍一定好好准备。然后他开始提问,首先看到我的简历上写了爬虫和搜索引擎,就让我介绍了我的爬虫项目,用了什么框架,用了什么选择器,比如xpath或者css,又问了我有没有对我的搜索引擎做一个分布式搜索,我说我的数据量没有那么大,只是利用了NoSQL最基本的搜索语句。这个问题就结束了。

    下一个问题看到我做过kaggle或者天池的比赛,让我介绍一下流程,幸好我这几天看的是这些东西,可以派上用场了。然后就问了我数据处理时候怎么处理数据不平衡问题,就是基本的过采样和欠采样的问题。下一个问题是我怎么评判一个模型怎么确定参数,这个好办,就是通过网格搜索输出最佳的参数,做个交叉验证什么的。下一个问题让我写出逻辑回归的基本公式,我当时想万幸啊,没让我推公式,然后我就写了一下LR的公式。下一个问题介绍一下随机森林,我说它属于bagging的一个代表,然后举了一个小例子,又让我介绍了xgboost,GBDT,Adaboost,他们的原理,工作机制,他们和随机森林的却别,他们各自的区别,Xgboost怎么处理缺失值问题,所以这一块大家一定要好好准备一下啊,基本必问。然后又让问我决策树怎么划分的,ID3,C4.5和Cart他们的划分准则是什么,我回答就是信息增益,信息增益率,基尼指数设么的,他又问基尼指数和熵的区别等等,这一块真的问了好多,幸好我之前也好好准备了这一块,比较万幸,但也有答不出来的问题,既然答不出来就老实交代。

    然后又问到了SVM,让我介绍一下。我从决策平面,支持向量,和LR的不同,硬间隔,软间隔,核函数,smo算法说了一遍,然后又问我什么是KKT条件,这块我真是硬伤啊。。。,我就回答了是满足对偶条件等等。然后又问了我核函数,我回答核函数就是把低维不可分转换成高维空间,然后进行划分,运用核函数,它的计算量不会增加,常用的就是高斯核和线性核函数等等。

     接着又问我L1和L2正则的区别,设么情况下用L1正则,什么情况下用L2正则,我也就分别简单的说了一下。

    然后机器学习这一块就告一段落,他看我简历上面写熟悉Linux系统,就开始问一些命令,比如怎么查找第四行的某某个字符,怎么全文查找某个字符串,怎么查找某个文件的位置,结果这一块一个不会,知识学完了都还给老师了,唉。。。。。。

    然后又说道python,问我怎么给列表某一个位置插入一个字符,这不就是简单的insert(n,a)语句嘛,这我都没想起来,后来想起来了悔得我肠子都青了。欲哭无泪啊。。。。。

   然后又聊到数据结构,给了一个二叉树,让我写出前序,这个很简单。然后他又给了我后序和中序让我算二叉树,手写代码,还说先不要写,先给他将思路,这个也很简单,就是代码麻烦,我给了讲了思路,结果写代码时候脑子有抽抽了不知道写到哪里去了,真想爆锤我自己,然后又放弃那段代码,理了理思路,写了个递归,这一块大家要注意一下递归的出口啊,一定要注意,我当时就少写一种情况了,后来他说我的出口呢,我又给补全了,给他讲了一下代码。(注意,代码差不多就行,一定要注意思路,吧思路提现到代码上面去,要给他讲清楚你的代码)

  最后,他说行了就到这吧,也一个多小时了,我真的没有这种感觉,可能有点激动,哈哈。。。。。。

  最后下楼的时候和他聊了几句,夸一夸他和他的公司,也说一说自己,他说让我回去等通知,看来有得让我内心忐忑啊。。。

最后走的时候感谢一下,最基本的礼貌一定要注意好!!!。

 

你可能感兴趣的:(面试)