秋招算法岗,面试复盘

作者 | leonlin96 

NewBeeNLP公众号

楼主是21届毕业,秋招主要投算法岗(偏NLP方向)和数据岗方向,下面分享我的一些面试经历。

一、科大讯飞(NLP)

  1. 简要介绍自己

  2. Python里面哈希表对应哪种结构,是如何解决哈希冲突的

  3. DSSM模型和ESIM模型的区别

  4. Word2vec原理,word2vec和fasttext原理上的区别

  5. Bert原理,bert随机mask掉15%的词,为什么要随机有80%替换为【mask】,10%要替换为别的单词,随机10%不替换

  6. 文本匹配怎么使用bert

  7. 实习里的项目

  8. Xgb原理

  9. 编程题:找无序数量的中位数,时间复杂度比排序要快

二、字节跳动(广告算法)

  1. AUC的原理(衡量分类器排序的能力),计算(100正,900负,分类器是0到1均匀分布,计算AUC)

  2. 样本不平衡如何改进,影响了样本原本的分布该怎么办

  3. 代码实现梯度下降

  4. 给一个rand5,如何用代码实现rand7(构建[rand5()-1]*5+rand5(),第一项{0,5,10,15,20},第二项{1,2,3,4,5},加和结果{1,2,……,25},踢掉大于21的数,剩下的仍是等概率出现的,在对7求余在加1即可得到rand7())

三、触宝(NLP工程师)

  1. 面向对象,面向过程,面向切面的不同和优势劣势

  2. 排序算法稳定性,有那些稳定的排序算法和不稳定的排序算法

  3. 面向对象的三个性质

  4. 数组和链表各自的优势劣势

  5. 一个target,一个数组,找出数组里面所有和为target的组合,数字可以重复(DFS深度遍历,当path求和大于target时回溯)

  6. 了解哪些分类器,具体介绍

  7. 决策树分支的标准,gbdt和xgboost的区别

  8. 梯度消失和梯度爆炸,有什么办法解决

  9. k-means的k值如何确定

  10. 了解哪些损失函数

  11. 具体介绍word2vec的原理

  12. Bert的原理,看过哪些bert改进之后的方法(ALBert的原理,XL-Net了解过吗)

  13. Transformer里面self-attention和一般的attention的区别

  14. 介绍目前实习中做的一些东西

  15. 聚类的方法有哪些,评价聚类的指标有什么

  16. 对NLP的前景有什么看法

  17. 反问问题

四、网易(数据挖掘工程师)

  1. 介绍一下目前实习中的工作内容

  2. 怎么迭代模型(收集bad case,重新修正打标签的函数,然后重新训练模型)

  3. Bad case怎么收集(需求方反馈)

  4. 实习中跑的模型(过滤信息)有没有和别人的方法比较过,评价指标是什么

  5. 有没有和产品运营沟通过的经历

五、oppo(NLP工程师)

  1. 数学系在算法工程师就业中的优势和劣势

  2. 编程能力如何

  3. 概率题:甲、乙两个人轮流吃糖,每一轮吃到的概率为1/2,,先吃到的赢;甲赢的概率。有两颗糖,甲吃到糖个数的期望

  4. 编程题:求回文数

  5. 介绍实习中的项目

  6. 如何缓解过拟合

  7. 深度学习和传统机器学习的优劣

  8. 周末会用来干啥

  9. 遇到困难如何解决

  10. 给一个1T的无序大数组,找中位数

六、虎牙(NLP工程师)

  1. 介绍做的比较好的项目

  2. fasttext原理,bert预训练

  3. 实习中的项目

  4. 算法题:rand11实现rand7

  5. 卷积神经网络和全连接网络的异同点

  6. why 深层网络

  7. 反问问题

七、阿里CTO线(NLP工程师)

  1. 介绍实习做过的项目,参加过的比赛

  2. 简要介绍ESIM模型

  3. NLP任务的问题,场景,解决的方法

  4. 为什么上段实习两个月就走了

九、快手(数据挖掘算法工程师)

  1. 介绍印象最深的做过的项目

  2. 介绍Word2vec原理及损失函数

  3. 介绍ESIM,DSSM

  4. Xgboost原理

  5. 有没有做过大数据量级别的文本匹配(TB级别),用没用过spark,hive等

  6. 概率题:一个孤岛重男轻女,直到生出男孩为止,男女出生率1比1,初始比例也是1比1,问最终的男女比例。平均一个家庭有多少个孩子。

  7. 概率题:某疾病发病概率1/1000,患者有95%的概率检测出患病,健康者有5%的概率被误诊,问若一个人被检测出患病,实际患病概率是多少。

  8. 算法题:旋转数组,查找某个特定值(二分法的变种)

  9. 算法题:LeetCode股票问题第一问(动态规划)

  10. 一面结束马上二面:主要聊实习中的业务,重点比较关注私信反垃圾的部分(因为是风控部门)

九、腾讯WXG(NLP)

  1. 私信反垃圾,如何从整体评估数据的一个恶意率(没做过,答不上来)

  2. 机器学习如何选取数据

  3. 如何缓解过拟合

  4. 介绍L1, L2正则化

  5. 知道哪些模型评价指标

  6. AUC和F1的区别,分别使用在什么场景

  7. 介绍relu,Sigmoid,tanh

  8. 知道哪些损失函数(回归,分类)

  9. 介绍反向传播(BP)

  10. 介绍损失函数在神经网络中的重要性

  11. LSTM,Transfomer,BERT原理

  12. 介绍SVM

  13. 介绍卷积神经网络

  14. resnet的残差链接

  15. 手推logistics regression

  16. 代码题:快速排序

  17. 介绍NER,POS(词性分析)

  18. HMM

  19. 做题:翻转链表,实现求AUC算法,实现LSTM,python深拷贝和浅拷贝的问题

十、招联金融(数据分析)

  • 介绍电信用户流失分类的项目

  • 如何处理过拟合

  • Xgboost原理

  • 实习经历的收获

  • 未来发展的规划(职业定位,工作地点,薪资)

  • 介绍项目:电信用户流失

  • 实习:私信反垃圾,在线客服人工坐席知识挖掘

  • 机器学习解决不了的问题,用更简单的规则匹配怎么做

  • 算法实习正则匹配(简要说明就行,递归)

  • 对招联金融有什么看法,未来的职业定位

十一、BIGO(NLP)

  1. 手撕代码:求一个数列正序对个数

  2. 挖简历:项目和实习

  3. 手撕代码:挖井的问题(每个家庭都可以打井,成本为c[i],或者挖水管,i,j两家通水管成本为dp[i][j]。求所有家庭喝上水的最小成本)

  4. 堆排序

十二、华为运营商bg(AI工程师)

  1. 手撕代码,输出数据库中满足四个要求的样本(具体要求忘记了,涉及到hash)

  2. AUC原理,ROC曲线上每个点代表的含义

  3. 挖项目

  4. 手撕代码:和字典排序相关,也是easy级别的题目

  5. 实习经历

  6. 详细介绍某个实习或者项目,其中在数据预处理,建模,优化,后续改进四个方面上是如何体现的

HR面
  1. 自我介绍

  2. 人生中的挫折

  3. 有去国企的打算吗

  4. 未来的职业定位和发展

  5. 对华为的看法,在心目中的排位

  6. 薪资的期望

十三、汇量(算法工程师)

一面
  1. 手撕代码:LeetCode17电话号码的字符组合

  2. 介绍HMM

  3. Word2vec和fasttext的区别,fasttext的改进

  4. 爬虫有用过动态框架吗

  5. 介绍实习经历、项目

二面
  1. 手撕代码:一个亿级别的数据,是地球上各个位置的温度,对该数组进行排序,时间复杂度O(n)。面试官非常nice,给了很多提示,最后写出来了...真是惭愧

  2. Bagging和boosting的区别

  3. 过拟合的解决办法

  4. 知道哪些分类器

  5. Svm,LR区别

  6. 数组和链表的区别

  7. 哈希冲突的解决方法

十四、三七互娱(算法工程师)

  1. 聊实习经历,就只有20min

十五、网易云(深度学习算法工程师)

  1. 介绍项目

  2. 估计Word2vec的参数量

  3. Spark用没用过

  4. 简要介绍MapReduce的原理

  5. 挖项目,两面都没有撕代码

十六、字节跳动(nlp算法-DATA)

  1. 手撕代码:求数组最长上升子序列的长度

  2. 介绍实习项目

  3. Lgb和xgb的区别

十七、深信服(算法工程师)

  1. 挖项目

  2. Python中的字典的查找时间复杂度

  3. 给定一个数组arr,tagert,求数组元素的组合之和=target的所有可能。(o(N)的解法)

  4. 聊实习的工作

  5. C++编程:分配1024个字节的内存,按字节对内存进行循环赋值,取值为0-255

  6. Python代码运行时间超过正常情况要怎么办

十八、百度(算法工程师)

  1. 两个栈实现一个队列

  2. 一个连续数组有断点,logN时间复杂度找到它

  3. Xgb和lgb的区别,和其他树模型比的优势

  4. 挖项目

十九、腾讯wxg补招(应用研究)

面了七轮,主要还是挖简历,问一下各种算法原理(基础的LR,kmeans,dbscan,XGB,bert方方面面都涉及到了)。

算法题:1.小于n的正整数里面1出现的次数;2.找出有序数组里面第一个重复1000次的数字3. LeetCode 409

智力题:40匹马8个赛道,每个赛道都可以知道马的排名,如何给这40个马排名

你可能感兴趣的:(算法,机器学习,面试,人工智能,深度学习)