秋招面经

项目相关

  1. 为什么选取 XGBOOST?
  • xgboost 相对于 svm、LR 有更好的效果。
  • xgboost 相对于其他树模型的优点,支持特征粒度的并行处理,决策树最耗时的步骤就是对特征的值排序,因此可以大大加速训练过程;同时借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算;对代价函数做了二阶 Taylor 展开,引入了一阶导数和二阶导数,包含了更多信息;当样本存在缺失值时,XGBoost 能自动学习分裂方向等优点。
  • xgboost 相对于神经网络,xgboost 有更好的可解释性。

字节提前批

一面(2h)

  1. 自我介绍
  2. 介绍下 word2vec,CBOW 和 SG的区别、快慢对比,准确率对比、两种优化方法,word2vec 使用的词向量是输入层到隐藏层的权重矩阵?
  3. 为什么选用XGBoost?以及 XGBoost 与 GBDT 的区别?
  4. L1,L2 正则化的区别?
  5. 过拟合怎么解决?
  6. 算法一:括号匹配,带 * 号
  7. 算法二:字符串的一次编辑

正式批:
一面

  1. 自我介绍
  2. sql:lefter join 与 out join 的区别
  3. ELF 文件,Android 加固技术/Android 解加固技术。
  4. TFIDF 的介绍。
  5. FM、DeepFM 介绍以及区别。
  6. 随机森林与 XGBOOST 的区别。
  7. sql 语句

A表 登录事件表

ID ip ip_location device
12343 34.147.2.6 中国-上海-浦东 {"device_type":"android","os_version"":"7.6.0"}
76335 192.168.9.1 中国-广东-珠海 {"device_type":"iphone","os_version"":"10.2.3"}

B表 注册表

ID register_province register_ip register_devicetype
34521 四川 21.56.123.32 iphone_8.6
87233 内蒙古 42.66.211.9 huawei_5.4.0

要求:找出注册地为上海,登录发生地不在上海,登录设备类型与注册时变化了的,登录不同省份个数大于5个的ID(排除内网)

美团转正面试

一面

  1. word2Vec
  2. 负样本如何采样,才能更高效
  3. Query 改写后续思路
  4. 算法题:TOP K 问题,两种思路的时间复杂度与空间复杂度。

二面

  1. 情景题:文本分类,类别大(1000个类别),如何分类?
    1.1 分层分类,如何解决大类别判别失败,整个模型就停止?
    1.2 有没有一种端到端的模型,可以解决多类别分类?
  2. 构建语料库:如何保证扩充语料的多样性(对比于相似度模型)
  3. NER 中,CRF 与 HMM 的区别?LSTM-CRF 与 CRF 的区别?
  4. Bert 的原理,以及 Bert 改进的论文以及原理?
  5. Bert 如何减少资源利用?
  6. 图神经网络的介绍?GCN 与 GraphSage 最大区别是什么?

腾讯

一面

  1. 随机森林与XGBoost的区别,XGBoost 与 GBDT 的区别
  2. PCA 降维,以及其他的降维方式。线性降维、非线性降维
  3. 相关性系数
  4. 情景:如何去识别电信诈骗
  5. 负样本失衡?
  6. BERT 的原理
  7. tensorflow 与 pytorch 的区别
  • pytorch 是动态框架,tensorflow 是静态框架。
  • pytorch 的代码相对 tensorflow 代码更加简练。
  • 部署:tensorflow 部署更容易,特别是移动端的部署。

二面

  1. xgboost 源码
  2. 基本的决策树,特征选择的实现过程

三面(跪)

  1. 项目中,bert 实践有什么 tricks.
  • 筛选训练数据,剔除过短或者过长的数据;
  • 尝试bert+conv, bert+conv+avg_max_pooling, bert_last_layer_concat等方式;
  • 针对本场景数据,进行少步数的进一步预训练;
  1. 相似度模型怎么扩充样本?

补招一面

  1. 算法题:逆时针打印矩阵
  2. Kmeans 类别大小差异太大如何解决?
  3. XGB 特征重要度?
  4. XGB 和其他树模型对缺失值是否敏感?
  5. GBDT 怎么用于分类模型?

京东

一面

  1. 一亿的数据量,去重之后为100w,获取其中重复次数最大的10位。
  2. Attention 机制的介绍
  3. 损失函数的介绍
  4. 推导交叉熵的梯度递降公式
  5. 文本分类模型的介绍
  6. 互信息与左右熵的介绍,区别

二面

  1. 全部围绕项目展开,如何进行同义词的挖掘?词向量如何获取?
  2. 搜索算法的流程。

小米

一面

  1. Transfomer 与 RNN 的区别
  2. Attention 机制的介绍
  3. PCA 降维的介绍?特征值与特征向量代表的物理含义。与 LDA 的区别?
  4. Kmeans 在哪种数据集下效果不好?
  5. FM 算法 field 存在多个激活位置,怎么处理?
  6. FM 算法针对连续特征怎么处理?
  7. 场景题:AUC 值很高,但是正样本的 概率大部分为 0.99,负样本的概率大部分为 0.7,这种情况正常吗?不正常的话是什么导致了这种原因?(开放题)
  8. 算法题:(说思路)
    在二维空间中,最多有多少个点在同一直线上?float 精度问题怎么解决?

二面

  1. 项目相关
  2. SVM 的原理,推导过程,对偶问题?核函数?
  3. Bert 与 XLnet 介绍?Bert 的参数大小
  4. Multi Attention 机制的介绍?
  5. Bert 的位置编码?

九鼎无双(游戏)一面

  1. 进程、线程、协程的区别?
  2. Linux 如何查看运行中的进程?
  3. TCP/ UDP 的区别?
  4. 大数据中,TOP100问题?(堆排序的生成问题)
  5. 逻辑题:8L、5L、3L 的水杯,怎么平均倒出 2 杯 4 L的水?
  6. 逻辑题:1000杯水,999是水,1瓶是毒药,小白鼠1个小时之后检测是否有毒,问:两个小时的话,最少需要多只小白鼠?

网易 一面

  1. 项目介绍
  2. 残差网络的介绍?
  3. 推荐系统?
  4. word2vec 的介绍?
  5. pytorch 分布式训练?
  6. 深拷贝与浅拷贝的关系?
  7. 多进程与多线程的关系?
  8. 稀疏化模型?
  9. torch 与 tensorflow 的区别?
  10. 算法:笔试原题

BIGO

一面

  1. 自我介绍
  2. 实习项目,query 改写
  3. 算法题1:树的最大路径
  4. 算法题2:最长回文序列长度(不需要连续)

二面

  1. 项目
  2. 算法:包含(0-m)的子区间最小长度。
  3. abcd * 4 = dcba 求 dcba 的数字,为2178.

滴滴

一面

  1. Query 改写,同义词挖掘,左右熵和互信息的公式
  2. Query 改写的后续以及改进点
  3. bert 、transformer、attention 以及对应的训练机制。
  4. 算法题:二叉搜索树删除节点

好未来

一面

  1. 自我介绍
  2. 项目相关
  3. 介绍 Xgboost 模型
  4. 介绍 textRnn+Attention
  5. SVM,核函数
  6. 评价指标 AUC 值,ROC 曲线,准确率、精确率与召回率
  7. 熵,信息增益
  8. 算法题:int 数字是否是回文数字

小鹏汽车

一面

  1. 自我介绍
  2. 项目相关
  3. BERT的结构,Transformer 结构
  4. Attention 机制原理
  5. 牛顿法与拟牛顿法的区别
  6. 凸函数定义,Jensen不等式?
  7. HMM 与CRF的区别
  8. 集成学习分为几类?boosting如何实现(以xgboost为例)
  9. 访问内存数据,操作系统怎么运作?
  10. 计算机7层网络,TCP如何进行用塞控制?

安恒信息

  1. 自我介绍
  2. 算法题:数组中最小的 K 个数,要求有序排列
  3. FM 怎么做到避免矩阵稀疏
  4. XGBOOST 怎么做到并发性,特征空间太大导致的问题?
  5. HTTP 的请求?
  6. 邮件发送接受过程,各自使用的协议?
  7. 聚类算法的肘部法则和评价指标有哪些?

360

一面

  1. 概率题:患癌症的概率值(贝叶斯公式+全概率公式)
  2. 132 模式,LeetCode 原题

去哪儿网

一面

  1. 算法题:两个递增数组的交集
  2. 算法题:旋转递增数组,查找 target 的位置
  3. Kmeans 聚类的缺点?
  4. LR 为什么使用交叉熵而不是均方误差?

阿里补招

  1. BERT 特点
  2. Transformer
  3. DeepFM介绍
  4. XGB介绍

你可能感兴趣的:(秋招面经)