阿里机器学习算法面经(已offer)

作者 | Ivyoake 

整理 | NewBeeNLP

面试锦囊之面经分享系列,持续更新中 

可以后台回复"面试"加入交流讨论组

今天上午已收到意向书,岗位算法工程师-机器学习,地点杭州。

一面(简历面 半小时)

当时在过马路时收到了电话,站在人行道上面试了半小时..

  • 询问基本情况(研究方向及实习)

  • 就实习阶段所做的超分辨率算法工作进行了详细的询问:数据如何生成,从概率的角度解释网络为何能够学到LR和SR的映射关系,如何搭建和训练网络,如何解决模型落地问题

  • 了解到答主在做超分时遇到的问题后,对业界前沿的技术做了相关询问,用了哪些GAN模型,GAN模型的loss函数如何设计,为什么这么设计

  • 询问答主为什么要从深度学习方向转到机器学习方向,以及约定了两天后的详细面试;

二面(视频面 四十分钟)

  • 介绍一个机器学习项目后就项目的pipeline和相关知识点进行了询问

  • 介绍随机森林和GBDT的区别,为什么Bagging降方差,Boosting降偏差

  • 介绍XGB对GBDT的提升,LGB对XGB的提升,以及既然使用了LGB为什么还要使用XGB

  • 介绍stacking的模型融合方式,以及模型融合为什么有效

  • 编程题:找到一个无序数组里面连续的最长整数数组长度。顺带考察了基数排序和快速排序

三面(P9交叉面 一小时)

  • 了解答主的两段实习经历,分别承担怎样的角色,具体做什么,简单考察了如何解决实际问题

  • 就项目中数据处理方式做了详细的询问,生成的多张数据集如何使用,缺失值的处理需要考察到哪些问题,均值填充是否科学等

  • 特征工程中具体衍生出来的特征进行了详细的询问,为什么要生成这样的特征,依据是什么,为什么要使用PCA进行降维,如何存在多个特征高度共线会有什么问题

  • 为什么要大量使用树模型,有什么优势

  • XGB如何处理缺失值,LGB的差加速和直方图算法的底层代码是否有过了解

  • 开放题:双十一时向用户发放优惠券,希望在成本一定的前提下,使得盈利最大化,该如何建模发放给用户?用户无法做AB测试,该怎样划定正负样本?

  • 数学题:长度为1的线段,随机地取两点A和B,求AB长度的概率密度函数

四面(四十分钟):

  • 是否做过机器学习算法上的性能优化,介绍了项目中超分算法优化的内容

  • 为什么要对连续型数值进行离散化,这样做有什么优势

  • stacking模型最后一层用于二分类的LR是用离散型的数据还是连续型的数据,有什么区别

  • 详细解释了弱模型特征的生成方法和思考角度

五面(主管面 现场面 一小时五十分钟):

四面当晚收到去现场面试的通知,经历了春招和秋招以来时间最久和最紧张的一场面试,所幸面试官人很好,缓和了一些

  • 详细介绍了第一段实习的个性化推荐的项目,以及团队内的分工合作,自己负责什么领域。生成的模型方案如何评价和测试,处理样本时是否遇到样本不均衡的问题,如何解决

  • 分别解释分层采样和蓄水池采样

  • 就第二段实习经历询问了GAN模型和多帧模型以及loss设计

  • 就机器学习项目的pipeline进行了详细的介绍,询问的问题部分重复,在此不述

  • 开放题:就之前的面试记录来看,想继续询问优惠券发放的问题,你是否有了更深入的了解和更好的思路

  • 编程题:有log日志,每行有两列(用户ID,访问的商品ID),若两个用户均有访问一个商品ID的记录,则两个用户关系指数加一,求所有用户对中关系指数最大的TopK;如果内存中无法存入全部数据,该如何解决。能否使用hadoop的方式解决,原理和思路?能否使用合理的切片方式,使得分布式的机子上的排序结果汇总后就是最终结果?

  • 思维题:有一座桥,A通过需要25分钟,B通过需要20分钟,C通过需要10分钟,D通过需要5分钟,一个桥同时只能走两人,且快的人需要等慢的人到达才能一起到达。走桥时必须要有手电筒才能经过,且手电筒只有一个,问如何在60分钟内使得四人均通过

HR面(三十分钟):

现场面结束后主管告诉我本轮已经是最后一场技术面,如何有后续面试就是HR面,在返程地铁上就收到了第二天的电话面试通知,非常高兴

  • 简单自我介绍

  • 讲述自己的特点和所擅长做的事

  • 就两段实习经历讲讲自己对于两家公司的看法

  • 讲讲自己对于一个公司的期望

  • 认为自己在工作中最有优势的事情是什么

  • 自己希望从事怎样方向的工作,是科研型的还是工程型的

  • 自己的兴趣爱好是什么

  • 有什么想问的

- END -

你可能感兴趣的:(阿里机器学习算法面经(已offer))