来源整理自公众号:胖里的日常
第一家公司的2020届数据分析面试题整理就从拼多多开始吧~ 招聘总共分为学霸批、寻梦批、正式批三批,面试题合集并没有按照批次进行整理,毕竟也没啥规律可循。本人参加的是寻梦批的现场面,真实见闻是分三面,两面技术一面hr,可能由于人员安排原因,hr面并不都放在最后一面,且不是所有人都有三面,有同学面了一面结束的,也有面了两面结束的。另外面试题具体是业务题多一点还是机器学习等题目多一点,这个也不太好说,主观上是与你的简历或者面试官相关。不叭叭了,以下是从牛客给大家整理的多多的面试题(上)。再次谢谢各位在牛客上给下一届的同学留下面经的同学,祝大家工作顺利,一切都好。
01 篇
作者:cushion+_+ 来源:牛客网
拼多多 共三面 (8.18号)
一面技术:35min
自我介绍
两份实习分别做了什么,有啥区别?
airflow配置任务依赖关系
Linux掌握怎么样
Python问题
归因分析怎么做?
异常分析怎么做?case
异常分析实时解决方案
广告ssp平台数据报表建设的考虑?
实习公司常用的指标体系
检查一下你笔试的SQL 哪里错了你改改..
随机取10条数据,如何实现?
手撕两道SQL
给个表,uid app类型 app,你觉得如果这个表扩展,还需要哪些指标。你能用这些数做什么?
给几个词,你觉得哪个和你最贴切?-细心
常用的app?
怎么看待网易云音乐被下架?我说我不知道,为啥啊。
面试官说那换一个问,你觉得网易云音乐最吸引你的地方是什么?
网易云音乐有什么拼多多可以借鉴的地方?
问面试官:部门?评价?业务答案空洞是指?(--缺少细节)
二面HR:10min
自我介绍
考研还是保研
找工作意向城市?
缺点?
第一份实习为什么选数据分析?
实习不能转正吗?
同学中有拿offer的吗
家里几个孩子
对薪资的要求
三面技术:40min
自我介绍
实习业务
实习部门最关注的指标
获客,你最关注什么?
手撕SQL -取众数,四分位数
问面试官10个问题,逻辑推理,猪的死因?
双十一过后,成交量下降,如何分析?
有什么要问我的?-部门,评价,四分位数SQL,如何定岗?
02 篇
作者:求offer哇~ 来源:牛客网
一面(30min)
1.专车分析时最重要的指标?可比性指标?
2.SQL题
3.GMV下降怎么分析
4.A/B test怎么设计
5.从北京到上海,如何去
6.假设检验,z检验、t检验、卡方检验等
二面(30min)
1.淘宝网项目指标选取
2.专车流量的核心指标,怎么分析
3.如何量化对购物车的需求
4.SQL题,这个SQL题有点难,用自连接可以做
HR面
1.独生子女,家庭情况
2.期望薪资,工作地点
3.三份实习的不同之处
感觉拼多多认为大概率在北京上学且家在北方的大概率不会去上海。。。所以HR面的时候还是要注意一下。。
03 篇
作者:Offer+++2019WWW 来源:牛客网
一面 约1h 10min
自我介绍
聊简历项目
一道sql题目 如何找出每一个级别下面购买最多的十个用户,应该用窗口函数的,但我忘了,用了个group by 错了????
一道业务题,AB TEST
一道概率题,三变量贝叶斯公式,就写了一下思路,不知道对不对
二面 40min 方式:远程 语音+电话 时间:周末傍晚
自我介绍
聊简历项目,聊细节;
期间问了分类算法的区别,经典算法与深度学习的不同。回答的很不好????,不会回答这种问题,区别很多...
你认为一个数据挖掘或数据分析的流程是怎样的,有什么需要注意的重点?
场景题:1.上海有多少量公交车?说思路
2.估算未来一段时间里某地铁口的进站量和出站量
智力题:博弈取球问题,箱子里有100个球,每个球有1-100的编码。两个人轮流从箱子中取球,每次只能取1,2,3或4个。取到最后编号为100的球的人赢。问想要赢应该先取还是后取?
这个问题当时答错了,倒着推又有点紧张绕晕了。面试官让下去再梳理一下,写个答案发给他。面试就结束了...也没有例行的你有什么问题吗? 然后就重新找了规律,应该是后取的人赢,发给了面试老师。
三面 时长:14min 方式:直接电话 时间:中秋前一天
时隔19天,赶在中秋假期前进行了hr面。
中午11点多,正走在路上,021的电话打来,hr直接问有没有空聊半个小时,于是找了个路边的椅子坐下来。
学习成绩,专业排名
家庭情况,求职意向地,家里人意见
最有成就感的一件事情(这个问题回答得很不好了,我习惯纵观总体回答,不喜欢把生活划分成最有成就感或者最失败,选择,努力,生活进行下去。但hr想听的是一件具体的事情,我们绕了一会儿才按照他想要的去回答????♀️)
成就感的事情详细介绍,为什么?你是怎么做的才让最后有这样的成就感。
意向薪资,答普遍水平就好,问普遍水平是什么价位?就...随便说了一个,没有很有概念。????
为什么选择拼多多?也是随便答了一下,就说了一两句,应该多说一点的。
手头有没有其他的offer或者进行中的?拼多多会在意向offer中排第几?
最后问有没有什么想问的?我暂时实在想不起啦要问一下什么了。(*/ω\*)
在又热又晒的正午马路上面完了,思绪比较混乱,感觉自己回答得非常仓促,路边还有些吵,有的地方估计也没说清楚,很多问题都能够回答得更好的。
面试官小哥很从容,我回答得含糊或者绕来绕去,他也很有耐心地提醒我,非常感谢
04 篇
作者:LunaMYX 来源:牛客网
提前批(学霸批)收到意向书已拒,听说最近正式批刚笔试完,回忆面经回馈牛客攒人品
timeline:7.28 笔试 -> 8.2 通知笔试通过 -> 8.7 一面 -> 8.12 二面 -> 8.15 HR面 -> 9.6 收到意向书
一面(44min):微信语音 + codeshare
1. 简历,做过的实习,项目
2. 写了几个SQL,比较简单,然后问了一个比较tricky的:取每月最后一天的最后三笔订单且代码需要可复现(tricky点在于如何找每月最后一天)
3. 问我有没有刷过算法题,我说没有,于是问一个简单的小问题,如果A到Z分别是1-26,AA是27,AB是28……给一串字符怎么转化成数字,说思路不需要写(26进制)
4. 好像还问了几个简单的概率,记不清了
5. 业务题,如果有一个活动,产生了很多GMV,如何在各个部门之间分配这些GMV
6. 如何判断异常订单,写建变量的思路(我的回答照搬了fraud analytics的project)
备注:面试官应该是可以看到笔试成绩或者答案,当时有说笔试写的不错什么的
二面(53min):微信视频 + codeshare
1. 简历(拼多多的申请系统很奇怪,这个面试官还有后面的HR面试官都看不到我的最近一段实习经历
2. 问了一个很绕的SQL,用户登录的log数据,划定session,同一个用户两个小时之内的登录算一个session,需要多次self join,差点把自己绕晕了(面试官吐槽我没有缩进没法看)
3. 两个SQL小点(1)对于有null的数据取average分母是不计数null的(2)join on 中带筛选条件和 join 之后 where 的区别
4. 业务题,如果有两个平行的活动,一个GMV比另一个低,如何分析原因
5. 让我讲了一下简历一个最优化的项目,问具体code,我就把当时的code复制给他并讲解了一下
HR面:电话 20min
1. 简历
2. 会什么数据分析工具
3. 实习中难忘经历
4. 实习中的困难
5. 未来职业规划
6. 哪里人,有没有男女朋友,为什么计划来上海
7. 期望薪资
8. 三个词形容自己
9. 爱好(还有一些琐碎的问题)
05 篇
作者:heynicole 来源:牛客网
一面(1h)
1.常规的自我介绍
2.面试官根据我的简历开始让我手撕代码(之前看了牛客的面经,以为都是手撕SQL,没想到手撕Python了),自己写一段计算tf_idf的代码(用的for循环,复杂度很高,面试官很和善,说ok)
3.问了一下简历的内容(包括AB Test、模型评估、项目细节等等)
4.我看你简历上数据挖掘的项目挺多,为啥来数据分析了?(我回答的数据分析和挖掘关联性很强啊,不可分割啊啥的)
5.你有什么想问的?(我问了一下对新人的培养方案和对我的评价哈哈)
回到等候室,立马叫去二面了
二面(45min)
1.常规的自我介绍
2.手撕算法题(我面的不是数据分析吗?求求你们让我写SQL啊TAT)
难度大约在Leetcode中等难度,我给出一个时间复杂度N2的解法,但是面试官说有更快的解法,用动态规划,我想了半天也没想出来(自从放弃投算法岗之后真的没怎么看这些了)
3.Xgboost、GBDT、RF的不同(可能因为简历里提到过)准备了一堆业务问题的我其实是有点懵的,对这三者的不同粗略答了一下Boosting 和 Bagging
4.Xgboost比GBDT好在哪?只答出来并行与二阶导
5.ID3和C4.5的不同?信息增益和信息增益率;除了这俩还有啥不同?emmmmmm,名字不同吗?(确实这一块研究的不深)
6.写一下信息增益和信息增益率吧?写出来了
7.SVM知道吗?
我:首先,SVM是寻找间隔最大的分离超平面,...(面试官:好了,写一下SVM的超平面公式和目标函数和求解方法)
我:(我真的不是在面算法吗?)那就写吧,目标函数写的磕磕盼盼,还有约束条件啥的,加上有点紧张,在面试官的引导下写的也只是七七八八(其实是很基础的东西)
8.你还有什么问题?
我:咋这么偏算法?面试官:我是广告搜索部的,所以平时数据算***比较多一点
回到等候室,立马叫去hr面
hr面(30分钟)
1.前面感觉怎么样?感觉二面自己不是很满意
2.加班可以吗?ok
3.薪资呢?我在网上看到差不多是balabala这个价
4.单身吗? 和女朋友都规划在上海工作
5.说出三个自己的优势?我:1... 2... 3...
6.有几个offer?0,不过很多面试都在过程中
7.聊一聊你心中的拼多多?砍价活动真香!BALABALA(舔就完事了)
8.你有什么想问的?(hr说他是从阿里跳过来的)拼多多和阿里技术哪个好?面试官说阿里技术沉淀在那,拼多多肯定不能比,但是拼多多的成长是很快的,在这里可以学到很多东西。
06 篇
作者:yuriko33 来源:牛客网
一面(9.10远程,50min)
介绍一个主导的项目(不断challenge)
实习公司产品的指标体系
DAU、MAU之间的关系,与留存率、活跃度的关系
灰度上线是怎么操作的(如何投放、样本如何选择etc.)
一道sql:连续三天留存
是否有sql语法正确但是很久跑不出来的情况?以刚刚这道题为例,如何优化sql运作效率?
一道python:文本处理
思考题:房间里有100个人 每个人手上有100块 每次随机给别人1块 房间里最后的财富分布(这里卡了很久很久,面试官最后提示不要用数学推导的思路走,而是做蒙特卡洛模拟实验)
现在投了哪些地方,对base有什么要求
之前有咨询数据分析的经历,为什么现在选择互联网产品数据分析?有什么不同?
Q:pdd数据分析偏业务还是技术?
A:主要有三种:数据中台、业务分析、算法
二面(9.11远程,50min)
总体来说也是挖项目,根据提到的关键词会穿插一些小问题,如各类假设检验的使用场景、项目中缺失值如何处理等
一道sql+分析题:
数据表:省份-年份-GDP
1)求近十年每一年GDP增长率前十的省份
2)假设需要的数据都有,如何分析为什么这些省份增长最快
hr面(9.20远程,13min)
常规问题
自我介绍
作为广东人接受出省吗?想来上海吗?
有没有男朋友?
为什么想来拼多多,怎么看拼多多?
有其他offer吗?
对薪资有什么要求(hr说不影响录取,只是听一下同学的心理预期)
工作时间接受吗?(hr说统一规定是早11晚8,周六休息周天上班)
最后说结果两到三周出,10月底才谈薪资
07 篇
作者:~微澜...... 来源:牛客网
一面: 时间在8月16日下午2点,电话面试
1.首先做一个简单的自我介绍。
2.在上一家实习主要做的事情,按照做的事情和简历上的点,每一条细挖,做报表的目的是什么?可视化展示要达到的效果什么?爬虫有反爬措施时,数据分析怎么分析的?
3.做的招行的fintech比赛(简历上的),解释下smote方法原理,比较下决策树,随机森林,xgboost的原理有什么不同?数据量多大,数据字段分别有哪些?是怎么进行数据预处理的?特征工程这一块是如何做的?最后是怎么来判断模型训练效果的?
4.就最近做的产品数据分析经历,拿一个项目介绍一下,主要做的是什么?如何判断指标的异常值?怎么找到数据分析的核心指标?
5.介绍下研究生方向做的课题研究,为什么用这种方法做?解决了什么问题?
6.口述一道sql题,比较easy,有两家单车公司,表里存放的是每天某个时刻投放在某个城市的单车量,尝试寻找按天颗粒度这个城市两家公司投放单车量的拐点(即相等值)时间。
7.你还有其他问题想问我的嘛?
问了数据分析部门,面试官说,类似于阿里的架构,有风控,不同的业务线,具体去哪个部门后面会有hr介绍。
一到两周内出面试结果。
二面:
时间在8月22日下午3点,微信电话面试,主要内容:
面试官先自我介绍,搜索团队,基于用户和商品匹配,但是不是纯算法,偏于业务得到的结论
1.简单的自我介绍;
2.在鹅厂的实习,一个多月,主要做的事情是什么?
3.留存分析,***分析是怎么做的?to b还是to c?你根据什么依据认为你的次日留存率低?有没有落地?
4.招行的fintech竞赛(特别细,感觉这个部门偏算法)
先简单介绍下背景;问题是什么?用户有没有买某一批商品还是某一个商品?
特征字段总共有多少个?数据量多少?进行特征工程处理后的字段大概有多少个?除了one-hot、连续值离散化,有没有其他类似于构造特征的方法?构造特征是怎么构造的?
采用逻辑回归、随机森林、xgboost方法是基于所有的特征嘛?对模型进行评分的指标是什么?召回率的定义;召回率、准确率和精确率的区别;
5.从你的实习经历看来,你既有偏于业务层面的实习,也有偏于技术层面的实习经历,谈谈你对技术和业务的理解;
我回答说技术最终服务于业务决策,为业务服务,举例子在业务实习中,我也会采用聚类算法技术建模分析进行用户分群。
6.做了两道sql,一道是留存率计算,自己提前批笔试中没有写的,另一道比较简单,但是会忽略条件犯错:
两张表,用户订单表(tbl_ordr)及用户商品点击明细表(tbl_clk),假设都仅有只有某一天的数据,请根据以下描述写出对应的sql代码
1).用户在点击某个商品之后产生的订单算作这次点击产生的订单(要求点击及创建订单行为是同一用户操作的,且点击的商品和订单商品是同一商品)
2).如果同一用户多次点击相同商品,并最终产生订单,则订单归属到订单创建前的最后一次点击上
3).输出有产生订单的商品点击及点击产生的订单号(clk_id,ordr_id)(用sql实现)
用户订单表字段为:用户id,订单号id(ordr_id),订单商品id,order_time预订时间
商品点击明细表字段为:点击id(clk_id),用户id,clk_time点击时间,点击的商品id
思路是首先根据用户id和商品id将用户订单表左连接商品点击明细表,然后group by 字段用户id,商品id求max(clk_time点击时间)对应的clk_id
这时面试官很亲切的提醒了一句:如果有个客户点击了某个商品点击了5次,但他在第3次点击后就购买了该商品,那我这样取数会把点击id错取为第5次,这时我赶紧反应过来说在left join之后加一层where判断,where clk_time点击时间 7.你还有其他问题想问我的嘛? 最后面试官又介绍了下搜索部门 结束一个半小时后收到了面试官关于搜索部门介绍的微信消息,听说可能会有下一面...... HR面: 时间在9月5日早上10点,电话面试,主要内容: 1.知道你报的是拼多多什么岗位吗? 2.你为什么报拼多多? 3.你为什么想来上海?为什么选择上海? 3.你的本硕专业都与这个无关,为什么要报数据分析这个岗位? 4.你认为数据分析岗如何在拼多多这个企业里发挥作用? 5.你还投了其他企业吗?有其他正在进程中的面试吗? 6.你认为自己相对于别人来说,突出的3个优点和3个缺点? 这个问题想的太久了,而且还是3个缺点???? 7.你理想中的薪酬大概是多少? 8.你是明年6月份毕业,这期间你有时间过来实习吗? 08 篇 作者:可可粥 来源:牛客网 9.2 更新 今天收到HR的电话 大概就说了下base作息什么的能不能接受 有没有男朋友 gap year在干嘛 还有薪资什么的 大概就3-5分钟 应该这个不算面试吧 感觉也没什么用但是至少知道还没凉透?2333 都是远程面试,两次化了妆都没看到面试官的脸又默默卸了…… 周三一面 面试官超级nice 自我介绍 因为我金融本科 只有金融行业的实习 面试官问了问就是数据分析和在金融机构做行业研究的区别在哪 然后问了下简历上写的项目 问了一道sql相关的题 大概是说用了group by做提取的时候有时候到进度条最后会卡住 问原因 一开始没回答上来 面试官特别耐心给了点提示 最后我说大概就是先group by两个字段之后再汇总的方法吧 面试官可能觉得可行?这块就结束了 后来还问了下还熟悉什么模型 我就说了几个课上学的 也没深说就提了一下其实 面试官还说挺好的233 一面面试官真的超nice 说什么他都会肯定你哈哈哈 周日二面 自我介绍 介绍项目again 看了下我笔试时候一道没拿满分的sql题 (从这里开始交流就非常困难 他说话我觉得很迷很难理解……) 问我怎么没有相关实习(这里已经感到凉了233) 又发了一个网站做一道sql题 其实就是第一批笔试的第三题 但是我只做出来一半 然后还用了蛮久的……(然后就全凉了) 最后结束就是面试官在吐槽我时间用得久 一直说“时间关系”什么什么 然后就说没什么要问的了 感谢参加面试 感觉二面的面试官就是全程都很冷漠 然后我们交流还特别困难 悲剧.jpg,然后今天周一看到官网已经是“已结束”了???? 09 篇 作者:bellz 来源:牛客网 一面 1. 自我介绍 2. 看你实习经历有写,说说对埋点的理解 3. 实习经历 4. SQL题: 1) 有访问记录表A,订单表B,查看下单前最后一次访问记录 2) 如果想要看下单前5次访问记录呢 3) 能不能把第二问的结果5行变一行?(不会……是不是用某个函数+over()开窗呀) 5. 估算上海垃圾桶数量: 假设垃圾都会被当天处理,那么垃圾桶数量=垃圾站数量*平均垃圾车数*平均每天趟数*垃圾车容量 / 垃圾桶容积 对了,还假设不需要垃圾分类hhh 6. 根据消费者购买流程,设计核心业务流程的指标体系,(因为我说的太多)选最重要的三个怎么选: 商品到购买的转化率,退货率,GMV 后知后觉地说,退货率有那么重要吗…… 7. 对数据分析师的理解 二面 晚上9点开始,历时一小时的高强度互动,难顶…… 1.自我介绍 2.说说实验室的算法项目,为什么用f1不用auc,对auc的理解 3.实习项目做了什么 4.SQL题,挺难的,但是很落地,是平时工作会遇到的场景 5.数学题。(原题不能泄露,于是我抽象成硬币的问题)一枚硬币扔20次,出现15次正面,你觉得这枚硬币不均匀吗? 答:多次试验,假设检验? 问:只凭这一个事实呢? 答:极大似然估计奥 6.看你实验室做算法,对算法更感兴趣吗? 10 篇 作者:cilla0205 来源:牛客网 1.sql 找近90.30.7天的登录人数,不能用union 2.如何判断异常值,如果有大规模订单涌入如何判断是否是正常增长 3.订单业务场景,如何建立异常值示警体系,比如哪些指标有异常会认为有刷单现象 4.找的指标有线性相关性,有的对label实际影响不大,如果给你一堆数据带有label如何确认这些指标是否真的影响label的值 5.如果不用回归,不做回归系数的检验,如何判断这些指标是否相关 6.协方差公式是什么 7.机器学习知道吗,写一下逻辑回归的全部过程 8.决策树,信息增益,基尼系数越大越好还是越小越好,为什么现在用信息增益率不用信息增益 9.如何去线性相关,答因子分析和主成分,于是让说明这俩是什么并写因子分析全过程 好像还有些,不太记得了,我可能是现场面唯几没走完流程的吧…说起来就十分伤心… 11 篇 作者:诸葛钢管 来源:牛客网 看了很多面经,感觉面试内容其实很看面试官,不同的人问题就不太一样。。 一面 主要的问题 1. 问项目,主要了解项目内容,没怎么细问 2. 项目涉及到了python,喔我们来做道题吧。。。(不会???? 问了提示也没做出来。。。最后面试官还安慰我说这对于数据分析来说要求可能算高了,我们还是来说说别的吧。。) 3. svm核函数,rbf干嘛的 4. 又问项目,你咋用xxx完成xxx的,然后聚类的个数咋决定的 5. 还有啥聚类、降维的方法,讲讲看 6. rf,gbdt区别,知道lgbm吗(不知道。。) 7. count(1) count(*) 啥区别 8. t分布、f分布、正态分布 9. 独立同分布 【8.19更新】二面 以为是视频面试的,结果是电话。。妆都化好了。。 *发现秋招以来选择视频的都是男面试官,选择电话的都是女面试官hhh 1. 围绕简历项目(30分钟),主要是以了解内容为主(包括模型干嘛的,这个评判指标是什么意思,为什么要用它),其中一个涉及到网站的公司还问了指标体系怎么建 2. sql不难,join一join或者开窗都行的那种 3. 井盖题(看隔壁面经)。。没答好。。还把面试官逗笑了。。。QAQ *两轮下来感觉pdd的面试官都很好,虽然都是北京时间晚上***点面试还是挺耐心、挺温柔的哈哈哈~ 行吧,我去吃早饭然后微博转锦鲤去了。。 【9.5更新】 暴躁等待的17天之后,HR终于来找我聊天了!! 12 篇 作者:liunian789 来源:牛客网 8.17上海现场面试 面试顺序:HR --一面 --》二面 1.自我介绍 2.想去什么类型的公司 3.期望什么样的工作 4.是否接受调岗 5.期望的薪资 6.是否接受PDD的工作时间 7.父母的工作 8.职业规划 1.一道SQL(窗口函数) 2.k均值的k怎么定 3.怎么去评判一个模型的优劣 4.现在实习的工作内容 5.你对数据分析这项工作的理解 6.假如xx店在xx市要搞活动,要怎么去定发短信的策略 7.随机森林原理详解 8.ROC AUC 1.一道排序题 2.k均值的实现过程(要求一步步详解) 3.其他聚类算法 4.随机森林原理 5.XgBoost & GBDT 6.AB Test 原理 7.其他记不得了。。 13 篇 作者:一只超越小白 来源:牛客网 8.24两轮技术面一轮HR面 第一轮技术面: 1)求圆内接三角形过圆心的概率2)把笔试的概率题中无放回改成有放回重新算写了三道SQL题,然后聊了聊机器学习 第二轮技术面: 自我介绍后直接写两道SQL题,开窗函数还是很重要的。 1)有一张表,两列分别是车的颜色和故障率,得出结论黄色车故障率高,问对这个结论有什么看法,如果让你来做会怎么做 2)猪怎么死的,类似于破案找原因,只能问十个问题关于客观事实的 最后一轮HR面 就是常规的HR问题 14 篇 作者:迹Rachel 来源:牛客网 8.17 上海现场面 1面 介绍决策树(ID3和C4.5的区别,熵的原理,为什么选取特征后熵总是减少的) 手写文本的熵的代码(python) 你想做一个什么项目,过程,指标呈现 用三个词形容你的性格并举例 数据分析要做哪些工作 数据分析要怎么分配一天都工作 2面 SQL 然后就是概率题???? 比较两个样本的差异(比如中国和日本的学历差异) 智力题:一架飞机,加满油可以飞地球半圈,但是可以把自己的油给别的飞机,飞机需要返回机场,问至少需要多少架飞机,可以使一架飞机飞完地球一圈? hr面 工作意愿 在面哪些公司 想找什么类型的公司 了解拼多多么 加班情况了解么 期望薪资 15篇 作者:一咸鱼 来源:牛客网 一面50分钟左右 算法部门的一个小哥哥面的 自我介绍 认为数据分析师工作职责分为哪几块 两个项目细挖,我提到了kmeans中数据标准化,然后对这个继续讨论了下 知道udf吗(不知道) 除了pca还有什么降纬算法 讲讲spark 什么情况不适合用mapreduce 看我简历上写了本科学过数据库和数理统计,就针对这提问了 大数定理,卡放分布,t分布,正态分布(说不记得之后,面试官苦笑说感觉如果是国内本硕的话这些基础都很扎实,出国的话普遍比较自信????,然后我就说数理统计的话我t检验,f检验啥的用的比较多,接下来就问了) t检验和f检验 数据库范式 手写了一个判断是否是子集的算法,最后要去重(面试官安慰我说不用考虑复杂度什么的,那是面算法考虑的????) 问了你想作数据分析的什么方向,我说机器学习,接下来就问了几个机器学习的问题 gbdt和rf区别 gbdt和lgbm区别 svm核函数有哪些 你有什么要问我的(为啥算法的来面我,他说算法团队也需要数据分析师,就来面了) 然后跟我讲了下他们用udf来干什么 感受:问的很广,但是除了项目外问的问题我回答之后都没有继续往深了问,可能是因为毕竟我不是面算法的,所以问的比较浅 二面50分钟左右 商业分析部的一个小姐姐来面试的(我先不知道是商业分析部的????) 自我介绍 问我一个男生为什么会选择数据分析 谈了实习和一个项目(主要问了流程和项目目的) 618后拼多多成交量下降,分析原因并说明需要用哪些数据作支撑 两个sql写出来一个,第二个没写完,说了下大致思路(表的列包括时间,店铺类别,店铺数量,gmv) 拼多多618前后一周内各店铺类别gmv的日均提升幅度和比例; 在618前一周gmv top20%,20-40%等这5类商铺在618后一周内gmv日均提升幅度和比例 估计上海上空下午1-3点飞过的飞机数量 问她的问题 拼多多到底有多少部门要数据分析师?答因为拼多多在发展,所以很多部门都需要这个岗的人,所以来给你面试的都属于不同的部门 那最后怎么定岗?答面试官和求职者的双向选择 感受:考察sql能力和商业sense 三面hr面 20分钟左右 自我介绍,期望薪资,手上有几个offer,工作地点,对拼多多的了解,认可拼多多的作息时间吗等这些常规问题 16 篇 作者:蛋麦 来源:牛客网 现场三轮流程走完,感觉没那么差但也没那么好,只是跟预期有点差别。 回馈一份面筋,祝各位想进pdd的朋友们好运。 因为我没有实习经历,所以技术面主要是问项目,以及感觉pdd很重视SQL 一面技术(50分钟左右) 自我介绍 看简历,问了两个项目,先是问了我的一个项目,然后可能因为我项目经历比较多,所以他让我自己再挑一个项目讲讲…… 项目问了为什么用k-means,k类怎么确定的,如何评价聚类效果,原始数据是什么样的(因为我那个是和商家合作直接获得的数据),得到结果之后怎么给商家应用,然后从项目本身拓展成了情景题,问我如果商家后续又提出了哪些哪些要求,我会怎么做…… 认为自己做数据分析的优势和劣势。 一道SQL,用到了lead()开窗和case when,面试官说总体思路做对了,帮我修改了细节错误。 有啥想问的。我问了岗位职责,以及“看面经总觉得拼多多数分需要技能树全开”的困惑,面试官回答说因为招聘期有时候协调不过来就会让算法部门的人来面试数分,他们问的会偏算法,所以面经会给人那种印象。而且一面面试官认为数据分析其实没有偏业务还是偏技术那么一说,给小哥哥点赞。 感受:一面面试官很有耐心,很多问题他问了一遍之后会继续做出详细的解释,个人认为问题价值也很高,尤其是基于项目拓展出来的几个问题很有针对性,也很符合个人预期想做的事情,虽然我可能答得不够全面orz 二面技术(50分钟左右) 自我介绍 二面面试官是比较注重业务和技术的区别的,自我介绍完之后就直接问我是倾向于业务还是技术,我说业务,他好像挺惊讶的,可能因为我过去项目里做算法写代码的比较多,但其实我专业是管理类的来着,虽然数学/算法学的多但是自认为技术不如科班…… 看简历,问了一个之前没讲到项目,项目偏NLP,是我本科做的,太久远了特别细节的地方真不记得,被问到的时候我就坦言不记得了,面试官也笑了。 特别问了会不会SQL,我说学过数据库课程但是实践写SQL比较少,然后问学过哪些课程。 两题SQL,第一题表连接,第二题输出每周都有销量的商家,我的where条件考虑不全,面试官提醒了我,但我还是没答出他想要的答案。然后他安慰说可以理解,毕竟我平常都是在学校写python没怎么写过SQL(结果关于python或者算法的两个技术面一点都没问orz) 然后问了一个情景题,这题答得是个人目前面试经历里最尴尬的,因为完全没有理解他问的意思,其实是一些基于业务的描述性统计问题(真的只需要描述),是我想的太复杂了,是真没想到会问那么基础,全程一脸懵。 有啥想问的。问了数分岗位的职业规划,比如最初做基础的支持,那几年以后怎么提升,面试官笼统说逐渐从基础转向更高层的支持,我其实就想问pdd数分目前有没有哪些更高层的支持业务(因为这轮面试感觉是去做提数机的orz),但是没好意思追问下去。 感受:二面凉凉,没有实习的劣势暴露出来了。拼多多的SQL题确实很令人深省,通过笔试发现了自己在开窗函数上的不足,通过面试发现自己还要在SQL业务逻辑上多下功夫。虽然不想做提数机但是最基础的确实要熟练啊。 三面HR(20多分钟) 自我介绍,限时1分钟。 户口,有没有对象,为啥想来上海之类的 目前投了哪些单位,有没有offer 保研还是考研,本科专业和硕士专业的区别,成绩排名 为什么没有实习(导师不允许……) 找工作比较在意哪些因素 对拼多多的了解 前两轮面试感觉怎么样,经过面试之后还想来拼多多吗之类的 能接受作息时间吗(上午11点打卡,通常晚上8点下班,大促期间可能要到10点,单休) 有啥想问的。 HR说会在2-3周内出结果。 感觉会凉在二面,不过面试本来就是为了看彼此合不合适嘛,所以平常心+继续努力就好。感谢几位面试官的帮助,我写完面筋就继续练SQL了~ 17 篇 作者:-offer会有的!- 来源:牛客网 一面:hr面 不到20分钟 1. 意向城市 2.男朋友行业,未来发展城市 3.家里人对未来工作城市的看法 4.现在已经拿到的offer,在面试流程中的公司 5.在现在实习的公司最大的感受 6.现在的实习能不能转正 7.讲一个实习中印象最深刻的项目 8.你在这个项目中最大的挑战 9.现在回顾这个项目,你觉得有什么可以改进吗 10.领导总是让你做你不喜欢做的事情,你会怎么办 11.对拼多多的了解 12.讲一个你性格中的优点和缺点13理想薪资 二面:业务面 30分钟左右 1.自我介绍 2.为什么觉得自己逻辑能力和学习能力强,举例论证 3.你认为机器学习在数据分析中起到什么样的作用 4.聊了一下最近一次实习的项目 5.项目中的特征怎么选取的 6.讲一下假设检验(这里我展开太多了,写了各个统计量的计算公式,不是面试官想要的答案) 7.假设检验的应用场景 8.因果和相关的区别 9.一个天平和七个砝码,其中五个一样重,另外两个稍轻,问把这两个轻的找出来,最快需要称几次 (这个问题回来跟同学商量了一下,暂时还没有找到公认的最佳方法,同学提到的方法如下,供参考,欢迎讨论) 砝码分成3-3-1,三个三个称一次。 1.如果两边一样重,则两边各有一个轻的,每三个中再挑两个称,找到答案。共3次。 2.如果两边砝码不一样重,挑出轻的那一份,从中选取两个进行比较。 ①如果两个一样重,拿出第一次称的重的那3个中的一个,与这两个中的一个比较。 如果一样重,则剩下没称的2个是轻的; 如果不一样重,那么刚刚称的一样重的两个是轻的。共3次。 ②如果不一样重,则找出一个轻的;再称一下剩下的两个谁轻谁重,得出答案。共3次。 最后是一个开放性的题:我现在有一个问题,需要你找出原因,接下来你可以问我问题,我会回答你的提问,最后你要告诉我正确答案。问题是,猪死了,为什么。 (这个阶段我答得非常不好,问了两三个之后,面试官设定我可以问的问题上限为10个。这里想考察思考问题的框架,我问的前几个问题都没有在点子上,到最后快到上限了才开始问地点,回来想了一下,应该先问时间、地点、猪的数量、周围环境,如果分析得当,5个左右的问题就可以问到关键点) 三面:业务面,偏技术 50分钟 1. 自我介绍 2. 数据挖掘项目介绍(这里追问的比较细,包括为什么这样定目标,为什么要做分类,样本是什么,样本量多少,为什么不采用另一种方式取特征,预测的时间范围,最后效果如何,如何在业务上验证有效而不是在验证集上。) 3. 另一个项目,涉及综合评价,PCA,FA。问PCA从数据到最后结果的流程,每一步数据如何处理,选取了几个主成分,怎么确定的主成分数量,怎样从主成分到综合分数。 4. 写了个SQL。订单表,有ord_id,mall_id,goods_id,sale_number,amount,求每个商店里的商品价格的中位数。(用到了开窗函数和join,我大体方向正确,但是考虑不周全,面试官有引导纠正) 5. MySQL数据库,表的主键只能是一列,还是可以多列?(我理解成了可以有几个主键,面试官想问的是主键能否是列的组合) 6. 平时主要用Python做什么,会做策略和算法吗 7. gbdt和xgboost的区别(有追问基学习器,为什么gbdt用的是树,我提到了CART树,面试官问可以用别的树吗,这个我不知道……还有gbdt可以用线性的基学习器吗?为什么xgboost可以用线性的基学习器?这个我也直说了不知道……求大神解答) 8. 对拼多多的理解,对拼多多产品提一提看法(我提到的朋友分享的砍价页面) 9. 砍价页面,不同的用户点进来,每个用户每一刀砍掉多少钱,你怎么设计,写个函数吧(我说了想法,没写) 10. 你怎么验证刚刚提到的砍价策略是有效的,需要哪些数据指标(我提到了砍完价之后的成交率) 11. 砍价的成交率越高越好还是越低越好(这里发现了我对拼多多业务理解的盲点,成交率越低越好,因为每成交一单都会增加平台的成本,这里边只有成本,没有利润空间,拼多多主要赚的不是商品利润,而是流量) 面试官人都很nice,希望好运~ 18 篇 作者:960619 来源:牛客网 一面问题: 1. 介绍一个印象深刻的实习或者项目 我介绍了自己在美团实习时候做的分析case.主要体现自己分析的逻辑性。 2. 考SQL,自连接,写SQL 3. 怎么识别作案团伙,有哪些指标,或者模型,方法? 二面问题: 1. 介绍一下kmeans的原理 2. 出了一个统计概率题,扔硬币,然后求极限那种 3. 写SQL HR面主要聊了职业规划,期望薪资,加班这种常规问题。 19 篇 作者:那就这样吧! 来源:牛客网 分享下拼多多学霸批自己的经历,总结下自己,再接再厉。 本人最早拼多多学霸批刚开始的时候,好像是7月6号就投递了,一直期待着能进入拼多多。到面试整个过程都还算流畅。拼多多的筛选模式好像也挺玄学的,身边有同学朋友笔试比自己答的好很多的笔试挂了,有笔试比自己答的差,一面也比自己发挥差(仅个人感觉)的过了一面进入了后面的面试。我是8月7号下午4点视频一面的拼多多数据分析师,到今天发帖止没有消息,应该是凉了,下面是凉经。 1.万年不变的自我介绍。 2.首先问了一下简历里建模用到的最小二乘法,及为什么要那样求解(这个应该还算简单)。 3.A/B test,怎么做,什么时候用z test,什么时候用t test。 4.然后是SQL题。 ①面试官看我笔试第3题没写,让我现场重新写一下,之前有很多牛友发过了笔经,不再重述。就是求新增用户数、次日留存率、30日留存率。 ②表order有三个字段,店铺ID,订单时间,订单金额,查询一个月内每周都有销量的店铺。 这两题第一题笔试后我有思考,所以顺利的写出了新增用户数,但是面试的时候脑子抽了,求留存率我只计算了留存的人数忘记除了,面试官提醒了一遍没反应过来。第二题个人感觉难度比较大,面试时压力大思路混乱,用了lead()over()开窗,但是最后判断有一周没有销量的店铺ID的条件错误了。可能会有更好的查询方法。后来想了下,应该令销量等于0,然后查询出如果有连续7天及以上的日期的店铺ID,最后排除这些ID。 5.业务题:问如何预估用户的价值,用什么算法预估,用什么算法计算价值。答:根据用户的购买力(问什么是购买力,自己给了个定义)将用户分类,用决策树算法分类,用线性回归方法计算用户价值。本人对机器学习算法不是特别了解,临场凭感觉回答。(后来问面试官,面试官并没有说回答错)。 6.有什么问题问我。我问了流程大概有几轮,大概中间隔多久,面试官说这个他不清楚要问HR。然后问了对我有什么建立,有什么需要提升。面试官接下来的回答扎心了,面试官说感觉我的SQL还不太行。。。。(本人一直最自信的技能就是SQL。。。。在SQL上下了很多功夫)。 至此结束,一共一个小时左右。 面完后就感觉不是特别妙,但觉得自己应该还有机会二面,最后没有过也有些失落。Anyway,再接再厉吧,再多练练SQL,复习概率知识。PS:感觉拼多多的数据分析面试多是根据自己个人的简历,简历上写了什么会安排相应的面试官着重问,大家要面拼多多的多注意自己的简历细节。 20 篇 作者:千山沈 来源:牛客网 1.主要针对简历提问 2.手撕一道sql 字段:订单号,店铺id,销量,求每个店铺销量排名的中位数。 3.说一下拼多多砍价公式思路,我估摸着考算法逻辑,算法不行答不上来 不到半小时,很快我就出来了,大概是太菜了1 HR面
2 一面
3 二面