但抛开具体的岗位要求,从稍高的角度角度看待这个问题,一名机器学习/推荐系统算法、研发工程师的技术素质基本可以拆解成下面四个方面:知识、工具、逻辑、业务。
在最小要求的基础上,算法工程师的能力要求是相对全面的。其实所谓算法工程师,就是因为你不仅应该是一位合格的“工程师”,还应该再次基础上有算法的改进和实现的能力。除此之外,大数据工程师更注重大数据工具和平台的改进,研究员则在知识和逻辑层面相对突出。
下面给出相关要求,有通用的要求,不管是做不想关的领域。然后深入一个具体领域如推荐系统工程师的职位,会对应有一些具体的能力要求:
知识:主要是指你对ML相关知识和理论的储备(40%)
工具:将你的ML知识应用于实际业务的框架工具(30%)
逻辑:基础算法逻辑相关(10%)
业务:深入理解所在行业的商业模式,从业务中发现而改进模型算法的能力(20%)
11.如果选用一种其他的模型替代XGBoost或者改进XGBoost你会怎么做,为什么?(业务+逻辑+知识)
1、 协同过滤(基于物品和基于用户)的原理,ItemCF、UserCF、SVD矩阵分解必须会说明?
2、以下推荐方法中,推荐结果多样性最好的是:( B )
A. 基于内容的推荐
B. 基于用户的协同过滤推荐
C. 基于物品的协同过滤推荐
D. 热门推荐
3、请描述至少2种熟悉的推荐系统中常用的算法原理(如: 协同过滤、矩阵分解等)
4、协同过滤经常被用于推荐系统,包含基于内存的协同过滤、基于模型的协同过滤以及混合模型。 以下说法不正确的是(C)
5、协同过滤是推荐系统构成中非常经典的算法,分为基于用户的协同过滤和基于物品的协同过滤。它的本质是通过计算用户与用户之间的相似度,或物品与物品的相似度来对用户的兴趣进行预测,进而推荐相关物品给用户。请使用上述知识解答下面问题:
(1)现有五个用户A,B,C,D,E;三个物品X,Y,Z;通过分析用户在网站上的购物历史和人群画像标签,分析出各个用户对各个物品的兴趣指数。兴趣指数见下面表格:
X | Y | Z | |
---|---|---|---|
A | 3 | 4 | 3 |
B | 2 | 4 | 4 |
C | 3 | 5 | 4 |
D | 2 | 2 | 3 |
E | 4 | 1 | 4 |
现需要向用户E推荐相机,已知A,B,C,D对于三种相机M,N,O的兴趣打分如下:
M | N | O | |
---|---|---|---|
A | 3 | 4 | 3 |
B | 5 | 1 | 2 |
C | 2 | 5 | 5 |
D | 4 | 2 | 3 |
请给出给E推荐相机的最佳顺序, 给出详细解答过程
(2) 在上述的问题中,大家可以发现,协同过滤对于用户的历史数据依赖较强,那么对于冷启动问题,有什么样比较好的解决方法?
6、视频推荐场景中过于聚焦的视频推荐往往会损害用户体验,所以,系统会通过一定程度的随机性给用户带来发现的惊喜感。假设在某推荐场景中,经计算A和B两个视频与当前访问用户的匹配度分别为0.8分和0.2分,系统将随机为A生成一个均匀分布于0到0.8的最终得分,为B生成一个均匀分布于0到0.2的最终得分,那么最终B的分数大于A的分数的概率为( B)
1/2、 1/8、1/16、1/4
7、协同过滤经常被用于推荐系统, 包含基于内存的协同过滤, 基于模型的协同过滤以及混合模型, 以下说法正确的是
8、说说矩阵分解
9、简述word2vec;说说滑动窗口大小以及负采样个数的参数设置以及设置的比例;怎么衡量学到的embedding的好坏
10、说说推荐系统算法大概可以分为哪些种类:(1)基于内容;(2)基于协同过滤:基于内存(UB IB);基于模型(MF)
11、推导LR过程
12、图结构是怎么存储的?利用你所做的这个图结构实现深度/广度优先遍历,深度优先遍历用栈结构实现;广度优先遍历用队列结构实现
13、详细描述工作,画出来整体框架?
14、随机森林有了解吗?知道里面的有放回的采样方法吗?给定n个小球,有放回地采样。当n趋向于无穷的时候,某小球不被取到的概率是多少?
15、关键词怎么提取的?TF-IDF有改进吗?怎么改进?与TextRank区别?
16、UserCF、ItemCF公式?原理区别?与基于内容的推荐的区别?
1.GBDT的原理**(知识)**
2.决策树节点分裂时是如何选择特征的?(知识)
3.写出Gini Index和Information Gain的公式并举例说明
(知识)
4.分类树和回归树的区别是什么?(知识)
5.与Random Forest作比较,并以此介绍什么是模型的6.Bias和Variance**(知识)**
7.XGBoost的参数调优有哪些经验**(工具)**
8.XGBoost的正则化是如何实现的**(工具)**
9.XGBoost的并行化部分是如何实现的**(工具)**
10.为什么预测股票涨跌一般都会出现严重的过拟合现象
(业务)
1.softmax函数的定义是什么?(知识)
2.神经网络为什么会产生梯度消失现象?(知识)
3.常见的激活函数有哪些?都有什么特点?(知识)
4.挑一种激活函数推导梯度下降的过程。(知识+逻辑)
5.Attention机制什么?(知识)
6.阿里是如何将attention机制引入推荐模型的?(知识+业务)
7.DIN是基于什么业务逻辑引入attention机制的?(业务)
8.DIN中将用户和商品进行了embedding,请讲清楚两项9.你知道的embedding方法。(知识)
10.你如何serving类似DIN这样的深度学习模型**(工具+业务)**
查找相关资料找到更多面试题:《百面机器学习》
二、掌握技能(根据就业方向选择性增加修改删除)
1、机器学习相关、模型、算法原理、特征处理
2、深度学习推荐、基础推荐相关
3、大数据框架、数据库使用
三、项目介绍编写(根据项目特点选择性增加修改删除):
1、项目的描述
样本:
黑马头条推荐系统建立在海量用户与海量文章之上,使用Lambda架构整合实时计算和离线计算,借助分布式环境提升计算能力;使用Flume收集用户的点击、浏览、收藏等行为,建立用户画像和文章画像,并存储于HDFS集群;通过离线Spark SQL计算建立HIVE特征中心,存储到HBase集群;通过ALS、LR、Wide&Deep等机器学习与深度学习、推荐算法进行智能推荐,达到千人千面的用户推荐效果。
项目描述:本项目是一个个性化推荐系统。该项目以离线推荐为主,实时推荐为辅, 协同过滤与基于内容推荐相结合,来提高用户体验并增加用户粘性及使用时间。主要的流程包括业务数据处理,书籍画像建模,日志数据处理处理,实时推荐等部分。
项目描述
项目描述:一个为用户提供家居主题讨论、商城服务、客户调查、社区功能的平台。爱尚家居广告推荐系统旨在提高用户转率,提高公司收益,增加用户体验,主要的包括创建ALS模型,召回商品,基于逻辑回归实现CTR预估,离线数据处理缓存,实时推荐等
项目描述:本项目主要是通过收集用户的行为数据,用户经常关注和收听的内容,以及用户的年龄分布,终端设备等,对每个用户建立用户画像,通过训练模型,完成推荐系统。目的是做到更精准的推送,在不影响业务的前提下,进行精准推送,增高用户黏性。
随着视频网站的不断增多,为了更好的满足客户体验度,电影推荐可以很好的解决这一问题。根据电影的种类、评分,再加上用户的性别、年龄等信息,进行多维度数据分析,实现推荐用户可能喜欢的电影,实现推荐同类型的电影,建立客户个性化推荐系统,给用户以良好的
进行分类,然后分析推荐效果,并针对用户的行为数据不断完善用户画像;
该项是典型社交类的好友推荐设计开发项目。该系统是在用户的角度,快速的找到与自己志趣相投的以及很可能成为好友的用户。项目包括二度好友推荐,拥有共同圈子、共同兴趣的好友,浏览过个人主页等个性化的推荐策略;购物达人、博览群圈、随即标签的非个性化推荐。无论是新用户还是老用户,都能在系统迅速的建立起自己的社交圈,提高了用户黏度。
该项目是典型的电商推荐项目,该系统主要是是为用户推荐商品,使用户更开速的找到自己想要购买的以及用户可能会消费的商品,本项目基于用户历史行为包括用户的浏览、收藏、分享、购买等行为,对用户的每一个行为给予相应的权重,应用协同过滤进行个性化推荐;通过历史销量、近期销量排行、收藏数等指标进行非个性化推荐,通过用户默认收货地址进行店铺推荐的过滤
2、项目架构与技术点
项目架构:Flume + Kafka +HDFS + Spark Streaming + Spark SQL + HBase+ TensorFlow
1、使用flume收集日志数据,将用户行为数据采集到HDFS
2、通过Flume将用户行为数据采集到HDFS;
3、Kafka对接Flume将用户行为日志收集到消息队列;
4、Spark Streaming实时处理Kafka发送来的点击日志,实时更新特征、实时更新召回集;
1.通过Flume获取点击流日志数据,以及通过sqoop获取mysql中静态数据;
2.将数据保存到hdfs中,构建hive数据仓库;
3.通过spark读取数据文件,进行数据的处理;
4.最终将数据保存到Hbase中,保存到hbase和redis中
5、spark离线保存tfrecords文件
6、采用TensorFlow estimator进模型训练
7、TF serving进行模型部署
10、物品文本的关键词、主题词构建,TFIDF、TextRank使用
11、文本向量word2vec计算
12、标签存储进Hbase,并将标签和历史标签进行对比,根据衰减系数进行合并
3、项目业务拓展:
社交类推荐、电商推荐商品、资讯类推荐、
书籍
《推荐系统系统与深度学习》
《百面机器学习》
《机器学习》-周志华
资料网站论文:
了解最新推荐系统论文动态,模型变化特点。每年学习几篇新新结构
面试题、推荐问题社区: