数据挖掘/机器学习工作知识体系(实习面试准备清单)

数据挖掘/机器学习工作知识体系

       2018年3月-4月,经过2个月的找实习经历,在此总结了此篇关于数据挖掘/机器学习工作知识体系,实习面试准备清单(一些划重点内容),难免会有考虑不周,故后续会继续添加内容,描述不当之处,欢迎指正。

1、统计机器学习方法(有监督(预测)、无监督)

线性回归、感知机、k近邻法、朴素贝叶斯法、决策树、逻辑回归、最大熵模型、支持向量机SVM、支持向量回归SVR、集成学习(boostingbaggingRFstackingblending)、聚类(kmeans、学习向量量化LVQ、高斯混合聚类、DBSCANAGNES、谱聚类等)、EM算法、贝叶斯网、隐马尔科夫模型、马尔科夫随机场、条件随机场、神经网络

L1正则、L2正则、偏差与方法、损失函数

xgboost推导、xgboostlightboost/catboost的区别与改进、调参

2、降维

    PVC、线性判别分析LDA、奇异值分解SVD

3、最优化

    无约束最优化问题:梯度下降法、随机梯度下降、牛顿法、拟牛顿法(DFPBFGSL-BFGSOWL-QN)、坐标轴下降法、最小角回归法(LARS)、改进的迭代尺度法、FTRLTG

凸二次规划问题:拉格朗日乘子法、拉格朗日对偶性、次梯度投影法

4、概率论与数理统计

    大数定理、中心极限定理、假设检验、频率派和贝叶斯派、最大似然

5、线性代数与矩阵论、信息论

    特征值分解、秩、矩阵求导、熵、交叉熵

6、推荐系统

用户行为数据、用户标签数据、社交网络数据、上下文信息、冷启动、AB测试、余弦相似度、用户画像

基于邻域的算法(协同过滤)、隐语义模型LFM(矩阵分解)、基于图的模型、基于内容信息、关联规则学习(频繁项集、关联规则)Apriori

7、大规模数据挖掘与分布式处理、海量数据处理常见题

MapReducemap+reduce)、HadoopSparkRDD

8、深度学习

DNNCNNRNN、反向传播BP算法、dropoutBNLSTM、受限玻尔兹曼机RBM

SGDmomentumNesterovAdaGradAdaDelteRMSPropAdam

9、自然语言处理与信息检索

    TF-IDFword2vecLSINMFLDA主题模型、中英文本挖掘流程

10、C++基础及算法

    剑指offer1-67题)、LeetCode(拓展)、数据结构、查找与排序、递归、动态规划、哈希、C++基础问答题

11、Python基础

Python基础问答题

12、智力题

毒老鼠、毒酒、赛马、系鞋带等

13、计算广告业务逻辑以及FMFFM算法、搜索系统、风控系统

14、基础开发能力(单元测试、逻辑抽象复用)、架构设计

15、拓展知识:半监督学习、在线学习、强化学习、生成对抗学习、AlphaGo

Others面试简历、自我介绍、项目介绍(遇到问题、分析问题、解决问题、业务理解)、他人面经

实际工作总流程:数据获取→数据分析→模型训练调优→模型上线

                                                                                                                                                      2018年4月


你可能感兴趣的:(总结)