机器学习算法总结知识点索引

百面机器学习算法总结索引(声明:以下所有内容及其链接内容来自于百面机器学习一书,仅供自己方便学习和复习,不做任何商业用途,所有链接内容继承本声明)
第一节:特征归一化

1.为什么需要对数值类型的特征做归一化?

2.在对数据进行预处理时,应该怎样处理类别型特征?
3.如何处理高纬度组合特征?什么是组合特征?
4.
5.有哪些文本表示模型?它们各有什么优缺点?
6.Word2vec是如何工作的?它和LDA有什么区别和联系?
7.在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?
第二节:模型评估
8.准确率Accuracy的局限性
9.精确率和召回率的权衡
10.RMSE平方根误差的意外?
11.什么是ROC曲线?如何绘制ROC曲线?如何计算AUC?ROC曲线相对P-R曲线有什么特点?
12.结合你的学习和研究经历,探讨一下为什么一些场景中使用余弦相似度而不是欧氏距离?
13.余弦距离是否是一个严格定义的距离?
14.在分桶的过程中,要注意样本的独立性和采样方式的无偏性,确保同一个用户每次只能分到一个桶里,在分桶过程中选取的user_id需要是一个随机数,这样才能保证桶中的样本是无偏的。
15.在模型评估过程中,有哪些主要的验证方法,他们的优缺点是什么?在自助法的采样过程中,对N个样本进行N次自助采样,当N区域无穷大时最终有多少个数据从未被选择过?
16.超参数有哪些调优方法?
17.在模型评估过程中,过拟合和欠拟合具体指什么现象?能否说出几种降低过拟合和欠拟合风险的方法?
第三节:经典算法

18.

19.逻辑回归相比于线性回归,有何异同?
20.决策树有哪些常用的启发函数?
21.
第四节:降维
22.PAC最大方差理论。如何定义主成分?从这种定义出发,如何设计目标函数使得降维达到提取主成分的目的?针对这个目标函数,如何对PAC问题进行求解?
23.PAC最小平方误差理论。PAC求解的其实是最佳投影方向,即一条直线,这与数学中线性回归问题的目标不谋而合,能否从回归的角度定义PAC的目标并相应的求解问题呢?
24.线性判别分析。对于具有类别标签的数据,应当如何设计目标函数使得降维过程中不损失类别信息?在这种目标下,应当如何进行求解?
25.线性判别分析LDA和主成分分析PAC。LDA和PAC作为经典的降维算法,如何从应用的角度分析其原理的异同?从数学推导的角度,两种降维算法在目标函数上有何去区别和联系?
第五节:非监督学习
26.k均值聚类。简述K均值聚类算法的具体步骤。K均值算法的优缺点是什么?如何对其进行调优?
27.高斯混合模型。高斯混合模型的核心思想是什么?他是如何迭代计算的?
28.自组织映射神经网络。自组织映射神经网络是如何工作的,它与k均值算法有何区别?怎样设计自组织映射神经网络并设定网络训练参数?
29.以聚类问题为例,假设没有外部标签数据,如何评估两个聚类算法的优劣?
第六节:概率图模型
30.候选采样技术  word2vec的时间复杂度
 
 
Manjaro安装教程以及android java paython anacoda 各种环境配置和安装 各种环境安装汇总
机器学习 - 竞赛网站
机器学习开源学习平台
机器学习项目地址总结汇总
机器学习网址大全收集
Tensorflow深度学习算法原理与编辑实战
MNIST数据集训练(1)98.5%
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

你可能感兴趣的:(算法,tensorflow,NLP)