机器学习哪些事

1.机器学习可以根据训练时监督的量和类型分为四类 :监督学习,非监督学习,半监督学习和强化学习

1.1监督学习:用来训练算法的训练数据包含了答案(即标签)
重要的监督学习算法:K近邻算法,线性回归,逻辑回归,支持向量机,决策树和随机森林,神经网络

1.2非监督学习:用来训练算法的训练数据没有包含标签的
重要的非监督学习算法:1.聚类(K均值,层次聚类分析-HCA;期望最大值)2.可视化和降维(主成分分析,核主成分分析,局部线性嵌入,t-分布邻域嵌入算法)3.关联性规则学习(Apriori算法,Eclat算法)

1.3半监督学习:部分数据带标签,通常是大量不带标签数据加上小部分带标签数据
多数半监督学习算法是非监督和监督算法结合。例如:深度信念网络是基于被称为互相叠加的受限玻尔曼机的非监督组件。RBM是先用非监督方法进行训练,再用监督学习方法进行微调

1.4强化学习:强化学习非常不同,它可以对环境进行观察,选择和执行动作,获得奖励

 

对于一个机器学习的问题,数据和特征决定了结果的上限,而模型和算法的选择与优化则是在逐步的逼近这个上限

面试问题:

1.数据归一化
数据归一化不是万能的,通过梯度下降法求解的模型需要归一化,包括Knn,Adaboost,线性回归,逻辑回归,支持向量机,神经网络,K均值聚类算法等;但概率模型(树形模型)不需要归一化,如决策树模型,随机森林(因为归一化不会改变信息增益)

2.类别型特征

类别型特征原始输入通常是字符串形式,除了决策树(但scikit-learn使用了CART算法的优化版本;它目前还不支持类别变量)等少数模型可以直接处理字符串输入外,对于逻辑回归,支持向量机等模型,必须转换成数值型特征才行。

编码的方法有三种:序号编码(Ordinal Encoding),独热编码(One-hot Encoding),二进制编码(Binary Encoding)

在使用独热编码和二进制编码的时候需要结合特征选择来降低维度

机器学习哪些事_第1张图片

3.组合特征处理

为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征;但是实际应用中,不是所有的组合能得到一个有效的组合特征,一个有效的方法寻找特征组合是:基于梯度提升决策树来寻找(该方法的思想是每次都在之前构建的决策树的残差上构建下一棵树),每条从根节点到叶节点的路径都可以看成一种特征组合方式。

4.模型评估

评估指标:均方根误差(Root Mean Square Error,RMSE),一般情况,RMSE可以很好的反映回归模型的预测值与真实值的偏离程度,但是如果有离群点,即使非常少,也会让RMSE指标变得很差。针对这个问题,我们的解决方案是:第一,如果我们认定这些离群点是“噪声点”的话,需要在数据预处理的时候过滤掉,第二,如果不认为这些是离群点的话,就需要进一步提高模型的预测能力,将离群点产生的机制建模进去,第三,可以找一个更合适的指标来评估模型,比如平均绝对百分比误差(Mean Absolute Precent Error,MAPE);相比RMSE,MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响

4.1 ROC 曲线

 

 

 

 

你可能感兴趣的:(机器学习)