机器学习是人工智能的一个实现途径。深度学习是机器学习的一个方法发展而来
监督学习、无监督学习、半监督学习、强化学习
监督学习的输入数据是由输入特征值和目标值所组成。 无监督学习输入数据是由输入特征值组成,没有目标值。
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
结果达到要求就上线服务,如果没有达到要求,重新上面步骤
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
特征提取、特征预处理、特征降维。
将任意数据(如文本或图像)转换为可用于机器学习的数字特征。
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
准确率、精确率、召回率、F1-score、AUC指标等
均方根误差(RMSE)、相对平方误差(RSE)、平均绝对误差(MAE)、相对绝对误差(RAE)
超参数就是在运行机器学习算法之前需要指定值的参数
超参数:指在算法运行前需要指定的参数
模型参数:指算法过程中学习的参数
我们在训练模型时,如果特征之间的值差距较大,不能直接传入模型,就需要对数据做归一化处理。
作用:将所有数据映射到同一尺度。
1.最值归一化(Normalization):
2.均值方差归一化(standardization):
优点:
1.天然能够解决多分类问题;
2.思想简单,效果强大;
3.使用k-近邻算法还可以解决回归问题
缺点:
1.效率低下、时间复杂度高;
2.高度数据相关;
3.预测结果不具有可解释性
4.维数灾难
线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归。
1.梯度下降需要选择学习率,正规方程不需要
2.梯度下降需要迭代求解,正规方程一次运算得出结果
3.梯度下降在特征数量较大也可以使用,正规方程因为需要计算方程,时间复杂度高O(n3)
全梯度下降算法,随机梯度下降算法,小批量梯度下降算法,随机平均梯度下降算法。
原因:学习到数据的特征过少
解决办法:
1)添加其他特征项。
2)添加多项式特征
原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点。
解决办法:
1)重新清洗数据。
2)增大数据的训练量。
3)正则化
4)减少特征维度,防止维度灾难
在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响),这就是正则化。
有L1正则化(Ridge回归)和L2正则化(LASSO回归)。
预测结果为正例样本中真实为正例的比例
真实为正例的样本中预测结果为正例的比例(查得全,对正样本的区分能力)
1)随机设置K个特征空间内的点作为初始的聚类中心。
2)对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别。
3)接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)。
4)如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程
1)原理简单(靠近中心点),实现容易。
2)聚类效果中上(依赖K的选择)。
3)空间复杂度o(N),时间复杂度o(IKN) 。N为样本点个数,K为中心点个数,I为迭代次数。
答案:
1)对离群点,噪声敏感 (中心点易偏移)。
2)很难发现大小差别很大的簇及进行增量计算。
3)结果不一定是全局最优,只能保证局部最优(与K的个数及初值选取有关)。
降维:在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
两种形式:特征选择和主成分分析。
高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量。
作用是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。