机器学习
分类问题:
1.评价分类器性能的指标一般是分类的准确率。
2.许多机器学习算法可以用来解决分类问题,常用的主要包括朴素贝叶斯法、决策树、SVM、K近邻、神经网络等。
1.贝叶斯分类法
优点
参数少, 数据缺失不敏感、稳定的分类效率 。
缺点
假设属性之间相互独立(比较困难)。
需要知道先验概率。
分类决策存在错误性。
2.决策树
优点
不需要任何领域的知识或者参数假设、适合高维数据、易于理解、短时间内处理大量数据,得到可行且效果较小的结果、能够同时处理数据性和常规性属性。
缺点
对于个类别样本数据数量不一致数据,信息增益偏向于那些更多数值的特征。
3.支持向量机
优点
可以解决小样本下机器学习的问题、提高泛化性能、解决高维、非线性问题、避免神经网络结构选择和局部极小的问题。
缺点
对缺失数据的敏感、内存消耗大,难以解释、运行调参比较费时。
4.K近邻
优点
理论成熟,既可以做分类也可以做回归 可用于非线性,时间复杂度O(n)、准确度高,对数据没有假设,对离群点不敏感。
缺点
计算量太大、对于样本分类不均衡问题会产生误判、需要大量内存。
5.神经网络
优点
分类准确度高、并行处理能力强、分布式存储和学习能力强、鲁棒性强不易受噪声影响。
缺点
需要大量参数(网络拓扑、阈值)、结果难以解释。
回归问题:
回归模型表示输入变量到输出变量之间映射的函数。
数据清洗问题:
1.离群点检测
异常点检测,无监督学习算法 保证一个噪点较小的数据集 影响模型精度。
拉伊达法 规则:服从正态分布,标准差 是否大于标准差3倍。
四分卫法 IQR =Q3- Q1 箱型图。
2.插补
缺失值插补 均值/中位数 减少数据方差 。
连续变量选择均值/离散变量选中位数。
拉格朗日插补
特征选择和特征提取:
特征决定算法上限。 保留重要特征。
特征选择:
特征是否发散 (方差接近于0 无用特征,目标相关性较差)。
1.过滤法 设定阈值
1方差选择 计算个特征方差,选择方差大于阈值的特征。
2相关系数 各个特征相关系数 选择相关系数大的。
3.卡方检验 统计实际观测值和理论推测值之间的偏离程度。卡方值越小越好 T检验,F检验。
4.互信息 计算个特征的信息增益。
2.包裹法wrapper
从初始特征集合中不断选择特征子集,训练学习器,根据学习器的性能来对子集进行评价,直接选择最佳子集。贪心算法 前向搜索、后向搜索。双向搜索 包裹法更加好。
特征提取:
特征提取将机器学习算法中不能识别的原始数据转化为算法可以识别的特征的过程。
主成分分析PCA
正交变换转换后成为主成分(降维方法) 。
线性判别分析(LDA)。
将高维的模式样本投影到最佳鉴别矢量空间。将高维空间中的数据点投影到一条直线上去,将多维降为一维。
要求投影后个样本的类间散布距离最大,同时类内散布距离最小。 方差越大 一个类别内的点越分散。 (Fisher 判别分析)。
模型评估:
拟合 逼近目标函数的远近程度。
过拟合 学习时模型所包含的参数过多,对已知的数据预测很好,对未知数据预测很差的现象。训练集表现好,测试集表现差。
超出自变量的维度过多。
特征维度过多,模型假设过于复杂,参数过多,噪声过多等。没考虑泛化能力 。
交叉验证,样本切分、正则化 模型越大越复杂。
正则化项越大, L1 L2 改变代价函数实现。
数据增强
Dropout
Early stopping
Bagging
数据清洗
欠拟合 模型不能在训练集上获得足够低的训练误差,在训练集上表现效果很差,没有充分利用数据,预测的准确度低。
特征维度过少,模型过于简单,误差大,增加维度和训练数据集。
添加其他特征项。
添加多项式特征。
减少正则化参数 降低欠拟合风险。
分类评价指标:
混淆矩阵
精确率 precision
召回率recall
Accuracy
Fb-score
回归评价指标:
均方误差MSE 观测值与真值偏差的平方和与观测次数的比值 线性函数 损失函数越小越好。
均方根误差RMSE 标准误差是均方误差的算术平方根,均方误差是用来衡量观测值同真值之间的偏差。
平均绝对误差MAE(平均绝对误差是绝对误差的平均值)。
平均绝对百分比误差MAPE。
相当于加权版的MAE。