机器学习导论

1.什么是机器学习

略。
直接谷歌：机器学习西瓜书周志华老师写的

2.机器学习种类

监督式学习：从标注数据中学习预测模型，本质是学习输入到输出的映射统计规律。
主要运用在
分类问题：利用已知训练数据集选择方法学习一个分类器，利用该分类器对新输入实例进行分类。例如图像处理（人脸识别、识花识猫识狗等等），文本分类（正面意见、反面意见，词频分类，垃圾邮件等等）。常用方法：k邻近，感知机，决策树，朴素贝叶斯，逻辑斯蒂回归，支持向量机，神经网络等等。二分类问题常用判断指标：精确率precision，召回率recall ，F1值。定义概念略，这部分是统计学知识。

标注问题：学习一个模型，使它对观测序列给出标记序列作为预测。自然语言处理广泛运用。常用方法如隐马尔可夫模型，条件随机场。

回归问题：用于预测输入变量和输出变量之间的关系。按输入变量个数可以分为一元回归，多元回归，按输入输出变量之间的关系类型可以分为线性回归，非线性回归。最简单的线性回归其实就是以前中学学过的线性代数学过了。回归问题更多用来预测市场走势、股价、客户满意度等。
李航老师《统计学系方法》第二版里有常用的10种监督学习方法总结

无监督学习：从无标注数据中学习预测模型，本质是学习数据中的统计规律。常用方法有聚类、降维、话题分析、图分析。

强化学习：在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督：利用少量标注、大量未标注数据预测模型
主动学习：机器不断给出实例进行标注，利用标注数据学习预测模型的机器学习问题。

3.代价函数与优化目标

监督学习中，在假设空间F中选取模型f作为决策函数，对于给定的输入X由f(X)给出对应输出Y，输出的预测值f(X)与真实值Y不一定相等，由此给出一个代价函数cost function来度量不一致的程度。而学习的目的就是期望预测值与真实值差距最小，也就是我们预测的结果可以无限接近真实情况。

4.泛化能力

由该方法学习到的模型对未知数据的预测能力，我们称为模型的泛化能力。模型的误差越小，泛化能力越强。
由此我们知道当我们有数据集时，需要对数据进行划分，将它分为测试集train和训练集test。在训练集上进行训练，得到f(X)后与测试集Y进行比较，使误差最小。

5.过拟合

预测学习中，我们希望有一个最合适对模型，其参数能最接近真实模型。然而如果一味追求对训练数据的预测能力，则预测模型的复杂度往往会超过真实模型，表现为对训练集预测完美，但对未知数据预测很差。这种情况称为过拟合。避免过拟合通常会采取正则化或者交叉验证的办法。

6.正则化与交叉验证

正则化就是在函数后面加一个正则项或叫做惩罚项。正则项一般是模型复杂度单调递增函数，即模型越复杂，正则项越大。正则项符合奥卡姆剃刀原理：在所有可能选择的模型中，能够很好的解释已知数据且十分简单的才是最好的模型，也是最应该选择的模型。
交叉验证一般用来选择参数。将给定数据进行切分，重复使用，在此基础上反复训练、测试。切分多少份，就训练多少次。一般情况下，取最后的平均值来得出最优参数，得出最佳模型。

机器学习导论

你可能感兴趣的:(机器学习导论)