【机器学习理论】第1部分 机器学习基础

对于机器学习算法也使用了一段时间,现在进行一个系统的学习和总结,也给自己补缺补差,回头来看,发现对于机器学习的理解更加的清晰,更加有条理,在整体的思路上的把握也更加的完善,所以建议对于机器学习的学习一定要多实践,多回头查看、


【分类介绍】

监督学习:在监督学习中,我们只需要给定输入样本集,机器就可以从中推测出指定目标变量的可能结果。

监督学习使用两种类型的目标变量:标称型和数值型。

标称型:其目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{爬行类、鱼类、哺乳类}

数值型:其目标变量可以从无限的数值集合中取值,如1.002、42.001、100.58等

【机器学习的简单概述】

利用计算机来彰显数据背后的真实含义,这才是机器学习的真实含义。

机器学习的使用是非常广泛的,在这个过程中可以包括:人脸识别、手写数字识别、垃圾邮件过滤和亚马逊公司的产品推荐等。

【何为机器学习】

机器学习就是把无序的数据转换成有用的信息。

如何能够准确预测人类当前60%的行为?怎样预测人们所参与时间的结果呢?如何预测在美国大选中总统竞选的比例呢?

【机器学习的重要性】

二义性问题:“最大化利润”、“最小化风险”、“最好的市场策略”……..

如何解释数据、处理数据、从数据中抽取价值、展示和交流数据结果,这将是我们所讨论的重要问题。

【关键术语】

以鸟类分类系统为例:

基于四种特征的鸟物种分类表:

- 体重 翼展 脚蹼 后背颜色 种类
1 1000.1 125.0 棕色 红尾鸟
2 3000.7 200.0 灰色 鹭鹰
3 3300.0 220.3 灰色 鹭鹰
4 4100.0 136.0 黑色 普通千鸟
5 3.0 11.0 绿色 瑰丽蜂鸟
6 570.0 75.0 黑色 象牙啄木鸟

从表中可以发现,所使用的是鸟类的四种特征,前两种特征为数值型,第三种特征为二值型,第四种特征为自定义的枚举类型。

机器学习的首要任务就是分类,如何从数据中获取相关的数据,并对数据进行一定的处理,来对数据进行分类,并将结果应用到数据的预测当中,这也就是机器学习的根本目的。

对于分类来说,首要的就是如何进行算法的训练,通常为算法的输入大量已分类数据作为算法的训练集,训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是离散型的,而在回归算法中通常是连续型的。

【机器学习的主要任务】

机器学习的主要任务就是分类,将实例数据划分到合适的分类中。

机器学习的另一项任务就是回归,用于预测数值型数据,通过数据拟合曲线来进行数据拟合,预测可能的结果。

分类和回归都属于监督学习,监督学习就是必须首先要知道预测什么,即目标变量的分类信息。

非监督学习,则是在数据上并没有类别信息,也不会给定目标值;在非监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类,将寻找描述数据统计值的过程称为密度估计。

用于执行分类、回归、聚类和密度估计的机器学习算法

监督学习的用途
k近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归
决策树 Lasso最小回归系数估计
无监督学习的用途
k-均值 最大期望算法
DBSCAN Parzen窗设计

【算法的选择】

如果要预测目标变量的值,则可以选择监督学习算法,否则可以选择非监督学习算法。

对于监督学习算法:如果目标变量是离散型,如是/否、1/2/3、A/B/C等相关的数据,可以使用分类算法;

                               如果目标变量是连续型,如0.0~100.0、-999~999,则选择回归算法。

对于非监督学习算法:如果需要将数据划分为离散的组,则使用聚类算法;

                                  如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。

【开发机器学习应用程序的步骤】

1、收集数据

2、准备输入数据

3、分析输入数据

4、训练算法

5、测试算法

6、使用算法

你可能感兴趣的:(机器学习理论)