机器学习-基础

机器学习基础

  • 一、什么是机器学习
  • 二、关键术语
  • 三、机器学习的主要任务
  • 四、如何选择合适的算法
  • 五、开发机器学习应用程序的步骤

一、什么是机器学习

机器学习致力于研究和开发使计算机系统能够从数据中学习并不断改进其性能的算法和技术。机器学习的核心思想是让计算机系统通过数据而不是显式编程来进行学习和决策,从而能够自动识别模式、做出预测、优化任务,以及解决各种复杂问题。

二、关键术语

  • 特征或者属性:数值型(十进制)、二值型(有/无或0/1)、枚举型(鸟类后背颜色);
  • 特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多特征联系在一起共同组成一个训练样本。

三、机器学习的主要任务

1、机器学习的两个主要任务是分类和回归,主要用于预测数值型数据;
2、分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息;
3、与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成有类似的对象组成的多个类的过程被称为聚类,将寻找描述数据统计值的过程称之为密度估计。并且无监督学习可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。
下表为《机器学习实战》的主要任务以及解决相应问题的算法:

监督学习的用途
k-近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归
决策树 Lasso最小回归系数估计
无监督学习的用途
K-均值 最大期望算法
DBSCAN Parzen窗设计

四、如何选择合适的算法

  1. 首先明确目标:如果想要根据数据情况预测相应结果,可以选择监督学习算法,否则选择无监督学习算法。
  • 如果选择监督学习算法之后,需要进一步确定目标变量类型。如果目标变量是离散型,如是/否、1/2/3、A/B/C,或者红/黑/蓝,则可以选择分类算法。如果目标变量是连续性的数值,如0.0-100.00、-999-999等,则选择回归算法。
  • 如果选择无监督学习算法之后,进一步分析是否需要将数据划分为离散的组,如果这是唯一的要求,则使用聚类算法。如果需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
  1. 其次需要分析或收集的数据是什么。充分了解数据特性可以缩短选择机器学习算法的时间。

五、开发机器学习应用程序的步骤

  1. 收集数据
  2. 准备输入数据
  3. 分析输入数据:人工分析数据,查看数据是否为空值、是否存在明显异常值。
  4. 训练算法:如果使用无监督学习算法,由于不存在目标变量值,不需要训练算法。
  5. 测试算法:为了评估算法,必须测试算法工作的效果。如果不满意算法的输出结果,则可以回到第四步,改正并加以测试。
  6. 使用算法:将机器学习算法转换为应用程序,执行实际任务。如果碰到新的数据问题,同样需要重复执行上述的步骤。

你可能感兴趣的:(机器学习,人工智能)