机器学习概论

一、机器学习是什么

机器学习一词来源于Machine Learning的翻译,主要研究计算机模拟或者实现人类的行为。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。(摘自百度百科)

传统机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的研究。随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力。

深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。

机器学习概论_第1张图片

二、人工智能与机器学习的关系

包含关系如下:

机器学习概论_第2张图片

机器学习领域:

  • 模式识别=机器学习
  • 数据挖掘=机器学习+数据库
  • 统计学习近似等于机器学习
  • 计算机视觉=图像处理+机器学习
  • 语音识别=语音处理+机器学习
  • 自然语言处理=文字处理+机器学习 (搜索引擎)

机器学习概论_第3张图片

三、机器学习算法分类 

根据学习方式的不同一般分为监督学习算法非监督学习算法半监督学习算法强化学习算法

  • 监督学习: 提供数据特征,也提供数据类别,主要用于预测和分类。监督学习主要应用于分类(Classify)和回归(Regression)。常见的监督学习算法有k-近邻算法(KNN)、决策树、朴素贝叶斯(NB)、Logistic回归、支持向量机(SVM)、AdaBoost算法、线性回归(LR)、局部加权线性回归(LWLR)、收缩和树回归等。
  • 无监督学习:提供数据特征,不提供数据类别,主要用于发现事物内部结构。 主要应用于聚类和降维。常见的非监督学习算法有k-均值(k-means)、Apriori和FP-Growth等聚类算法。
  • 增强学习: 在学习过程中根据外部状态实时调整自己的策略,主要用于路径规划。算法主要有动态规划、马尔可夫决策过程等。

深度学习是机器学习领域中一个新的研究方向,深度学习算法: cnns(卷积神经网络),dbns(深度置信网络)

四、机器学习术语

4.1、数据集

DataSet,数据的集合,每一条数据成为样本(Sample),一般而言每一个样本相互独立。(特殊的是隐含马尔可夫模型和条件随机场模型)。

  • 训练集(Training Set):用来训练模型的数据集,一般选取一部分数据作为训练集。
  • 测试集(Test Set):用来测试、评估模型泛化能力的部分,测试集不会用于训练,对模型而言是“未知”的。一般,选取一部分数据作为测试集。
  • 交叉验证集(CV Set):比较特殊的一部分数据,它是用来调整模型具体参数的。

训练集用来估计模型,交叉验证集用来确定网络结构和控制模型复杂程度的参数,测试集用来检验最终选择最优的模型性能如何。一个典型划分为训练集占50%其余各占25%。但是,当样本过少时这个划分就不太合理,此时选取少部分作为测试集对其余N个样本使用K折交叉验证法。

4.2、属性或特征

对于每个样本,通常具有一些“属性”(Attribute)或者说是“特征”(Feature),特征所取的具体的值为“特征值”(Feather Value)。特征和样本所组成的空间被称为“特征空间”(Feather Space)和样本空间(Sample Space),可以把它们简单理解为特征和样本“可能存在的空间”。

4.3、标签或类别

与之对应的有“标签空间”(Label Space),它描述了模型的输出“可能存在的空间”;当模型是分类器时,通常会称为“类别空间”。

五、首选编程语言

  • 参考书籍推荐为《Python3数据分析与机器学习实战》
  • 机器学习领域常用Python库有:
  1. 矩阵操作函数库(numpy)
  2. 科学计算的核心包(scipy)
  3. Python绘图库(matplotlib)
  4. 数据分析包(pandas)
  5. 机器学习函数库(scikit-learn,sklearn)
  6. 统计建模工具包(StstsModels)
  7. 深度学习框架(TensorFlow)
  8. 深度学习函数库(keras)

你可能感兴趣的:(机器学习,机器学习)