机器学习(一):绪论

一、绪论

随着人工智能成为各个领域的热门,机器学习也成为当下的热门研究领域。在实际场景中,人们研究的重点是寻找合适的模型,正确的参数,以解决实际问题;在统计学中,机器学习又称做统计学习,研究的重点是推导原理,寻找新的方法,确保新的方法有科学,能够解释的原理,并且使结果更加精准。目前,各行各业都已经有成熟的机器学习方法处理业务问题,但其原理与目前最前沿的机器学习理论还有一定差距,所以将理论应用于实际仍有较长的路要走

机器学习的流程

数据预处理

  • 机器学习的实现需要大量的数据支持,这些数据形成的集合即为数据集

  • 通常,一个数据集中,不同行表示不同的样本,而列表示样本的各个特征(feature)

  • 多个特征组成特征空间(feature space),机器学习就是通过这些特征,利用样本在特征空间中的位置,来输出相应的结果

  • 在统计学中,特征又称作变量(variable),用于预测的变量称为指示变量(predictor variable),而得到的结果变量称为响应变量(response variable)

  • 特征的数据类型有数值和字符,离散和连续等多种情况,应采取相应的方法对这些数据进行预处理

  • 而在实际过程中,还会存在缺失值,格式不规范等问题,需要进行数据清洗

  • 一般的机器学习过程中,需要训练集(train data set)和测试集(test data set)两个数据集,训练集用于训练和构建模型,而测试集用于验证模型的精确度和可行性

  • 在实际中,很难得到这两类标准的数据集,因此会采取对原始数据集进行划分的方法来得到两类数据集,如交叉验证,10折验证等

选择方法

针对不同的问题,需要选择不同的机器学习方法,通常有以下几类方法

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 迁移学习
  • 结构学习
  • 强化学习

具体的内容留在后面展开

结果评估

怎样判断一个结果的好坏,需要有一个衡量标准,在已知结果的情况下,有如下几种方法

  • 连续型问题中,通常采用离差平方和( S S E SSE SSE),值越小,则结果越精准
  • 离散问题中,则根据分类结果准确性,通常会使用AUC曲线来判断

值得注意的是,在训练集得到较好的预测结果,但容易在测试集中预测结果较差,这种现象称为过拟合,说明该模型不具有一般性,需要进行修正

优化结果

在机器学习中,优化结果即找到训练集和预测集结果的平衡,既尽量避免生欠拟合(拟合效果差),又要避免过拟合。一般的解决方法除了修改模型外,还有修正输入变量,调整参数等方法。实际中,变量的选择和处理已在前面的步骤中进行了,所以此时多数选择是修改参数,这一步则是通过计算机来实现,常见的方法为Grid Search

机器学习的技术

机器学习(一):绪论_第1张图片

监督学习(supervised learning)

回归(Regression)

回归是机器学习的基础,也是统计学的必修课之一。通俗来讲,回归即通过已知的数据,发现两种或两种以上变量的相互依赖的定量关系。比如探究人均收入与房价的关系,人均收入作为指示变量,房价为响应变量,通过回归,就能根据人均收入对房价做出预测。回归虽然简单,却有很好的模型解释性,以及广泛的适应性。

分类(Classification)

分类是实际生活中常常会遇见的场景,比如垃圾邮件的判别,则是二分类的问题,通过文本信息,判断其是或不是;此外,还有多分类问题,如将新闻分类,判断其是经济类,政治类,体育类或其它类型。简单的二分类可以由回归来解决,但是并不推荐这么做,现在已经有更好的方法来解决

模型(Model)

以上指的都是需要解决的任务,而为了解决任务,需要选择合适的模型,最简单的就是线性模型(Linear Model),但实际问题中,更多的会使用非线性模型。在非线性模型中最耳熟能详的就是深度学习(Deep learning),属于人工神经网络的概念,其使用的function十分复杂,留在后面深入展开;除了深度学习外,支持向量机也是常用的非线性方法(SVM),其关键在于核函数的选取,属于现代多元统计分析学中的一部分

半监督学习(Semi-supervised Learning)

监督学习的问题需要大量训练集,来找出输入和输出之间的关系,这需要我们告诉机器输入和输出是什么。俄日在实际情况中,输出往往不容易获取,需要人工来进行标注(label),而半监督学习就是想办法减少label的量

迁移学习(Transfer Learning)

将某个领域上学习到的模式应用到不同但相关的领域中,主要思想是从相关领域迁移标注数据,从而减少数据量。比如有一堆猫和狗的照片用于判断猫狗,但同时还有其它一堆动物的照片或者是动漫图片,迁移学习就是研究这些其它照片的用途

无监督学习(Unsupervised Learning)

即在完全不知道结果的情况下,让机器自己去训练,得到结果

比如你有一堆客户的数据,需要将客户进行分类,以采取不同的策略,但是客户能分成几类,每一类有什么特征,其结果都是未知的。

常见的无监督学习有各种聚类算法,得到的结果,往往是根据问题,数据特征等方面,认为决定最合适的分类方法,需要具体问题具体分析

结构化学习(Structured Learning)

结构化学习是监督学习中的衍生问题,其要求是让机器输出结果具有结构性

比如在语音识别里,机器会输出一个句子,句子是一个由结构性的对象(object);在图像识别里,机器会标出图片个位置的名称,这也是具有结构性的

强化学习(Reinforcement Learning)

强化学习和监督学习有些类似,监督学习会告诉机器正确结果是什么,但是强化学习不会,而只有一个分数,告诉机器是做的好还是不好,机器则根据这些评价不断修改自己的方法,以获得更好的评价

大火的Alpha Go就是利用监督学习和强化学习去训练的。用棋谱做监督学习,然后再用另一个机器为对手做强化学习

推荐阅读

  • Applied Linear Regression Models:从一元到多元,线性到非线性对回归分析有系统的阐述,难度不大
  • An Introduction to Statistical Learning with Applications in R:对机器学习方法都有详细阐述,并且带有实际案例和R代码,可以动手尝试复现
    oduction to Statistical Learning with Applications in R*:对机器学习方法都有详细阐述,并且带有实际案例和R代码,可以动手尝试复现
  • Modern Multivariate Statistical Techniques- Regression, Classification, and Manifold Learning:介绍现代多元统计技术,包括层次分析法,聚类,SVM,线性判别分析,集成学习等,书中的例子也较容易复现

你可能感兴趣的:(机器学习,李宏毅,机器学习)