机器学习思考

序言

1、什么是机器学习?

    通过计算的手段,利用经验来改善自身的性能。机器通过学习,在结果上性能改善的部分,就是学习到的内容。

2、机器学习研究的主要内容?

    从海量数据中产生模型的算法,主要是算法的研究

3、什么是模型?

      从数据中学习到的结果。

基本术语

1、什么是样本?

      我们有一组数据来描述我们的客户,这一组描述数据,即为一组数据集。每一条描述信息对应一个客户,也叫做一个样本(示例)。

2、什么是特征?

      客户有姓名、卡号、学历、地域等各种信息,在分析客户的时候,这些信息都可以作为客户的一个属性或者特征,这些特征有很多取值,比如地域就可能是上海、安徽等,这些值就叫属性值

3、什么是样本空间和特征向量?

      属性值所在的全部取值,就是这个属性的属性空间,也叫样本空间。多个特征张开的一个多维属性空间,每个样本数据都能在属性空间中找到自己的位置,每个示例在这个属性空间中就以一个特征向量来表示。整个属性空间的维度是由特征的个数决定的

4、什么是训练?

      模型训练就是将训练数据(一条训练数据就是一个训练样本)通过一个算法进行学习,得到一个模型,该模型揭示了数据中某种潜在的规则。规则本身可谓数据的一个真相,得到的模型可谓数据通过计算产生的一个假设。机器学习就是不断的学习,让我们的结果无限逼进真相。

5、什么是预测?

      带有预测功能的模型,提供训练的数据集是带有结果的,即每一个样本数据都是有一个标记的,因此需要对样本数据进行打标,所有可能的标记结果形成一个标记空间。

6、离散和回归?

      如果我们要的结果的个数是离散的,即有有限个结果,那么此类学习任务称为离散。如果我们的结果是连续的,即为回归任务

    对于只有两个结果的离散任务,通常一个设为正类,一个设为负类

7、什么是聚类?

  将样本数据,根据一定的规则,划分为不同的组,每一个组内部的样本都有一定的规则。其中,内在的规则事前是不知道的,进行聚类的数据是没有标记的。

8、学习任务的分类?

    没有标记的训练数据的训练:无监督学习。如聚类

    有标记的训练数据的学习:有监督学习。如离散和回归

发展历程

机器学习研究划分为四个方面:

1、机械学习。死记硬背式学习。

2、类比学习。

3、式教学系。通过观察和发展学习

4、归纳学习。即从样例中学习(也是广义的归纳学习,也是主流的研究方向

归纳学习的研究分支

1、符号主义学习。代表为决策树基于逻辑的学习

决策树:以信息论为基础,以信息熵最小化为目标,模拟了人类对概念进行判定的属性流程

基于逻辑的学习:代表为归纳逻辑程序设计(ILP),ILP为机器学习与逻辑程序设计的交叉,使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。(不懂)

缺点:表示能力太强,导致学习过程中产生的假设空间太大、复杂度极高。

2、基于神经网络的连接主义学习。代表为BP神经网络

神经网络的学习主要是对参数的调整(不认同)。

缺点:神经网络属于一个黑箱模型,从知识的获取角度来看,有一些先天性的不足。

3、基于统计学习。代表为支持向量机(SVM)和核方法

4、深度学习。其实就是多层的神经网络

你可能感兴趣的:(机器学习思考)