机器学习基础知识 -- 学习摘记

机器学习

机器学习本质是一项监督分类/回归问题,"监督"表示你有许多样本,假设你知道这些样本的正确答案,我们不断地把样本交给机器,并告诉机器这些样本是正确或错误的,对机器进行训练,最终达到机器学习的目的。

1、有监督学习(数据有label)

监督学习就是教会计算机去完成任务,如:根据你已经标记为垃圾邮件的邮件学习识别垃圾邮件,根据你喜欢的电影推荐其他你可能喜欢的电影…
监督学习可以理解为以下两种模型:

  • 回归模型:根据之前的数据预测出一个准确的输出值
    回归问题通常是用来预测一个值,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。
    一个比较常见的回归算法是线性回归算法(LR),回归是对真实值的一种逼近预测。
  • 分类模型:根据之前的数据和分类/标签将输入数据准确地进行分类
    分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。
    分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。
    分类模型和回归模型本质一样,分类模型可将回归模型的输出离散化,回归模型也可将分类模型的输出连续化。
    两者的区别在于输出变量的类型。
  • 定量输出称为回归,或者说是连续变量预测;
  • 定性输出称为分类,或者说是离散变量预测。

2、无监督学习(数据无label)

是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。
这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。

如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。
目前分类算法的效果还是不错的,但相对来讲,聚类算法就有些惨不忍睹了。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。

3、特征和标签

特征提取
在机器学习中,我们通常会把特征作为输入,然后尝试生成标签,最终进行分类。

4、决策面
机器学习就是将数据,根据特征和标签转换为决策面(分类)。

决策面分为:
线层决策面:决策面为一条直线
非线性局侧面:决策面不是一条直线(一条直线无法决策的)

5、使用算法
常见的计算决策面的算法有:
朴素贝叶斯
支持向量机

基础库:scikit-learn官网,scikit-learn是一个python学习算法库,包含了丰富的机器学习算法。

你可能感兴趣的:(机器学习)