机器学习概述

机器学习是从大量无序的数据中提取出有用信息,进而提升机器的性能。

学习步骤首先是数据收集工作(训练数据),其次是从这些数据中学习规则,然后利用学习到的规则去预测新的
数据。

分类:

  1. 监督学习 即训练数据中包含了类别(先验)信息。 (eg.垃圾邮件检测中,包含类别①正常邮件②垃圾邮件)
  2. 非监督学习 训练数据中不包含任何类别信息。
  3. 半监督学习 训练数据中有一部分数据包含类别,一部分数据不包含类别信息。

监督学习
训练样本中同时包含有特征标签信息。
流程:获取数据→特征提取→监督学习→评价→监督学习→评价······→模型→预测
前四部分属于训练部分,后两部分属于预测部分。
特征提取:即过滤数据中的杂质,保留其中有用的信息。
典型算法:是分类(Classification)算法和回归(Regression)算法。
分类算法的标签是离散的值。(eg.广告点击问题的标签是 {+1,-1})
回归算法的标签值是连续的。(eg.通过人的身高、体重等信息预测年龄,年龄是连续的正整数,标签为y∈N+,且y∈[1,80])

无监督学习
样本中只含有特征,不含有标签信息,所以没有统一的评价标准,在学习中并不知道其分类结果是否正确。
流程:获取数据→特征提取→无监督学习
典型算法:是聚类算法和降维算法。
聚类算法是利用样本的特征,将具有相似特征的样本划分到同一个类别中,而不关心这个类别具体是啥。
(eg.样本有鲫鱼、鲤鱼、乌鸦、麻雀,特征哪个有些哪些有翅膀)
降维算法是将样本点从输入空间通过线性或非线性变换映射到低维空间,从而获得一个关于原数据集紧致
的低纬表示。

另:

  • 推荐系统
    (Recommendation System,RS)解决信息过载问题,连接用户与信息的桥梁。一方面帮助用户从海量数据中找出感兴趣的信息,另一方面将有价值的信息传递给潜在客户。
    常用的推荐算法:协同过滤算法、基于矩阵分解的推荐算法、基于图的推荐算法。

  • 深度学习
    传统的机器学习算法是利用浅层的结构,这些结构一般包含最多一到两层的非线性特征变换,很难解决更加复杂的与自然信号的问题。深度学习是利用深层的结构处理更加复杂的问题。
    常用的模型包括:自编码器模型、卷积神经网络模型、循环神经网络。

你可能感兴趣的:(人工智能)