机器学习前瞻

一、相关背景

互联网的普及后,随之而来的过载的数据,而如何从海量数据中获取人们感兴趣的信息,大致需要解决两方面的问题:一者为海量数据的存储与计算,另一个则是在海量数据上进行分析与挖掘,以获取有用的知识或模式。前者属于大数据架构范畴,后者则很大程度上依赖机器学习技术
机器学习专注与将数据集划分为训练数据和测试数据,以创建一个模型,来提高对未来做决策的能力。数据挖掘则是尽可能精确地挖掘目标区域,而无需使用自学习模型来了解过去。

二、机器学习中的难点:

  1. 机器学习算法众多,有较高的理论门槛,对数学基础有一定的要求
  2. 实践者需要同时掌握多种机器学习框架。市面上也没有某个机器学习框架能够通吃一切
  3. 特征工程、参数调优以来经验及计算资源
  4. 机器学习算法在大数据场景下的落地,对工程能力有较高的要求,实践者需要对大数据架构有充分的了解,再将单机上的机器学习算法移植到分布式环境中

三、机器学习的一般步骤

  1. 准备数据
  2. 选择算法
  3. 参数调优
  4. 评价模型

四、机器学习的分类

  1. 监督学习
    i. 监督学习是向机器中输入各种自变量,输出其因变量值。输入值和输出值都是已知的,也说数据集是“标记的”
    ii.在机器解密数据的规则和模式后,它创建了一个模型:其为一个算法方程,根据从训练数据中学习到的基本趋势和规则生成新的数据结果
    iii. 监督学习算法:回归分析、决策树、k近邻、神经网络和支持向量机(SVM)
  2. 非监督学习
    i. 输出的变量是未标记的,因此输入和输出变量的组合是未知的
    ii.非监督学习侧重分析输入数据变量之间的关系,并发现可以提取的隐藏模式,以创建有关可能输出的新标签
    iii. 业内,非监督学习在欺诈检测领域引人注目——最危险的攻击是那些尚未被分类的攻击
    iv.非监督算法:聚类分析,关联分析,社交网络分析法和降维算法
  3. 强化学习
    i. 定义:通过随机试错和利用先前迭代的反馈来开发其预测模型
    目标:通过随机试验大量可能的输入组合并对其性能进行分级,从而达到特定的目标(输出)

五、常见的机器学习算法:

  1. 决策树
  2. 随机森林
  3. 关联规则挖掘
  4. 聚类算法
  5. 回归分析
  6. 贝叶斯方法
  7. 深度学习
  8. 强化学习

你可能感兴趣的:(机器学习笔记)