机器学习1——什么是机器学习

文章目录

  • 1. 机器学习
    • 1.1. 什么是机器学习
    • 1.2. 涉及学科
    • 1.3. 机器学习历史
    • 1.4. 为什么研究机器学习
    • 1.5. 研究现状
    • 1.6. 具体算法
  • 2. 学习计划

1. 机器学习

1.1. 什么是机器学习

  • Machine Learning
  • 多领域交叉学科
  • 它是人工智能核心,是使计算机具有智能的根本途径
  • 研究机器怎样模拟或实现人类的学习行为

1.2. 涉及学科

  • 概率论、统计学、逼近论
  • 线性代数、高等数学等

1.3. 机器学习历史

  • 演变而来。
  • 追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链。
  • 1950年,艾伦.图灵提议建立一个学习机器。
  • 1980年,在美国的卡内基梅隆(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。

1.4. 为什么研究机器学习

1.4.1 方面一:智能:

  • 一个系统是否具有学习能力已成为是否具有“智能”的一个标志。
  • 研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
  • 机器学习是对能通过经验自动改进的计算机算法的研究。

1.4.2 方面二:大数据:

  • 大数据环境下机器学习的研究
  • 该类研究主要是研究如何有效利用信息
  • 注重从巨量数据中获取隐藏的、有效的、可理解的知识。

1.5. 研究现状

1.5.1 方面一:智能

  • 决策树
  1. 决策树是机器学习常见的一种方法。
  2. ID3算法
  3. 在ID3算法的基础上提出了一种改进算法,即C4.5算法
  4. CART算法
  5. SLIQ(决策树分类)算法
  6. PUBLIC算法
  • 随机森林
  1. 随机森林(RF)作为机器学习重要算法之一。
  2. 是一种利用多个树分类器进行分类和预测的方法。
  • 人工神经网络
  1. 人工神经网络(Artificial Neural Networks,ANN)是一种具有非线性适应性信息处理能力的算法。
  2. 可克服传统人工智能方法对于直觉,如模式、语音识别、非结构化信息处理方面的缺陷。
  • 贝叶斯学习等。
  1. 贝叶斯学习是机器学习较早的研究方向。
  2. 贝叶斯定理
  3. 统计学中一个重要的组成部分。

1.5.2 方面二:大数据

  • 提出新的机器学习算法,以适应大数据处理的需要。
  • 大数据时代的机器学习更强调“学习本身是手段"机器学习成为一种支持和服务技术
  • 大数据机器学习数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用。

1.6. 具体算法

  • 决策树算法
  1. 决策树及其变种是一类将输入空间分成不同的区域,每个区域有独立参数的算法。
  2. 决策树算法充分利用了树形模型
  3. 根节点到一个叶子节点是一条分类的路径规则,每个叶子节点象征一个判断类别。
  4. 先将样本分成不同的子集,再进行分割递推,直至每个子集得到同类型的样本,从根节点开始测试,到子树再到叶子节点,即可得出预测类别。
  5. 此方法的特点是结构简单、处理数据效率较高
  • 朴素贝叶斯算法
  1. 朴素贝叶斯算法是一种分类算法
  2. 它不是单一算法,而是一系列算法。
  3. 它们都有一个共同的原则,即被分类的每个特征都与任何其他特征的值无关
  4. 朴素贝叶斯分类器认为这些“特征”中的每一个都独立地贡献概率,而不管特征之间的任何相关性。
  5. 然而,特征并不总是独立的,这通常被视为朴素贝叶斯算法的缺点
  6. 简而言之,朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。
  7. 与其他常见的分类方法相比,朴素贝叶斯算法需要的训练很少
  8. 在进行预测之前必须完成的唯一工作是找到特征的个体概率分布的参数,这通常可以快速且确定地完成。
  9. 这意味着即使对于高维数据点或大量数据点,朴素贝叶斯分类器也可以表现良好
  • 支持向量机算法
  1. 基本思想可概括如下:首先,要利用一种变换将空间高维化,当然这种变换是非线性的,然后,在新的复杂空间取最优线性分类表面
  2. 由此种方式获得的分类函数在形式上类似于神经网络算法。支持向量机是统计学习领域中一个代表性算法,但它与传统方式的思维方法很不同,输入空间、提高维度从而将问题简短化,使问题归结为线性可分的经典解问题。
  3. 支持向量机应用于垃圾邮件识别,人脸识别等多种分类问题。
  • 随机森林算法
  1. 控制数据树生成的方式有多种
  2. 根据前人的经验,大多数时候更倾向选择分裂属性和剪枝,但这并不能解决所有问题,偶尔会遇到噪声或分裂属性过多的问题。
  3. 基于这种情况,总结每次的结果可以得到袋外数据的估计误差。
  4. 将它和测试样本的估计误差相结合可以评估组合树学习器的拟合及预测精度
  5. 此方法的优点有很多,可以产生高精度的分类器,并能够处理大量的变数,也可以平衡分类资料集之间的误差。
  • 人工神经网络算法
  1. 人工神经网络与神经元组成的异常复杂的网络此大体相似,是个体单元互相连接而成,每个单元有数值量的输入和输出,形式可以为实数或线性组合函数。
  2. 它先要以一种学习准则去学习,然后才能进行工作。
  3. 当网络判断错误时,通过学习使其减少犯同样错误的可能性。
  4. 此方法有很强的泛化能力和非线性映射能力,可以对信息量少的系统进行模型处理
  5. 从功能模拟角度看具有并行性,且传递信息速度极快
  • Boosting与Bagging算法
  1. Boosting是种通用的增强基础算法性能的回归分析算法。
  2. 不需构造一个高精度的回归分析,只需一个粗糙的基础算法即可,再反复调整基础算法就可以得到较好的组合回归模型。
  3. 它可以将弱学习算法提高为强学习算法,可以应用到其它基础回归算法,如线性回归、神经网络等,来提高精度。
  4. Bagging和前一种算法大体相似但又略有差别,主要想法是给出已知的弱学习算法和训练集,它需要经过多轮的计算,才可以得到预测函数列,最后采用投票方式对示例进行判别
  • 关联规则算法
  1. 关联规则是用规则去描述两个变量或多个变量之间的关系
  2. 是客观反映数据本身性质的方法。
  3. 它是机器学习的一大类任务。
  4. 可分为两个阶段。
  5. 先从资料集中找到高频项目组
  6. 再去研究它们的关联规则。
  7. 其得到的分析结果即是对变量间规律的总结
  • EM(期望最大化)算法
  1. 在进行机器学习的过程中需要用到极大似然估计等参数估计方法。
  2. 在有潜在变量的情况下,通常选择EM算法
  3. 不是直接对函数对象进行极大估计,而是添加一些数据进行简化计算,再进行极大化模拟。
  4. 它是对本身受限制或比较难直接处理的数据的极大似然估计算法。
  • 深度学习
  1. 深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向。
  2. 它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。
  3. 深度学习是学习样本数据的内在规律和表示层次。
  4. 这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
  5. 它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
  6. 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
  7. 深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、推荐和个性化技术,以及其他相关领域都取得了很多成果。
  8. 深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。

2. 学习计划

顺序 内容 时间 怎样学习 完成情况
1 Java 有基础的 已完成
2 python 两三天 学习了基本语法之后,单独写几个项目,后面就在机器学习中熟练 已完成
3 吴恩达在coursera上的免费网课machine learning 待定 https://link.zhihu.com/?target=https%3A//www.coursera.org/learn/machine-learning/home/welcome
4 李航老师的《统计学习方法》前8章 待定 待定
5 周志华老师的《机器学习》前10章,又称西瓜书 待定 待定
6 《机器学习实战》 待定 待定
7 深度学习 待定 https://link.zhihu.com/?target=https%3A//www.coursera.org/specializations/deep-learning
8 《Pattern Recognition and Machine Learning》和《Element of Statistic Learning》 待定 待定

你可能感兴趣的:(机器学习,机器学习)