佛爷芸: 机器学习算法原理总结系列---算法基础之(1)机器学习介绍

想写这个总结很久了,但是都是没有太多的时间去完成这个事情,刚好现在学期期末结束,也完成了Professor Lim留的基于遗传算法的神经网络优化的任务。我觉得是时候在回国之前把我这一个学期学的内容都记录下来。

机器学习总结分为两个系列,另外一个系列重点是深度学习(DL)。我会不定期改动我的每一篇文章,将我认为最好、最精粹的部分保留下来,原理讲解完了都会附上Python的代码实现,基本在这个系列我会用两种方式实现算法,一个是不依赖算法框架或者库的原生实现,二就是用scikit-learn包去实现算法。

不出意外,每天更新一篇。

一、机器学习 (Machine Learning, ML)

概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。

Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科

Langley(1996) :“机器学习是一门人工智能的科学,该领域的主要研究对象 是人工智能,特别是如何在经验学习中改善具体算法的性能”

Tom Michell (1997): “机器学习是对能通过经验自动改进的计算机算法的研究”

学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现P(performance)的衡量 ,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。
例子: 下棋,语音识别,自动驾驶汽车等

本系列将围绕基本架构图中的机器学习算法展开:

佛爷芸: 机器学习算法原理总结系列---算法基础之(1)机器学习介绍_第1张图片

机器学习中各种分类、回归预测和聚类算法的评估:

  1. 准确率
  2. 速度
  3. 强壮行
  4. 可规模性
  5. 可解释性

二、基本概念

  1. 训练集(training set/data)/训练样例(training examples):
    用来进行训练,也就是产生模型或者算法的数据集

  2. 测试集(testing set/data)/测试样例 (testing
    examples):用来专门进行测试已经学习好的模型或者算法的数据集

  3. 特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例

  4. 标记(label): c(x), 实例类别的标记
    正例(positive example)
    反例(negative example)

  5. 分类 (classification): 目标标记为类别型数据(category)

  6. 回归(regression): 目标标记为连续性数值 (continuous numeric value)

  7. 有监督学习(supervised learning): 训练集有类别标记(class label)
    无监督学习(unsupervised learning): 无类别标记(class label)
    半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集

  8. 机器学习步骤框架

    8.1 把数据拆分为训练集和测试集
    8.2 用训练集和训练集的特征向量来训练算法
    8.2 用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning), 用验证集(validation set)

三、参考资料

1、深度学习基础介绍 机器学习(https://www.youtube.com/playlist?list=PLO5e_-yXpYLARtW5NPHTFVYY-xpgwuNNH)

2、 莫烦 Python(https://morvanzhou.github.io/):一个志同道合的机器学习爱好者。

3、《机器学习实战》是2013年由人民邮电出版社出版的书籍,作者是Peter Harrington。

4、教授发的机器学习学习课件。(其实google搜索一大推,主要看能不能深入理解)

你可能感兴趣的:(机器学习实战)