机器学习入门笔记1

`

机器学习入门笔记1——基本概念介绍

1.什么是机器学习?

机器学习是通过编程让计算机从数据中进行学习的科学(和艺术)。

下面是一个更广义的概念:

机器学习是让计算机具有学习的能力,无需进行明确编程。 —— 亚瑟·萨缪尔,1959

和一个工程性的概念:
计算机程序利用经验E学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称为机器学习。 —— 汤姆·米切尔,1997
例如,你的垃圾邮件过滤器就是一个机器学习程序,它可以根据垃圾邮件(比如,用户标记的垃圾邮件)和普通邮件(非垃圾邮件,也称作 ham)学习标记垃圾邮件。用来进行学习的样例称作训练集。每个训练样例称作训练实例(或样本)。在这个例子中,任务T就是标记新邮件是否是垃圾邮件,经验E是训练数据,性能P需要定义:例如,可以使用正确分类的比例。这个性能指标称为准确率,通常用在分类任务中。
2.机器学习特点
(1) 需要进行大量手工调整或需要拥有长串规则才能解决的问题:机器学习算法通常可以简化代码、提高性能。
(2)问题复杂,传统方法难以解决:最好的机器学习方法可以找到解决方案。
(3)环境有波动:机器学习算法可以适应新数据。
(4)洞察复杂问题和大量数据。

2.机器学习系统分类

机器学习有多种类型,可以根据如下规则进行分类:

1.是否在人类监督下进行训练(监督,非监督,半监督和强化学习)
2.是否可以动态渐进学习(在线学习 vs 批量学习)
3.它们是否只是通过简单地比较新的数据点和已知的数据点,还是在训练数据中进行模式识别,以建立一个预测模型,就像科学家所做的那样(基于实例学习 vs 基于模型学习)

2.1监督/非监督学习

机器学习可以根据训练时监督的量和类型进行分类。主要有四类:监督学习、非监督学习、半监督学习和强化学习。

监督学习

在监督学习中,用来训练算法的训练数据包含了答案,称为标签。
机器学习入门笔记1_第1张图片


重要的监督学习算法:
K 近邻算法
线性回归
逻辑回归
支持向量机(SVM)
决策树和随机森林
神经网络

非监督学习

在非监督学习中,你可能猜到了,训练数据是没有加标签的。系统在没有老师的条件下进行学习。
机器学习入门笔记1_第2张图片
常用的非监督学习算法:
聚类
k均值
层次聚类分析(Hierarchical Cluster Analysis,HCA)
期望最大值
可视化和降维
主成分分析(Principal Component Analysis,PCA)
核主成分分析
局部线性嵌入(Locally-Linear Embedding,LLE)
t-分布邻域嵌入算法(t-distributed Stochastic Neighbor Embedding,t-SNE)
关联性规则学习
Apriori 算法
Eclat 算法

半监督学习

一些算法可以处理部分带标签的训练数据,通常是大量不带标签数据加上小部分带标签数据。
机器学习入门笔记1_第3张图片
一些图片存储服务,比如 Google Photos,是半监督学习的好例子。一旦你上传了所有家庭相片,它就能自动识别到人物 A 出现在了相片 1、5、11 中,另一个人 B 出现在了相片 2、5、7 中。这是算法的非监督部分(聚类)。
多数半监督学习算法是非监督和监督算法的结合。例如,深度信念网络(deep belief networks)是基于被称为互相叠加的受限玻尔兹曼机(restricted Boltzmann machines,RBM)的非监督组件。RBM 是先用非监督方法进行训练,再用监督学习方法对整个系统进行微调。

强化学习

强化学习非常不同。学习系统在这里被称为智能体(agent),可以对环境进行观察、选择和执行动作,并获得奖励作为回报(负奖励是惩罚)。然后它必须自己学习哪个是最佳方法(称为策略,policy),以得到长久的最大奖励。策略决定了智能体在给定情况下应该采取的行动。
机器学习入门笔记1_第4张图片
例如,许多机器人运行强化学习算法以学习如何行走。DeepMind 的 AlphaGo 也是强化学习的例子:它在 2016 年三月击败了世界围棋冠军李世石(译者注:2017 年五月,AlphaGo 又击败了世界排名第一的柯洁)。它是通过分析数百万盘棋局学习制胜策略,然后自己和自己下棋。要注意,在比赛中机器学习是关闭的;AlphaGo 只是使用它学会的策略。

基于实例 vs 基于模型学习

另一种分类机器学习的方法是判断它们是如何进行归纳推广的。大多机器学习任务是关于预测的。这意味着给定一定数量的训练样本,系统需要能推广到之前没见到过的样本。对训练数据集有很好的性能还不够,真正的目标是对新实例预测的性能。

有两种主要的归纳方法:基于实例学习和基于模型学习。
基于实例学习:系统先用记忆学习案例,然后使用相似度测量推广到新的例子
基于模型学习:从样本集进行归纳的方法是建立这些样本的模型,然后使用这个模型进行预测。

机器学习面临的挑战

1.训练数据量不足
2.没有代表性的训练数据
3.低质量数据
4.不相关的特征
5.过拟合训练数据
解决方法:
一、简化模型,可以通过选择一个参数更少的模型(比如使用线性模型,而不是高阶多项式模型)、减少训练数据的属性数、或限制一下模型
二、收集更多的训练数据
三、减小训练数据的噪声(比如,修改数据错误和去除异常值)
6.欠拟合训练数据
一、选择一个更强大的模型,带有更多参数
二、用更好的特征训练学习算法(特征工程)
三、减小对模型的限制(比如,减小正则化超参数)

你可能感兴趣的:(机器学习,机器学习)