3.2.5 端到端的学习

什么是端到端的深度学习

深度学习中最令人振奋的最新动态之一就是端到端深度学习的兴起,那么端到端学习到底是什么呢?简而言之,以前有一些数据处理系统或者学习系统,它们需要多个阶段的处理。那么端到端深度学习就是忽略所有这些不同的阶段,用单个神经网络代替它。

3.2.5 端到端的学习_第1张图片

如图所示,以语音识别为例,传统上,语音识别需要很多阶段的处理。首先你会提取一些特征,一些手工设计的音频特征,在提取出一些低层次特征之后,你可以应用机器学习算法在音频片段中找到音位。然后你将音位串在一起构成独立的词,然后你将词串起来构成音频片段的听写文本。

这种有很多阶段的流水线相比,端到端深度学习做的是,你训练一个巨大的神经网络,输入就是一段音频,输出直接是听写文本。AI的其中一个有趣的社会学效应是,随着端到端深度学习系统表现开始更好,有一些花了大量时间或者整个事业生涯设计出流水线各个步骤的研究员,还有其他领域的研究员,不只是语言识别领域的,也许是计算机视觉,还有其他领域,他们花了大量的时间,写了很多论文,有些甚至整个职业生涯的一大部分都投入到开发这个流水线的功能或者其他构件上去了。而端到端深度学习就只需要把训练集拿过来,直接学到了x和y之间的函数映射,直接绕过了其中很多步骤。

端到端深度学习的挑战之一是,你可能需要大量数据才能让系统表现良好,比如,你只有3000小时数据去训练你的语音识别系统,那么传统的流水线效果真的很好。但当你拥有非常大的数据集时,比如10,000小时数据或者100,000小时数据,这样端到端方法突然开始很厉害了。所以当你的数据集较小的时候,传统流水线方法其实效果也不错,通常做得更好。你需要大数据集才能让端到端方法真正发出耀眼光芒

3.2.5 端到端的学习_第2张图片

如果你的数据量并不足够很大。尝试把问题分解成简单几步,也是不错的选择。比如说在人脸识别领域。我们可以直接把人脸识别出来。但是如果数据不是很大的话,这样识别效果不是很好。我们也可以分成两步来做。比如说第一步识别照片中人脸的位置。第二步把这个位置的人脸图片放大进行识别。目前来看,在数据不是很大的情况下,这种方法往往效果更好。

是否要使用端到端的深度学习

假设你正在搭建一个机器学习系统,你要决定是否使用端对端方法,我们来看看端到端深度学习的一些优缺点,这样你就可以根据一些准则,判断你的应用程序是否有希望使用端到端方法。

首先端到端学习真的只是让数据说话。所以如果你有足够多的(x,y)数据,那么不管从x到y最适合的函数映射是什么,如果你训练一个足够大的神经网络,希望这个神经网络能自己搞清楚,而使用纯机器学习方法,直接从x到y输入去训练的神经网络,可能更能够捕获数据中的任何统计信息,而不是被迫引入人类的成见。

例如,在语音识别领域,早期的识别系统有这个音位概念,就是基本的声音单元.我觉得这个音位是人类语言学家生造出来的,我实际上认为音位其实是语音学家的幻想,用音位描述语言也还算合理。但是不要强迫你的学习算法以音位为单位思考,这点有时没那么明显。如果你让你的学习算法学习它想学习的任意表示方式,而不是强迫你的学习算法使用音位作为表示方式,那么其整体表现可能会更好。

端到端深度学习的第二个好处就是这样,所需手工设计的组件更少,所以这也许能够简化你的设计工作流程,你不需要花太多时间去手工设计功能,手工设计这些中间表示方式。

3.2.5 端到端的学习_第3张图片

那么缺点呢?端到端算法,最大的缺点就是它需要大量的数据。可以说是海量的数据才可以支撑起端到端的学习。

吴教主深度学习和神经网络课程总纲

你可能感兴趣的:(深度学习)