看了很多tensor的介绍文章,感觉这篇是最通俗易懂的。
转载:https://zhuanlan.zhihu.com/p/25268020
原文: Learning AI if You Suck at Math — P4 — Tensors Illustrated (with Cats!)
在线运行代码版:数学不行还学AI-第4话-图解张量(内有恶猫) - 集智专栏
作者:Daniel Jeffries
翻译/注释:Kaiser(王司图)
昨天翻译了一篇用Keras识别AV女优的文章,虽然反响很热烈,但是很多朋友反映看不懂。其实那篇文章自身就不是特别完备,只是提供个大概思路,并不能逐步复现。所以今天来一篇相对简单、通俗的。
读者朋友们可能奇怪,为什么一上来就是“第4话”。 这是一个连载中的系列文章,题为Learning AI if You Suck at Math,一听就很丧。北邮陈老师(爱可可-爱生活)翻译为“数学菜鸟的AI学习攻略”,这太正能量了不够丧。所以我翻译为“数学不行还学AI”。
此处的“还”字语气应模仿周星驰在《功夫》里的“还踢球!”。
原作者Daniel Jeffries是一位科幻作家,他的新书见下图微博中我的评论,为防“政治敏感”罪名,我就不翻译了(当然,在我自己的网站上,我翻译了)。看他写作的风格(可以说是魔幻了)就可以理解,为什么文章标题一定要翻译的丧。
本系列的前三篇没有翻译的原因是这样的:
第一篇:Learning AI if You Suck at Math 抒情居多,后面推荐了几本数学方面的书籍。感兴趣的朋友可以点击原文查看,因为推荐的都是英文书,所以翻译过来也没有太大价值。
第二篇:Learning AI if You Suck at Math — Part Two — Practical Projects ,作家就是作家,仍然是抒情成分居多,然后介绍了一下Kaggle竞赛以及Keras+TensorFlow框架。
第三篇:Learning AI if You Suck at Math — P3 — Building an AI Dream Machine or Budget Friendly Special,终于不抒情了,这是一篇攒机和开发环境配置的攻略。硬件方面,作者的推荐与我国国情有一定偏差。开发环境配置方面,我已经在集智的后台做好了,读者可以直接在网页上运行Python代码,免除了最麻烦的部分。
不管是知乎还是StackOverflow,几乎所有编程版块的问题,都有一大半是关于安装、配置的。而云计算已经很普及,实在想在本地搭建也可以用docker解决,我觉得没有必要在繁琐的配置上浪费太多时间。
以上三篇可以说是撩拨的前戏,本篇《图解张量(内有恶猫!)》终于直奔主题顶到了花心。
正文
可能你已经下载TensorFlow并且准备好开始深度学习了。
但你可能会问:什么他妈的叫他妈的Tensor? (What the hell is a tensor?)
或许你已经看过了维基百科页面 ,然后你更加迷茫了。又可能你看过了了这个NASA tutorial但还是不知道这说了些什么? 你像陈绮贞老师,收集书本里每一句你最爱的真理。
问题的关键在于,大多数教程在谈及Tensor的时候,都预设你已经懂得了所有描述性的数学语言。
不要怕!
我想很多孩子一样讨厌数学,所以要是连我都能能懂,那你也可以!我们只需要用最简单的方式来解释一切。
所以到底什么他妈的叫他妈的Tensor,它又怎么就Flow了?
张量(tensor)是现代机器学习的最基础元素。
本质上来讲,张量就是个数据容器。多数情况下盛的是数字,有时也会盛字符但比较少。
所以不妨把它想象成一筐数字 。(So think of it as a bucket of numbers. bucket原意是“桶”,但中文还是“筐”用的比较多。比如“国情是个筐”,而没有说“国情是个桶”的。)
张量就像避孕套,有不同的型号(这个比喻是Kaiser自创的)。来一起认识一下你在深度学习中将会遇到的基本款——0维到5维。
我们可以把这些张量做如下可视化(猫?在后面!)
张量这个筐里的一个数字就叫标量(scalar)。
一个标量就是一个数字。
你可能会问,为什么不直接叫数字?
我也不知道,可能数学家们觉得这样挺起来比较屌?(并没有)
实际上你可以拥有只含一个数字的张量,这就是0维张量,好比一个筐里只有一滴水(已经好过“竹篮子打水一场空”了)。
在本教程中我们将使用Python, Keras和TensorFlow以及NumPy,这些环境已经在集智中搭建好了。
在Python中,张量一般表示为Numpy数组。 NumPy 是一个科学计算库, 你球基本上所有AI框架都用到了NumPy。
在数据科学竞赛网站Kaggle上,你经常可以看到Jupyter Notebooks(本站的在线开发环境也是基于Jupyter Notebooks)提到把数据转换为Numpy数组。Jupyter Notebook集成了文档与代码功能,融讲解和编程于一体。
为什么要把数据转换为Numpy数组?
很简单,因为我们需要应对各种各样的输入数据——字符、图像、股价或者视频——整合到一个标准下。
这种情况下,我们把数据塞进“数字筐”(张量)里,才能通过TensorFlow操纵它们。
其实就是把数据组织成一种可用的格式。在网络编程中,你可能用XML来呈现(微信就是),所以你可以快捷地定义和操纵数据。同样的,深度学习中我们使用张量这个筐来作为乐高里最小的零件。
如果你是程序员,那你应该已经知道一种跟1维张量很接近的东西:数组。
每个编程语言都有数组,其实就是一行或一列数据。在深度学习中称作1维张量,张量可以根据轴的数量来定义,1维张量就只有一个数轴。
1维张量是矢量(vector)。
我们可以把矢量可视化为一行或一列数字。
如果想在Numpy中查看,可执行如下操作:
也可以用Numpy的ndim输出张量的维数。
你大概已经想到了另一种张量:矩阵
2维向量是矩阵(matrix)。
不,不是基努里维斯那个电影,是类似Excel表格的这样一个数据结构。
我们可以将其可视化为有行/列的数字网格。
行和列代表了两个轴,矩阵是2维张量。在NumPy中我们可以如此表示:
我们可以把人物属性存储为2维张量。比如一个典型的邮件列表就很适用。
假设我们有10000个人,并且每个人又具有这些属性:
张量是有“形状”的,“形状”适合数据维度且定义了张量最大尺寸,我们可以把人物属性放入一
个形状为(10000, 7)的2维张量当中。
你可能想说这个张量有10000列和7行。
やめて。
张量的行与列之间是可以相互转换的(所以不存在具体的“行”与“列”的定义)。
其实到了3维,才是“张量”这个概念真正凸显的时候。我们经常需要把2维张量再装进另一个筐里,这就是3维张量。
在Numpy中,可以这样表示:
以上面的邮件列表为例。假设现在有10个邮件列表,我们可以把2维张量存至另一个筐,构成3维张量。形状如下:
(number_of_mailing_lists, number_of_people, number_of_characteristics_per_person)
(10,10000,7)
你可能已经猜到了, 3维张量是数字立方。
我们可以继续堆砌立方体来构建越来越大的张量,以表现4维,5维乃至N维的张量。
实际上3维张量可以更好地用层级网格来表示:
有几类常见的数据类型是以张量形式存储的:
一条贯穿所有这些张量的线索就是“样本数量”。样本数量就是数据集里的数据个数,可以是图片的张数,视频的段数,文件的份数或是微博的条数。
一般实际的数据维数都会比样本数量小。
rest_of_dimensions - sample_size = actual_dimensions_of_data
考虑到不同维数下的形状(以不同的维度代表),我们要寻找能够描述数据的最少维度。
所以4维张量通常存储图像,因为样本数量就是张量的第4个维度。
比如一张图片可以用3个维度来表征:
(width, height, color_depth) = 3D
但在机器学习中,我们一般不是只跟单张图片或单份文件打交道,而是一个数据集。我们可能有10000张郁金香的照片,这就是一个4维张量:
(sample_size, width, height, color_depth) = 4D
下面来看几个不同维度张量的例子。
3维张量对于时序数据很有效。
我们可以把脑电波EEG信号编码为3维张量,因为它可以用3个参数指代:
(time, frequency, channel)
转换过程大致如下:
现在如果我们有很多病人扫描了脑电波,那就变成个4维张量了。
(sample_size, time, frequency, channel)
股价每分钟都有高有低,有最终价。纽交所从上午9:30开到下午4:00,共计6个半小时,390分钟。 股价的变化一般用K线图表示:
我们可以把每分钟的高价,低价,最终价存为2维张量。如果抓取一星期(5个交易日),就是3维张量,形状如下:
(week_of_data, minutes, high_low_price)
(5,390,3)
如果有10支股票,则变成4维张量:
(10,5,390,3)
假设现在有个互惠基金,由若干支股票组成,以4维张量形式表征。我们可以持有25支互惠基金作为投资组合,于是就有一系列4维张量,等价于5维张量:
(25,10,5,390,3)
文本数据也可以存为3维张量,以Twitter为例。
Tweets由140字组成,基于UTF-8标准,可以呈现上百万字,但实际上我们只对前128个感兴趣,与ASCII编码是一样的。单条tweet可以装载进一个(140,128)的2维矢量。
假如我们下载了100万条Trump的tweets(我觉得他一个礼拜就发够了。注:此条吐槽为原文),可以存为3维张量。
(number_of_tweets_captured, tweet, character)
(1000000,140,128)
4维张量很适合存储一系列图像(如Jpeg格式)。如前所述,一张图片可以存为三个参数:
单张图片是3维的,一系列图片就是4维的了,第4维就是sample_size。
著名的MNIST数据集就是一系列手写数字,曾经是困扰众多数据科学家的难题,今天已经基本上是玩儿透了,机器已经能够达到99%甚至更高的精度(单层CNN就差不多了)。 但是这个数据集仍然发挥着余热,就是用作新机器学习应用的样板,或者练手的素材。
Keras甚至集成了MNIST数据集,只需要简单的命令就可以导入。
from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
数据集被分为两份:
每个图片都有一个标签,即该图的真实数字,比如3,7或是9,这些标签时人工手动添加的。
训练集用来教会神经网络,测试集则是神经网络学习后试图分类的目标。
MNIST都是灰度图像,也就是说可以编码为2维张量,但是所有图片还是依照惯例编码为3维张量,第三个轴代表色彩深度。
MNIST数据集中有60000张图片,每张长宽皆为28像素,色彩深度为1,即灰度图片。
TensorFlow是这样存储图片的(与Theano格式有所不同):
(sample_size, height, width, color_depth).
彩色照片有着不同的色彩深度,这取决于分辨率和编码格式。典型的JPG图像用RGB编码,所以色彩深度为3,分别代表红、绿、蓝。
这是我家猫Dove的照片,分辨率为750x750,这意味着我们会有个3维张量:
(750,750,3)
接下来我家Dove会被变成一系列冷冰冰的张量和公式,就像是在神经网络中“变形”,或是“流动”(Flow)。
假设我们有一堆各种猫的图片(尽管他们都没有Dove漂亮。注:原作者看来是个猫奴)。比如10000张别家猫的750x750照片。在Keras中,就这样定义为4维张量:
(10000,750,750,3)
5维张量可以存视频数据。在TensorFlow中视频数据的编码形式如下:
sample_size, frames, width, height, color_depth)
一个5分钟的视频(300秒),1080p高清(1920x1080像素),每秒15个关键帧,色彩深度3,这是一个4维张量:
(4500,1920,1080,3)
张量的第五个维度是视频集中的视频个数。所以如果有10个视频,就有5维张量:
(10,4500,1920,1080,3)
这个例子其实很疯狂。
张量的体积可以大的不可思议, 超过1TB。在现实世界中,我们想要尽可能地下采样视频,否则模型可能永远都训练不完。
5维张量的值的个数为:
10 x 4500 x 1920 x 1080 x 3 = 279,936,000,000
Keras允许使用32位或64位的浮点数(dtype):
float32
float64
每个值都是一个32位的数字,这就意味着我们要把值的个数再乘32,转换为比特数,再转换为TB:
279,936,000,000 x 32 = 8,957,952,000,000
我不觉得这适用于32位系统(我会再找人算算),所以还是需要下采样。
实际上我用这个疯狂的例子,是为了引出预处理和数据缩减。
你不能直接就把原始数据扔进AI模型中,你需要整理、压缩数据使其更易于处理。
降低分辨率、删减冗余数据、限制帧数等,这也是数据科学家的任务之一。
如果你不能把数据玩儿坏,那么你也不能把它玩儿好。
现在你应该对张量及相关的数据类型有了更好的理解。
再下一篇中,我们将学习如何用数学方法对张量进行变形。
换言之,我们要让Tensor "flow" 起来。