旷视首席科学家、知名AI学者孙剑博士去世,他在该领域有哪些贡献?在学术层面,孙老师是计算机视觉领域全世界最知名、最顶级的一批科学家。
他的工作ResNet(12w+citations)、FasterRCNN(4w+citations)等极大的推动了人工智能的发展和落地应用,在科学、工程、社会领域为人类的福祉做出了巨大的贡献。
以孙老师为代表的一批学术偶像激励了无数的青年学生投入到了国内深度学习、计算机视觉的研究当中,极大的促进了国内相关领域科学研究和产业落地的发展和繁荣。
孙老师的工作也让国际同行更多的关注国内的工作,有次学生问我为什么这么多self-supervisedlearning工作在做semanticseg下游任务的时候使用UperNet作为头部网络?
我告诉他,做semanticseg的主要还是集中在国内,而在国内这批学者中,老外信得过孙老师。
还跟朋友半开玩笑地说:随着恺明去FAIR之后又做出了像MoCoMAE这样也有影响力的工作,他跟孙剑老师的citation上涨的趋势不会那么同步了。
不过让人震惊又难过的是孙剑老师的publication再也不会更新了,我们失去了一位值得尊敬的前辈。
看到这个沉重的消息有种强烈的不真实感,因为好像了解ResNet,FasterRCNN这些我们这个时代视觉领域基石性的创新工作好像还是在昨天。突然就要创造它们的这个伟大的人告别了。
但正如寻梦环游记所说:没有一个人在记得你的一切时,你才算从这个世界上真正的消失。
所以孙剑老师可能永远不会跟这个世界告别,因为他和他都工作不断启发着我们这些后一代的视觉人,他对视觉领域的贡献永远会激励着我们继续前进。
谷歌人工智能写作项目:神经网络伪原创
AI发猫。
这两个概念实际上是互相交叉的,例如,卷积神经网络(Convolutionalneuralnetworks,简称CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(DeepBeliefNets,简称DBNs)就是一种无监督学习下的机器学习模型。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习的概念由Hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。
此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。
本质上是模式识别,把现实的东西抽象成计算机能够理解的数字。如果一个图片是256色的,那么图像的每一个像素点,都是0到255中间的一个值,这样你可以把一个图像转换成一个矩阵。如何去识别这个矩阵中的模式?
用一个相对来讲很小的矩阵在这个大的矩阵中从左到右,从上到下扫一遍,每一个小矩阵区块内,你可以统计0到255每种颜色出现的次数,以此来表达这一个区块的特征。
这样通过这一次“扫描”,你得到了另一个由很多小矩阵区块特征组成的矩阵。这一个矩阵比原始的矩阵要小吧?那就对了!
然后对这个小一点的矩阵,再进行一次上面的步骤,进行一次特征“浓缩”,用另一个意思来讲,就是把它抽象化。最后经过很多次的抽象化,你会将原始的矩阵变成一个1维乘1维的矩阵,这就是一个数字。
而不同的图片,比如一个猫,或者一个狗,一个熊,它们最后得到的这个数字会不同。
于是你把一个猫,一个狗,一个熊都抽象成了一个数字,比如0.34,0.75,0.23,这就达到让计算机来直接辨别的目的了。
人脸,表情,年龄,这些原理都是类似的,只是初始的样本数量会很大,最终都是通过矩阵将具体的图像抽象成了数字,因为计算机只认识数字。但是抽象的函数,会有所不同,达到的效果也会不同。
卷积神经网络是深度神经网络中的一种,深度神经网络还有DBN,RBN,AD等,deeplearningtutorial是个很不错的东西,还有百度余凯教授的一些论文,csdn的一些博客还不错。
还有一些框架theano,caffe等都是挺有用的,目前只看了theano,但听说企业都是用caffe作者:尹川东来源:知乎。
Coursera的Ng机器学习,UFLDL都看过。没记错的话Ng的机器学习里是直接给出公式了,虽然你可能知道如何求解,但是即使不知道完成作业也不是问题,只要照着公式写就行。
反正我当时看的时候心里并没能比较清楚的明白。我觉得想了解深度学习UFLDL教程-Ufldl是不错的。有习题,做完的话确实会对深度学习有更加深刻的理解,但是总还不是很清晰。
后来看了LiFeiFei的StanfordUniversityCS231n:ConvolutionalNeuralNetworksforVisualRecognition,我的感觉是对CNN的理解有了很大的提升。
沉下心来推推公式,多思考,明白了反向传播本质上是链式法则(虽然之前也知道,但是当时还是理解的迷迷糊糊的)。所有的梯度其实都是对最终的loss进行求导得到的,也就是标量对矩阵or向量的求导。
当然同时也学到了许多其他的关于cnn的。并且建议你不仅要完成练习,最好能自己也写一个cnn,这个过程可能会让你学习到许多更加细节和可能忽略的东西。
这样的网络可以使用中间层构建出多层的抽象,正如我们在布尔线路中做的那样。
例如,如果我们在进行视觉模式识别,那么在第一层的神经元可能学会识别边,在第二层的神经元可以在边的基础上学会识别出更加复杂的形状,例如三角形或者矩形。第三层将能够识别更加复杂的形状。依此类推。
这些多层的抽象看起来能够赋予深度网络一种学习解决复杂模式识别问题的能力。然后,正如线路的示例中看到的那样,存在着理论上的研究结果告诉我们深度网络在本质上比浅层网络更加强大。