Maxiao1204

深度学习在图像分类中的应用

深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深度学习在物体识别、物体检测、视频分析的最新研究进展，并探讨其发展趋势。

1. 深度学习发展历史的回顾

现有的深度学习模型属于神经网络。神经网络的历史可追述到上世纪四十年代，曾经在八九十年代流行。神经网络试图通过模拟大脑认知的机理，解决各种机器学习的问题。1986 年Rumelhart，Hinton 和Williams 在《自然》发表了著名的反向传播算法用于训练神经网络[1]，直到今天仍被广泛应用。

但是后来由于种种原因，大多数学者在相当长的一段的时间内放弃了神经网络。神经网络有大量的参数，经常发生过拟合问题，即往往在训练集上准确率很高，而在测试集上效果差。这部分归因于当时的训练数据集规模都较小。而且计算资源有限，即便是训练一个较小的网络也需要很长的时间。总体而言，神经网络与其它模型相比并未在识别的准确率上体现出明显的优势，而且难于训练。

因此更多的学者开始采用诸如支持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟，因此被称作浅层机器学习模型。它们不再模拟大脑的认知机理；相反，针对不同的任务设计不同的系统，并采用不同的手工设计的特征。例如语音识别采用高斯混合模型和隐马尔可夫模型，物体识别采用SIFT 特征，人脸识别采用LBP 特征，行人检测采用HOG特征。

2006 年，Geoffrey Hinton 提出了深度学习。之后深度学习在诸多领域取得了巨大成功，受到广泛关注。神经网络能够重新焕发青春的原因有几个方面。首先是大数据的出现在很大程度上缓解了训练过拟合的问题。例如ImageNet[2]训练集拥有上百万有标注的图像。计算机硬件的飞速发展提供了强大的计算能力，使得训练大规模神经网络成为可能。一片GPU 可以集成上千个核。此外神经网络的模型设计和训练方法都取得了长足的进步。例如，为了改进神经网络的训练，学者提出了非监督和逐层的预训练。它使得在利用反向传播对网络进行全局优化之前，网络参数能达到一个好的起始点，从而训练完成时能达到一个较好的局部极小点。

深度学习在计算机视觉领域最具影响力的突破发生在2012 年，Hinton 的研究小组采用深度学习赢得了ImageNet [2] 图像分类的比赛[3]。ImageNet 是当今计算机视觉领域最具影响力的比赛之一。它的训练和测试样本都来自于互联网图片。训练样本超过百万，任务是将测试样本分成1000 类。自2009 年，包括工业界在内的很多计算机视觉小组都参加了每年一度的比赛，各个小组的方法逐渐趋同。在2012 年的比赛中，排名2 到4 位的小组都采用的是传统的计算机视觉方法，手工设计的特征，他们准确率的差别不超过1%。Hinton 的研究小组是首次参加比赛，深度学习比第二名超出了10%以上。这个结果在计算机视觉领域产生了极大的震动，掀起了深度学习的热潮。

计算机视觉领域另一个重要的挑战是人脸识别。Labeled Faces in the Wild (LFW) [4] 是当今最著名的人脸识别测试集，创建于2007 年。在此之前，人脸识别测试集大多采集于实验室可控的条件下。LFW 从互联网收集了五千多个名人的人脸照片，用于评估人脸识别算法在非可控条件下的性能。这些照片往往具有复杂的光线、表情、姿态、年龄和遮挡等方面的变化。LFW的测试集包含了6000 对人脸图像。其中3000 对是正样本，每对的两张图像属于同一个人；剩下3000 对是负样本，每对的两张图像属于不同的人。随机猜的准确率是50%。有研究表明[5]，如果只把不包括头发在内的人脸的中心区域给人看，人眼在LFW 测试集上的识别率是97.53%。如果把整张图像，包括背景和头发给人看，人眼的识别率是99.15%。经典的人脸识别算法Eigenface [6] 在这个测试集上只有60%的识别率。在非深度学习的算法中，最好的识别率是96.33% [7]。目前深度学习可以达到99.47%的识别率[8]。

在学术界收到广泛关注的同时，深度学习也在工业界产生了巨大的影响。在Hinton 的科研小组赢得ImageNet 比赛之后6 个月，谷歌和百度发都布了新的基于图像内容的搜索引擎。他们沿用了Hinton 在ImageNet 竞赛中用的深度学习模型，应用在各自的数据上，发现图像搜索的准确率得到了大幅度的提高。百度在2012 年就成立了深度学习研究院，于2014 年五月又在美国硅谷成立了新的深度学习实验室，聘请斯坦福著名教授吴恩达担任首席科学家。Facebook 于2013 年12 月在纽约成立了新的人工智能实验室，聘请深度学习领域的著名学者，卷积网路的发明人YannLeCun 作为首席科学家。2014 年1 月，谷歌四亿美金收购了一家深度学习的创业公司，DeepMind。鉴于深度学习在学术和工业界的巨大影响力，2013 年MIT Technology Review将其列为世界十大技术突破之首。

2. 深度学习有何与众不同？

许多人会问，深度学习和其它机器学习方法相比有哪些关键的不同点，它成功的秘密在哪里？我们下面将对这此从几个方面作简要的阐述。

2.1 特征学习

深度学习与传统模式识别方法的最大不同在于它是从大数据中自动学习特征，而非采用手工设计的特征。好的特征可以极大提高模式识别系统的性能。在过去几十年模式识别的各种应用中，手工设计的特征处于同统治地位。它主要依靠设计者的先验知识，很难利用大数据的优势。由于依赖手工调参数，特征的设计中只允许出现少量的参数。深度学习可以从大数据中自动学习特征的表示，其中可以包含成千上万的参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史，往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。

一个模式识别系统包括特征和分类器两个主要的组成部分，二者关系密切，而在传统的方法中它们的优化是分开的。在神经网络的框架下，特征表示和分类器是联合优化的，可以最大程度发挥二者联合协作的性能。以2012 年Hinton 参加ImageNet 比赛所采用的卷积网络模型[9]为例，这是他们首次参加ImageNet 图像分类比赛，因此没有太多的先验知识。模型的特征表示包含了6 千万个参数，从上百万样本中学习得到。令人惊讶的是，从ImageNet 上学习得到的特征表示具有非常强的泛化能力，可以成功地应用到其它的数据集和任务，例如物体检测、跟踪和检索等等。在计算机视觉领域另外一个著名的竞赛是PSACAL VOC。但是它的训练集规模较小，不适合训练深度学习模型。有学者将ImageNet 上学习得到的特征表示用于PSACALVOC 上的物体检测，将检测率提高了20%[10]。

既然特征学习如此重要，什么是好的特征呢？一幅图像中，各种复杂的因素往往以非线性的方式结合在一起。例如人脸图像中就包含了身份、姿态、年龄、表情和光线等各种信息。深度学习的关键就是通过多层非线性映射将这些因素成功的分开，例如在深度模型的最后一个隐含层，不同的神经元代表了不同的因素。如果将这个隐含层当作特征表示，人脸识别、姿态估计、表情识别、年龄估计就会变得非常简单，因为各个因素之间变成了简单的线性关系，不再彼此干扰。

2.2 深层结构的优势

深度学习模型意味着神经网络的结构深，由很多层组成。而支持向量机和Boosting 等其它常用的机器学习模型都是浅层结构。有理论证明，三层神经网络模型（包括输入层、输出层和一个隐含层）可以近似任何分类函数。既然如此，为什么需要深层模型呢？

理论研究表明，针对特定的任务，如果模型的深度不够，其所需要的计算单元会呈指数增加。这意味着虽然浅层模型可以表达相同的分类函数，其需要的参数和训练样本要多得多。浅层模型提供的是局部表达。它将高维图像空间分成若干局部区域，每个局部区域存储至少一个从训练数据中获得的模板。浅层模型将一个测试样本和这些模板逐一匹配，根据匹配的结果预测其类别。例如在支持向量机模型中，这些模板就是支持向量；在最近邻分类器中，这些模板是所有的训练样本。随着分类问题复杂度的增加，图像空间需要被划分成越来越多的局部区域，因而需要越来越多的参数和训练样本。

深度模型能够减少参数的关键在于重复利用中间层的计算单元。例如，它可以学习针对人脸图像的分层特征表达。最底层可以从原始像素学习滤波器，刻画局部的边缘和纹理特征；通过对各种边缘滤波器进行组合，中层滤波器可以描述不同类型的人脸器官；最高层描述的是整个人脸的全局特征。深度学习提供的是分布式的特征表示。在最高的隐含层，每个神经元代表了一个属性分类器，例如男女、人种和头发颜色等等。每个神经元将图像空间一分为二，N 个神经元的组合就可以表达2N 个局部区域，而用浅层模型表达这些区域的划分至少需要个2N 模板。由此我们可以看到深度模型的表达能力更强，更有效率。

2.5 提取全局特征和上下文信息的能力

深度模型具有强大的学习能力，高效的特征表达能力，从像素级原始数据到抽象的语义概念逐层提取信息。这使得它在提取图像的全局特征和上下文信息方面具有突出的优势。这为解决一些传统的计算机视觉问题，如图像分割和关键点检测，带来了新的思路。以人脸的图像分割为例。为了预测每个像素属于哪个脸部器官（眼睛、鼻子、嘴、头发），通常的作法是在该像素周围取一个小的区域，提取纹理特征（例如局部二值模式），再基于该特征利用支持向量机等浅层模型分类。因为局部区域包含信息量有限，往往产生分类错误，因此要对分割后的图像加入平滑和形状先验等约束。事实上即使存在局部遮挡的情况下，人眼也可以根据脸部其它区域的信息估计被遮挡处的标注。这意味着全局和上下文的信息对于局部的判断是非常重要的，而这些信息在基于局部特征的方法中从最开始阶段就丢失了。

理想的情况下，模型应该将整幅图像作为输入，直接预测整幅分割图。图像分割可以被当作一个高维数据转换的问题来解决。这样不但利用到了上下文信息，模型在高维数据转换过程中也隐式地加入了形状先验。但是由于整幅图像内容过于复杂，浅层模型很难有效地捕捉全局特征。深度学习的出现使这一思路成为可能，在人脸分割[11]、人体分割[12]、人脸图像配准[13]和人体姿态估计等各个方面都取得了成功[14]。

2.4 联合深度学习

一些计算机视觉学者将深度学习模型视为黑盒子，这种看法是不全面的。事实上我们可以发现传统计算机视觉系统和深度学习模型存在着密切的联系，而且可以利用这种联系提出新的深度模型和新的训练方法。这方面一个成功的例子是用于行人检测的联合深度学习[15]。一个计算机视觉系统包含了若干关键的组成模块。例如一个行人检测器就包括了特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等等。在联合深度学习中[15]，深度模型的各个层和视觉系统的各个模块可以建立起对应关系。如果视觉系统中一些有效的关键模块在现有深度学习的模型中没有与之对应的层，它们可以启发我们提出新的深度模型。例如大量物体检测的研究工作证明对物体部件的几何形变建模可以有效地提高检测率，但是在常用的深度模型中没有与之相对应的层。于是联合深度学习[15]及其后续的工作[16]都提出了新的形变层和形变池化层实现这一功能。

从训练方式上看，计算机视觉系统的各个模块是逐一训练或手工设计的；在深度模型的预训练阶段，各个层也是逐一训练的。如果我们能够建立起计算机视觉系统和深度模型之间的对应关系，在视觉研究中积累的经验可以对深度模型的预训练提供指导。这样预训练后得到的模型至少可以达到与传统计算机视觉系统可比的结果。在此基础上，深度学习还会利用反向传播对所有的层进行联合优化，使它们之间的相互协作达到最优，从而使整个网络的性能得到重大提升。

3. 深度学习在物体识别中的应用

3.1 ImageNet 图像分类

深度学习在物体识别中最重要的进展体现在ImageNet ILSVRC 挑战中的图像分类任务。传统计算机视觉方法在这个测试集上最低的top5 错误率是26.172%。2012 年Hinton 的研究小组利用卷积网络在这个测试集上把错误率大幅降到15.315%。这个网络的结构被称作Alex Net [3]。与传统的卷积网络相比，它有三点比较重要的不同。首先是采用了dropout 的训练策略，在训练过程中将一些输入层和中间层的神经元随机置零。这模拟了由于噪音和对输入数据的各种干扰，从而使一些神经元对一些视觉模式产生漏检的情况。Dropout使训练过程收敛更慢，但得到的网络模型更加鲁棒。其次，它采用整流线型单元作为非线性的激发函数。这不仅大大降低了计算的复杂度，而且使神经元的输出具有稀疏的性质。稀疏的特征表示对各种干扰更加鲁棒。第三，它通过对训练样本镜像映射，和加入随机平移扰动产生了更多的训练样本，以减少过拟合。

ImageNet ILSVRC2013 比赛中，排名前20 的小组使用的都是深度学习，其影响力可见一斑。获胜者是来则纽约大学Rob Fergus 的研究小组，所采用的深度模型还是卷积网络，对网络结构作了进一步优化。Top5 错误率降到11.197%，其模型称作Clarifai[17]。

2014 年深度学习又取得了重要进展，在ILSVRC2014 比赛中，获胜者GooLeNet[18]将top5 错误率降到6.656%。它突出的特点是大大增加了卷积网络的深度，超过20 层，这在之前是不可想象的。很深的网络结构给预测误差的反向传播带了困难。因为预测误差是从最顶层传到底层的，传到底层的误差很小，难以驱动底层参数的更新。GooLeNet 采取的策略是将监督信号直接加到多个中间层，这意味着中间和低层的特征表示也需要能够准确对训练数据分类。如何有效地训练很深的网络模型仍是未来研究的一个重要课题。虽然深度学习在ImageNet 上取得了巨大成功，但是一个现实的问题是，很多应用的训练集是较小的，如何在这种情况下应用深度学习呢？

3.2 人脸识别

深度学习在物体识别上了另一个重要突破是人脸识别。人脸识别的最大挑战是如何区分由于光线、姿态和表情等因素引起的类内变化和由于身份不同产生的类间变化。这两种变化分布是非线性的且极为复杂，传统的线性模型无法将它们有效区分开。深度学习的目的是通过多层的非线性变换得到新的特征表示。该特征须要尽可能多地去掉类内变化，而保留类间变化。

人脸识别有两种任务，人脸确认和人脸辨识。人脸确认的任务是判断两张人脸照片是否属于同一个人，属二分类问题，随机猜的正确率是50%。人脸辨识的任务是将一张人脸图像分为N 个类别之一，类别是由人脸的身份定义的。这是个多分类问题，更具挑战性，其难度随着类别数的增多而增大，随机猜的正确率是1/N。两个任务都可以用来通过深度模型学习人脸的特征表达。

2013 年，[21]采用人脸确认任务作为监督信号，利用卷积网络学习人脸特征，在LFW 上取得了92.52%的识别率。这一结果虽然与后续的深度学习方法相比较低，但也超过了大多数非深度学习的算法。由于人脸确认是一个二分类的问题，用它学习人脸特征效率比较低。这个问题可以从几个方面理解。深度学习面临的一个主要问题是过拟合。作为一个二分类问题，人脸确认任务相对简单，容易在训练集上发生过拟合。与之不同，人脸辨识是一个更具挑战性的多分类问题，不容易发生过拟合，更适合通过深度模型学习人脸特征。另一方面，在人脸确认中，每一对训练样本被人工标注成两类之一，所含信息量较少。而在人脸辨识中，每个训练样本都被人工标注成N 类之一，信息量要大的多。

2014 年CVPR，DeepID[22]和DeepFace[23] 都采用人脸辨识作为监督信号，在LFW 上取得了97.45%和97.35%的识别率。他们利用卷积网络预测N 维标注向量，将最高的隐含层作为人脸特征。这一层在训练过程中要区分大量的人脸类别（例如在DeepID 中要区分1000类人脸），因此包含了丰富的类间变化的信息，而且有很强的泛化能力。虽然训练中采用的是人脸辨识任务，得到特征可以应用到人脸确认任务，以及识别训练集中没有新人。
例如LFW 上用于测试的任务是人脸确认任务，不同于训练中采用的人脸辨识任务；DeepID[22]和DeepFace[23]的训练集与LFW 测试集的人物身份是不重合的。

通过人脸辨识任务学习得到的人脸特征包含了较多的类内变化。DeepID2[24]联合使用人脸确认和人脸辨识作为监督信号，得到的人脸特征在保持类间变化的同时最小化类内变化，从而将LFW 上的人脸识别率提高到99.15%。利用Titan GPU，DeepID2 提取一幅人脸图像的特征只需要35 毫秒，而且可以离线进行。经过PCA 压缩最终得到80 维的特征向量，可以用于快速人脸在线比对。在后续的工作中，DeepID2+[25]对DeepID2 通过加大网络结构，增加训练数据，以及在每一层都加入监督信息进行了进一步改进，在LFW 达到了99.47%的识别率。

一些人认为深度学习的成功在于用具有大量参数的复杂模型去拟合数据集。这个看法也是不全面的。事实上，进一步的研究[25]表明DeepID2+的特征有很多重要有趣的性质。例如，它最上层的神经元响应是中度稀疏的，对人脸身份和各种人脸属性具有很强的选择性，对局部遮挡有很强的鲁棒性。以往的研究中，为了得到这些属性，我们往往需要对模型加入各种显示的约束。而DeepID2+通过大规模学习自动拥有了这些引人注目的属性，其背后的理论分析值得未来进一步研究。

4. 深度学习在物体检测中的应用

深度学习也对图像中的物体检测带来了巨大提升。物体检测是比物体识别更难的任务。一幅图像中可能包含属于不同类别的多个物体，物体检测需要确定每个物体的位置和类别。深度学习在物体检测中的进展也体现在ImageNet ILSVRC 挑战中。2013 年比赛的组织者增加了物体检测的任务，需要在四万张互联网图片中检测200 类物体。当年的比赛中赢得物体检测任务的方法使用的依然是手动设计的特征，平均物体检测率，即meanAveraged Precision (mAP)，只有22.581%。在ILSVRC2014 中，深度学习将mAP 大幅提高到43.933%。较有影响力的工作包括 RCNN[10]，Overfeat[26]，GoogLeNet[18]，DeepID‐Net[27]，network in network[28]，VGG[29]，和spatialpyramid pooling in deep CNN[30]。被广泛采用的基于深度学习的物体检测流程是在RCNN[10]中提出的。首先采用非深度学习的方法（例如selective search[31]）提出候选区域，利用深度卷积网络从候选区域提取特征，然后利用支持向量机等线性分类器基于特征将区域分为物体和背景。DeepID‐Net[27]将这一流程进行了进一步的完善使得检测率有了大幅提升，并且对每一个环节的贡献做了详细的实验分析。此外深度卷积网络结构的设计也至关重要。如果一个网络结构提高提高
图像分类任务的准确性，通常也能使物体检测器的性能显著提升。

深度学习的成功还体现在行人检测上。在最大的行人检测测试集(Caltech[32])上，被广泛采用的HOG 特征和可变形部件模型[33]平均误检率是68%。目前基于深度学习最好的结果是20.86%[34]。在最新的研究进展中，很多在物体检测中已经被证明行之有效的思路都有其在深度学习中的实现。例如，联合深度学习[15]提出了形变层，对物体部件间的几何形变进行建模；多阶段深度学习[35]可以模拟在物体检测中常用的级联分类器；可切换深度网络[36]可以表达物体各个部件的混合模型；[37]通过迁移学习将一个深度模型行人检测器自适应到一个目标场景。

5. 深度学习用于视频分析

深度学习在视频分类上的应用总体而言还处于起步阶段，未来还有很多工作要做。描述视频的静态图像特征，可以采用用从ImageNet 上学习得到的深度模型；难点是如何描述动态特征。以往的视觉方法中，对动态特征的描述往往依赖于光流估计，对关键点的跟踪，和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图像，直接应用卷积网络[38]，在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单但更加有效的思路是通过预处理计算光流场，作为卷积网络的一个输入通道[39]。也有研究工作利用深度编码器(deep autoencoder)以非线性的方式提取动态纹理[40]，而传统的方法大多采用线性动态系统建模。在一些最新的研究工作中[41]，长短记忆网络（LSTM）正在受到广泛关注，它可以捕捉长期依赖性，对视频中复杂的动态建模。

6. 未来发展的展望

深度学习在图像识别中的发展方兴未艾，未来有着巨大的空间。本节对几个可能的方向进行探讨。在物体识别和物体检测中正趋向使用更大更深的网络结构。ILSVRC2012 中Alex Net 只包含了5 个卷积层和两个全连接层。而ILSVRC2014 中 GooLeNet 和 VGG 使用的网络结构都超过了20 层。更深的网络结构使得反向传播更加困难。与此同时训练数据的规模也在迅速增加。这迫切需要研究新的算法和开发新的并行计算系统更加有效的利用大数据训练更大更深的模型。

与图像识别相比，深度学习在视频分类中的应用还远未成熟。从ImageNet 训练得到的图像特征可以直接有效地应用到各种与图像相关的识别任务（例如图像分类、图像检索、物体检测和图像分割等等），和其它不同的图像测试集，具有良好的泛化性能。但是深度学习至今还没有得到类似的可用于视频分析的特征。要达到这个目的，不但要建立大规模的训练数据集（[42]最新建立了包含一百万YouTube 视频的数据库），还需要研究适用于视频分析的新的深度模型。此外训练用于视频分析的深度模型的计算量也会大大增加。

在与图像和视频相关的应用中，深度模型的输出预测（例如分割图或物体检测框）往往具有空间和时间上的相关性。因此研究具有结构性输出的深度模型也是一个重点。虽然神经网络的目的在于解决一般意义的机器学习问题，领域知识对于深度模型的设计也起着重要的作用。在与图像和视频相关的应用中，最成功的是深度卷积网络，它正是利用了与图像的特殊结构。其中最重要的两个操作，卷积和池化（pooling）都来自于与图像相关的领域知识。如何通过研究领域知识，在深度模型中引入新的有效的操作和层，对于提高图像识别的性能有着重要意义。例如池化层带来了局部的平移不变性，[27]中提出的形变池化层在此基础上更好的描述了物体各个部分的几何形变。在未来的研究中，可以将其进一步扩展，从而取得旋转不变性、尺度不变性、和对遮挡的鲁棒性。

通过研究深度模型和传统计算机视觉系统之间的关系，不但可以帮助我们理解深度学习成功的原因，还可以启发新的模型和训练方法。联合深度学习[15]和多阶段深度学习[35]是两个例子，未来这方面还可以有更多的工作。最然深度学习在实践中取得了巨大成功，通过大数据训练得到的深度模型体现出的特性（例如稀疏性、选择性、和对遮挡的鲁棒性[22]）引人注目，其背后的理论分析还有许多工作需要在未来完成。例如，何时收敛，如何取得较好的局部极小点，每一层变换取得了那些对识别有益的不变性，又损失了那些信息等等。最近Mallat 利用小波对深层网络结构进行了量化分析[43]，是在这一个方向上的重要探索。

深度学习在图像识别上的巨大成功，必将对于多媒体相关的各种应用产生重大影响。我们期待着更多的学者在不久的将来研究如何利用深度学习得到的图像特征，推动各种应用的快速进步。

7. 结束语

2012 年以来，深度学习极大的推动了图像识别的研究进展，突出体现在ImageNet ILSVRC 和人脸识别，而且正在快速推广到与图像识别相关的各个问题。深度学习的本质是通过多层非线性变换，从大数据中自动学习特征，从而替代手工设计的特征。深层的结构使其具有极强的表达能力和学习能力，尤其擅长提取复杂的全局特征和上下文信息，而这是浅层模型难以做到的。一幅图像中，各种隐含的因素往往以复杂的非线性的方式关联在一起，而深度学习可以使这些因素分级开，在其最高隐含层不同神经元代表了不同的因素，从而使分类变得简单。

深度模型并非黑盒子，它与传统的计算机视觉体统有着密切的联系，但是它使得这个系统的各个模块（即神经网络的各个层）可以通过联合学习，整体优化，从而性能得到大幅提升。与图像识别相关的各种应用也在推动深度学习在网络结构、层的设计和训练方法各个方面的的快速发展。我们可以预见在未来的数年内，深度学习将会在理论、算法、和应用各方面进入高速发展的时期，期待着愈来愈多精彩的工作对学术和工业界产生深远的影响。

王晓刚香港中文大学原文PDF下载

参考文献：
[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 323(99):533–536, 1986.
[2] J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei‐Fei. Imagenet: A large‐scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition,2009.
[3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proc.Neural Information Processing Systems,2012.
[4] G. B. Huang, M. Ramesh, T. Berg, and E.Learned‐Miler. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, University of Massachusetts, Amherst, 2007.
[5] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute and simile classifiers for face verification. In IEEE Int’l Conf. Computer Vision, 2009.
[6] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, 3(1):71–86, 1991.
[7] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[8] Y. Sun, X. Wang, and X. Tang. Deeply learned face representations are sparse, selective, and robust. arXiv:1412.1265, 2014.
[9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient‐based learning applied todocument recognition. Proceedings of the IEEE, 86:2278– 2324, 1998.
[10] R. Girshick, J. Donahue, T. Darrell, and J.Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[11] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.
[12] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[13] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[14] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[15] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[16] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi‐stage and deformable deep convolutional neural networks for object detection. arXiv:1409.3505, 2014.
[17] http://www.clarifai.com/
[18] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. arXiv:1409.4842, 2014.
[19] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson. Cnn features off‐the‐shelf: an astounding baseline for recognition. arXiv:1403.6382, 2014.
[20] Y. Gong, L. Wang, R. Guo, and S. Lazebnik.Multi‐scale orderless pooling of deepconvolutional activation features. arXiv:1403.1840, 2014.
[21] Y. Sun, X. Wang, and X. Tang. Hybrid deeplearning for computing face similarities. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[22] Y. Sun, X. Wang, and X. Tang. Deep learningface representation from predicting 10,000classes. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[23] Y. Taigman, M. Yang, M. Ranzato, and L.Wolf. Deepface: Closing the gap to humanlevelperformance in face verification. In Proc. IEEE Int’l Conf. Computer Vision andPattern Recognition, 2014.
[24] Y. Sun, X. Wang, and X. Tang. Deep learningface representation by joint identificationverification.In Proc. Neural Information Processing Systems, 2014.
[25] Y. Sun, X. Wang, and X. Tang. Deeplylearned face representations are sparse,selective, and robust. arXiv:1412.1265, 2014.
[26] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu,R. Fergus, and Y. Le‐ Cun. Overfeat:Integrated recognition, localization and detection using convolutional networks. InProc. Int’l Conf. Learning Representations,2014.
[27] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H.Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet:multi‐stage and deformable deepconvolutional neural networks for object detection. arXiv:1409.3505, 2014.
[28] M. Lin, Q.. Chen, and S. Yan. Network innetwork. arXiv:1312.4400v3, 2013.
[29] K. Simonyan and A. Zisserman. Very deepconvolutional networks for large‐scaleimage recognition. arXiv:1409.1556, 2014, 2014.
[30] K. He, X. Zhang, S. Ren, and J. Sun. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition. arXiv:1406.4729, 2014.
[31] J. R. R. Uijlings, K. E. A. Van de Sande, T.Gevers, and W. M. Smeulders. Selectivesearch for object recognition. InternationalJournal of Computer Vision, 104:154–171,2013.
[32] P. Dollar, C. Wojek, B. Schiele, and P. Perona.Pedestrian detection: A benchmark. In Proc.IEEE Int’l Conf. Computer Vision and PatternRecognition, 2009.
[33] P. Felzenszwalb, R. B. Grishick, D.McAllister,and D. Ramanan. Object detection with discriminatively trained part based models.IEEE Trans. PAMI, 32:1627–1645, 2010.
[34] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian Detection aided by DeepLearning Semantic Tasks,” arXiv 2014.
[35] X. Zeng, W. Ouyang, and X. Wang. Multistagecontextual deep learning forpedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[36] P. Luo, Y. Tian, X. Wang, and X. Tang.Switchable deep network for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[37] X. Zeng, W. Ouyang, and X. Wang. Deep learning of scene‐specific classifier for pedestrian detection. In Proc. European Conf. Computer Vision, 2014.
[38] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(1):221–231, 2013.
[39] K. Simonyan and A. Zisserman. Two‐Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199, 2014.
[40] X. Yan, H. Chang, S. Shan, and X. Chen, Modeling Video Dynamics with Deep Dynencoder. In Proc. European Conf. Computer Vision, 2015.
[41] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long‐term recurrent convolutional networks for visual recognition and description.arXiv:1411.4389, 2014.
[42] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei‐Fei. Large‐scalevideo classification with convolutional neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.

[43] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(8):1872 – 1886, 2013.

http://www.w2bc.com/Article/43154

你可能感兴趣的:(深度学习)

Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
改进yolov8工业缺陷检测+swin+transformer qq1309399183 计算机视觉实战项目集合 YOLO transformer 深度学习人工智能计算机视觉机器学习神经网络
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
改进yolov8缺陷检测+swin+transformer QQ_1309399183 计算机视觉实战项目集锦 YOLO transformer 深度学习人工智能计算机视觉 opencv 机器学习
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
开源AI图像工具—Stable Diffusion 蚂蚁在飞- 人工智能 stable diffusion
StableDiffusion是一种基于深度学习的生成式模型，用于图像生成、图像修复和风格转换等任务。它是由StabilityAI和CompVis团队联合开发的。StableDiffusion在生成高质量图像方面表现出色，并且是开源的，可以自由使用和扩展。StableDiffusion的核心技术1.扩散模型(DiffusionModels):•基于概率生成模型。•从噪声中逐步反向生成清晰的图像。•
机器学习：scikit-learn 和 Jupyter Notebook（推荐初学者使用google colab） wyc9999ww 机器学习 scikit-learn jupyter 人工智能 python
对于初学者来说，scikit-learn是一个理想的机器学习入门工具。不仅提供了丰富的算法和功能，还通过一致的API设计，确保能够快速上手并进行各种机器学习任务。通过使用scikit-learn，可以专注于理解和实践机器学习的核心概念，而不必过多担心底层实现细节。所以scikit-learn能轻松实现从数据预处理到模型训练和评估的完整流程。此外在推荐一个适合初学者的深度学习平台工具googleco
【深度学习】CrossEntropyLoss需要手动softmax吗？ zz的学习笔记本深度学习深度学习人工智能
【深度学习】CrossEntropyLoss需要手动softmax吗？问题：CrossEntropyLoss需要手动softmax吗？答案：不需要官方文档代码解释问题：CrossEntropyLoss需要手动softmax吗？之前用pytorch实现自己的网络时，使用CrossEntropyLoss的时候将网路输出经softmax激活层后再计算CrossEntropyLoss。答案：不需要调用了损
有趣的python代码实例_Python之路：200个Python有趣的小例子一网打尽 weixin_39845406 有趣的python代码实例
概述博主最近在学习python，看完了一整套学习视频，然后呃呃呃，还是用不太流畅。碰巧在全球最大的同性交友论坛GayHub(呸！是开源代码托管平台Github)上面发现了一个项目，该项目列举了200多个Python小例子，Python基础、Python坑点、Python字符串和正则、Python绘图、Python日期和文件、Web开发、数据科学、机器学习、深度学习、TensorFlow、Pytor
迁移学习与RBF神经网络 fanxbl957 人工智能理论与实践迁移学习神经网络人工智能
迁移学习与RBF神经网络一、引言在机器学习和深度学习领域，迁移学习和神经网络都是备受关注的重要技术。迁移学习旨在将从一个或多个源任务中学习到的知识应用到目标任务中，以加快目标任务的学习过程，提高学习效果，尤其在数据稀缺或训练资源有限的情况下展现出显著优势。而RBF（径向基函数）神经网络作为一种经典的神经网络结构，以其独特的函数逼近能力和良好的局部逼近特性，在众多领域取得了出色的性能表现。将迁移学习
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多