GADFLYGIS

高端论坛| 龚健雅院士：摄影测量与深度学习

http://www.360doc.com/content/18/0705/07/49314294_767816589.shtml

摄影测量与深度学习

龚健雅 , 季顺平

武汉大学遥感信息工程学院, 湖北武汉 430079

收稿日期：2017-11-30；修回日期：2018-03-28

基金项目：国家自然科学基金

第一作者简介：龚健雅, 男, 博士, 教授, 中国科学院院士, 长期从事地理信息理论和几何遥感基础研究。

E-mail:[email protected]

通信作者：季顺平

E-mail: [email protected]

摘要：深度学习正逐渐占领与“学习”相关的诸多研究领域，也对摄影测量这门学科造成冲击和促进。根据摄影测量学的定义：“利用光学像片研究被摄物体的形状、位置、大小、特性及相互位置关系”，其研究对象包括几何与语义。本文从这两个方面回顾和探讨深度学习目前的应用现状，并对其影响下的摄影测量的发展进行展望。在几何上，基于卷积神经元网络的学习架构已经广泛用于图像匹配、SLAM及三维重建，取得了较好的效果，但仍需进一步改进。在语义上，由于传统的手工设计方法未能将语义信息以工程化的形式确定并生成类似4D产品的各类语义“专题图”，语义部分长期受到忽视。深度学习强大的泛化能力、对任意函数的拟合能力及极高的稳定性，正使得专题图的自动制作成为可能。笔者通过道路网、建筑物、作物分类等应用实例，回顾已经取得的研究成果，并预计：利用光学像片生成高精度的语义专题图，在不远的未来即将实现；并可能成为摄影测量的一类标准产品。最后，针对几何和语义，分别介绍了笔者的两个相关研究：基于深度学习的航空图像匹配以及基于3D卷积神经元网络的精细农作物分类专题图自动提取。

关键词：深度学习卷积神经元网络摄影测量立体匹配专题图

Photogrammetry and Deep Learning

GONG Jianya , JI Shunping

Abstract: Deep learning has become popular and the mainstream in types of researches related to learning, and has shown its impact on photogrammetry.According to the definition of photogrammetry, a subject that researches shapes, locations, sizes, characteristics and inter-relationships of real objects from optical images, photogrammetry considers two aspects, geometry and semantics.From the two aspects, we review the history of deep learning and discuss its current applications on photogrammetry, and forecast the future development of photogrammetry.In geometry, the deep convolutional neural network (CNN) has been widely applied in stereo matching, SLAM and 3D reconstruction, and has made some effect but needs more improvement.In semantics, conventional empirical and handcrafted methods have failed to extract the semantic information accurately and failed to produce types of 'semantic thematic map' as 4D productions (DEM, DOM, DLG, DRG) of photogrammetry, which causes the semantic part of photogrammetry be ignored for a long time.The powerful generalization capacity, ability to fit any functions and stability under types of situations of deep leaning is making the automated production of thematic maps possible.We review the achievements that have been obtained in road network extraction, building detection and crop classification, etc., and forecast that producing high-accuracy semantic thematic maps directly from optical images will become reality and these maps will become a type of standard products of photogrammetry.At last, we introduce two current researches related to geometry and semantics respectively.One is stereo matching of aerial images based on deep learning and transfer learning; the other is fine crop classification from satellite special-temporal images based on 3D CNN.

Key words:

deep learning

convolutional neural network

photogrammetry

stereo matching

thematic map

1 简介

1.1 摄影测量学回顾

摄影测量学是一门“利用光学像片研究被摄物体的形状、位置、大小、特性及相互位置关系”的学科。摄影测量诞生于19世纪早期。1838年，物理学家惠斯顿发明了实体镜，第一次发现和定义了立体视觉。1839年，法国画家达盖尔发明了银版摄影法，并制作了世界上第一台真正的照相机。在此基础上，法国测量学家Fourcade首先发现了用立体照片可重建立体视觉，从而促成了摄影测量学的诞生[1]。摄影测量的第一个也是最重要的分支是航空摄影测量。1783年，西方的Montgolfier兄弟发明热气球，并第一次载人航行。1858年，法国摄影师纳达尔乘坐气球拍摄了世界上第一张航空影像。1903，莱特兄弟发明世界上第一架螺旋桨飞机。这些飞行技术的发展促成了能够大范围测图的航空摄影测量。而此前，人们只能利用大地测量技术进行测图。例如著名的数学家高斯绘制汉诺威公国的地图就花了30年。

20世纪开始后，物理和电子技术的进步持续推动着摄影测量的发展。1957年，第一颗卫星被发射到外太空，开启了卫星摄影测量与遥感研究领域。1960年开始，迅猛发展的计算机以及专业的解析测图仪使摄影测量进入解析摄影测量时代。光线的重现和交会不再依赖于此前的光学模拟仪器(60年代之前也因此称为模拟摄影测量时代)，而是以虚拟形式在计算机中实现。根据爱因斯坦的光量子假说和光电效应，1973年贝尔实验室的博伊尔和史密斯发明了电荷耦合器件(charge coupled device，CCD)[2]，促成数码相机和数字摄影测量时代的诞生。90年代末，无人机航摄逐渐兴起，其便捷、廉价的特性，是传统航摄的有益补充。2000年前后，各国陆续开始深空探测项目，比如中国的嫦娥登月和美国的火星探测。此外，地面测量、地下测量、水下测量、弹道测量、工业测量等也是摄影测量常见的应用研究领域。

在研究内容上，摄影测量以二维像片和被摄三维物体的几何关系为主流方向。在理论方法上，沿用笛卡儿开辟的解析几何，用代数方程表达二维或三维笛卡儿坐标系中所描绘的几何图形。如像点、物点、投影中心三点共线由共线条件方程表达；摄影基线、同名光线共面由核线方程表达。在模型解算上，由于测量中观测值固有的误差特性，以误差处理理论为指导。代表性理论是1795年高斯发明的最小二乘法和1959年德国的Schmid提出光束法区域网平差。此外，由于重建几何关系需要提取像片上的同名点，一些图像处理的内容也因此成为摄影测量的研究领域。20世纪后期，摄影测量学者提出了相关系数匹配、最小二乘匹配等经典立体匹配方法，21世纪开始，同样关注3D几何重建的计算机视觉也更加丰富了匹配方法。

虽然基于光学像片的2D/3D几何关系是摄影测量的主流，但根据摄影测量的定义，“物体的特性及其相互关系”，即语义部分也属于摄影测量学的研究内容。语义被忽略既有历史的原因也有技术上的困难。首先，从20世纪70年代开始，随着卫星成像技术的发展，摄影测量被扩展为摄影测量与遥感，图像解译任务因之成为遥感的课题。其次，摄影测量作为应用工程学科，需要为测绘等领域提供相当精度的各类地形图和专题图。然而，传统计算机分类和模式识别的方法难以达到所谓的“摄影测量精度(photogrammetric accuracy)”，而通常采用半自动或全人工判读法，所以研究进展缓慢。幸运的是，以深度学习为主流的人工智能方法开辟了关于“学习”的新航道，并把精度提高到前所未及的高度。例如，将恰当的深度神经元网络架构应用于航空图像的道路、建筑、水体等地物的自动提取，并实现高精度语义专题图，将为摄影测量学在语义方向的拓展提供新的契机，这也是本文的一个中心议题。

1.2 深度学习的历史

深度学习起源于20世纪中叶的人工智能。人工智能的两个主要流派分别是符号主义(symbolism)和联结主义(connectionism)。其中，符号主义者在1956年首次提出“人工智能”的概念，并统治了该领域近半个世纪；基于统计学习的思想被广泛应用于机器学习、计算机视觉，以及摄影测量与遥感。与此对应，联结主义起伏不定，经历了低谷，也经历了3次发展浪潮：20世纪40年代到60年代的控制论[3]、80年代到90年代的联结主义[4]及2006年之后的“深度学习”[5]。

在控制论时期，联结主义的代表性名词是“人工神经元网络”。事实上，当时这只是一个单层的线性模型：根据输入变量x、输出函数f(x，w)与已知标签y的一一对应关系，学习未知参量w。这种模型(又称为单层感知机)由于无法学习诸如XOR(异或)等非线性函数，而受到以明斯基为首的符号主义流派的批评；并造成第一次人工神经元网络的衰退。

在20世纪80年代，联结主义的概念被正式提出。当时符号主义流派依然是主流，但他们也有自己的麻烦：符号推理模型难以解释大脑神经元的工作原理。而联结主义者认为，将大量的简单计算单元连接在一起，就可以实现智能行为。并提出了“分布式表示”、“后向传播算法(back propagation)”、“长短期记忆(long short-term memory，LSTM)”等对今天的深度学习异常重要的思想和概念。然而，到了20世纪90年代中期，基于神经元网络的人工智能研究无法满足商业界的业务化需求，加上诸如SVM[6]等核方法，以及概率图模型(probabilistic graphic model，PGM)的盛行[7]，神经元网络再次衰退了。

2006年，Hinton的研究表明，采用一种逐层的贪心算法可实现深度神经元网络的训练[8]。而此前，训练一个多层神经网络被认为是不现实的。深度学习的概念由此浮出水面，新旗帜是：现在已经有能力训练一个深度网络，并且这个深度将赢得人工智能方法和实践上的突破。2012年，在ImageNet挑战赛中，深度学习的方法夺得第一，并一举超过传统机器学习方法10个百分点[9]；而第二至第四名相差不超过1%，显示了传统方法的天花板。随后的大量试验表明，无论在图像分类、物体识别、语音识别、遥感应用等关于学习和语义的研究领域，深度学习都占据上风。

符号主义流派的空间在缩小，但基于概率图模型[7]的方法也得到了广泛应用。此外，深度学习也有自身的缺陷。虽然理论上多层网络确实可能学习出最优的函数模型，但它无法解释该模型如何构建以及模型背后的含义，就像暗箱操作一样。目前，有些学者试图发现其背后的原理。如物理学者发现了量子力学中的重整化技术与深度学习能够精确对应[10]，神经科学和计算机科学家发现深度学习符合一种瓶颈理论[11]，即把大量次要信息挤出去，而留下真正有效的信息。当然，这些发现距离完整回答深度神经元网络如何学习仍处在初步阶段。

1.3 摄影测量与深度学习及计算机视觉的联系

除了自然语言处理(natural language processing，NLP)[12]，深度学习的最重要应用是在视觉图像上，如手写字体识别[13]、自然图像分类[9]和检索等。而摄影测量的研究对象就是视觉图像，因此深度学习的成功和蓬勃发展，使得摄影测量也成为最受益的学科之一。

在几何上，摄影测量中的研究内容包括：传感器的定位定姿、从2D像片重建3D几何。将深度学习应用于几何定位目前还未进入摄影测量研究领域，但已经出现在密切相关的计算机视觉的分支中：运动恢复结构(structure from motion，SfM)，以及机器人学的分支；同时定位与地图构建(simultaneous localization and mapping，SLAM)。根据文献[14]，深度学习方法的定位精度目前尚不能同传统的方法相比，相差约一个数量级。对于3D重建中的关键技术密集匹配，深度学习已经取得很好的应用效果。如在KITTI等标准数据集上[15]，前10名的方法都是深度学习方法。不过，虽然SGM等经典方法已经落在30名开外，但是经典方法是通用的，既可以用在自然图像中，也可以用于航空、航天图像。而深度学习方法则依赖于高精度、可靠的相似数据集。目前，完整的3D重建解决方案依然是经典方法一统天下。

在语义上，摄影测量中的研究内容就是采用智能方法为各行业提供专题图。摄影测量的应用特性使得它并不关心诸如特征描述、上下文关系等中间结果。这种端到端的模式(end-to-end)特别适用深度学习方法。目前，深度学习已经被广泛用于遥感图像的分类、识别、检索和提取。与在几何方面的欠佳表现不同，在语义上基本全面碾压了传统的方法。

最后简要讨论摄影测量、深度学习及计算机视觉的关系。1982年，Marr发表《视觉：从计算的视角研究人的视觉信息表达与处理》，是计算机视觉的开山之作。计算机视觉的最初研究：用计算机代替人眼，从图片中重建3D世界。与摄影测量在几何方面具有很高的重叠度。20世纪90年代，在语义方面计算机视觉开始蓬勃开展。其中运用了大量的机器学习知识。有学者分析指出机器学习与计算机视觉重叠度约在60%~70%，因此是非常紧密的两门学科。随着深度学习成为机器学习的主流，深度学习在计算机视觉中得到广泛应用。将深度学习引入到摄影测量中，特别是提高摄影测量后期语义处理的智能水平，是科学研究发展的必然途径。

2 方法

2.1 深度学习基本原理

深度学习是“表示学习(representation learning)”[16]的一种。表示学习的最大特点是不需要设计人工特征。它指计算机根据一套通用规则自动地学习出从输入到输出的最优特征表示的方法。表示学习可用于无监督分类，如自编码器(autoencoder)[17]。而在监督学习中，深度学习是表示学习的最佳代表。深度学习通过设定神经元网络层数、每层的参数(随机初始化)、迭代规则等，自动学习调整出最优的参数。这些参数的集合最终构成从输入到输出的特征表示。基本的多层神经元网络称为前馈神经网络(feedforward neural network)[18]。

前馈神经网络或多层感知机(multilayer perceptron，MLP)[19]是一种典型的深度学习模型。前馈网络定义一个映射y=f(x，w)，以x和y为已知条件，通过学习参数w的值，得到某个最优的近似函数f*。因此，前馈是指：仅由w和f得到输出y，而y不会反作用于模型f。若y反馈于f，则称为循环神经网络(recurrent neural network，RNN)[20]。RNN很少应用于图像中，摄影测量中常用的深度学习方法几乎都是MLP。

MLP由多个函数fi复合而成：f(x)=fn…(f2(f1(x)))，f1称为第一层，最后一层称为输出层，函数链的全长n称为网络的深度。在最后一层上，模型要求fn的输出接近于给定的标签y；在其他层上，训练数据〈x，y〉并未指出应该如何训练，这些层被称为隐藏层。基于深度学习的方法就是采用“表示学习”的策略去主动地学习各层的参数模型而非传统的手工设计。

当f作为一个线性模型时，它无法训练诸如XOR等非线性模型[21]。因此，在隐藏层中，需要扩展为一个非线性的函数，通常称为激活函数σ。激活的概念来自人类的神经元作用机理：将0看作不激活，1看作激活，则组成一个简单的非线性系统。目前，最常用的激活函数是整流线性单元(rectified linear unit，ReLU)[22]，即x′=max(0, x)。此时，一个典型的fi就是一个线性仿射变换再加上一个激活

式中，w称为权重模板或核函数；b称为偏置。在加上了这个非线性激活函数后，通过二层或以上的神经元网络就可以学习出XOR等复杂的非线性模型。

输出层函数fout要保证模型的输出y′与其对应的标签y尽可能一致。在摄影测量中的光束法平差中，通常取p-范式|y-y|′p最小(通常p=2)，并称之为代价函数。在深度学习中，也称为代价函数，或者损失函数(loss function)。除了最小化p-范式外，由最大似然估计导出的、给定样本与期望模型间的交叉熵也是常用的代价函数[23]。即

此外，和平差中的L-M算法[24]类似，对于损失函数也要考虑收敛性的问题。故常用的代价函数也包含正则化项

式中，y为标签；y′为模型的输出；L为损失函数；J为总代价函数；ϕ为正则化函数。

与光束法平差一样，要设定参数w和b的初始化及迭代规则。通过学者们的研究，w可初始化为随机小数。随机初值经过前馈网络传播后，得到的输出y′显然与标签y相距甚远。一个直观的想法是通过代价函数来反向逐层调整隐藏层中的参量w与b。这就是著名的梯度反向传播和链式法则[25]。标量的链式法则表达如下

式中，z=f(g(x))=f(y)。扩展到神经元网络中常用的矢量形式，即z=f(g(x))=f(y)，链式法则变为

将z理解为顶层的代价函数J，将x看作隐藏层中待修正的参量w和b；则得到z相对于每个参量的梯度。用高斯-牛顿法解算光束法平差时，其迭代的步骤是x′=x dx，即直接加上改正数。而在深度学习中，无法直接得到最优的改正数dx。通常的思路是：梯度自身反映了参量该向哪个方向修正，但并不确定具体的修正值；因此，在梯度的基础上，乘以一个很小的学习率λ，作为每次的迭代值

给定足够的训练样本，经过数百次乃至千万次的迭代训练(只要时间足够长)，基于前馈神经元网络的深度学习期望得到一组最优参量w和b，使得代价函数最小。

以上通过摄影测量中的光束法平差为类比，简单介绍了深度神经元网络的一些本质的概念和方法。

2.2 深度卷积神经元网络

2012年，Hinton课题组的一篇论文《基于卷积神经元网络的Imagenet分类》[9]引爆了整个机器学习和人工智能领域，也是至今为止深度学习中引用率最高的论文之一。卷积神经元网络(convolutional neural network，CNN)是一种特殊的前馈神经元网络，指那些至少在网络的某一层中采用卷积运算代替一般矩阵乘法的网络[26]。事实上，CNN与摄影测量的关系也同样密切。在摄影测量中，影像相关是一个入门级的概念，指判别图像间相似度的一种计算方法。相关(correlation)本质上就是卷积，或者说是卷积的一种变种，都属于线性时不变系统[27]。这两个概念的微小差异仅在于是否翻转模板。请注意，在深度学习中，常将相关也写作卷积。

除了拥有前馈神经元网络的基本特性外，卷积神经元网络包括三个明显的特征：稀疏连接、参数共享、池化。稀疏连接区别于传统神经网络的全连接。传统神经元网络采用矩阵乘法。如m个像元的图像，n个输出，则需要m×n个参数。然而，图像中兴趣特征可能只存在于图像上的一小块，而非整个图像。这与人眼看物体是一致的，眼睛(连同背后的脑处理机制)往往只专注于那些突出的特征，而选择性地忽略掉背景，称为“局部视野”。如果有k(k≪m)个像元可代表这个特征，那么，只要采用k个像元的卷积核，就能提取出该特征。同时，卷积操作的计算量仅为k×n。

参数共享对减少计算量和冗余同样具有积极的意义。以边缘特征提取为例。在深度学习中，系统需要主动去学习某个边缘特征(如水平边缘)，得到某个恰当的卷积核w。显然这个卷积核不但对某个图像上方的水平边缘敏感，而且对图像任何地方的水平边缘敏感，甚至对所有的成百上千的输入图像中的水平边缘都敏感。因此，仅需要学习一个卷积核w，就可无数次重复使用，以提取出样本中所有的水平边缘特征。这就体现了卷积(相关)的作用。而在全连接中，一般不采用参数共享策略，因此参数只被使用一次。

池化是卷积神经元网络中的一个必要组成部分。池化是去冗余的一种手段，指采用某个区域的统计量去简化该区域的神经元网络输出。如在图像某处有一个2×2像素的边缘，而以此为中心的4×4窗口中不存在其他边缘。显然边缘卷积核在边缘处有最大的输出，而在窗口的其他部分输出几乎为0。若认为没有必要将背景区域传递到下层，则可采用一种“最大池化”策略[28]，即取4×4窗口中的最大的响应作为该区域的输出，这时输出的大小变成2×2窗口。通常，每次池化都会使得输入图像减小，2×2池化对应图像长宽都缩小一半。

到目前为止，卷积神经元网络受到广泛研究和巨大推动。从2012年的AlexNet[9]开始，涌现了一批先进的卷积神经元网络架构，如ZFNet[29]、GoogleNet[30]、VGGNet[31]、ResNet[32]等，但CNN的本质依然是简单优雅的：卷积模板提取特征并激活、池化去除背景、前向传播计算代价、后向传播迭代收敛。图 1是一个针对遥感图像的以VGGNet为模板的CNN实例。样本大小为8×8像素，m、n分别代表遥感图像的波段和时相。首先设计卷积核(即边缘、颜色、纹理以及更抽象的待学习特征)的数量，32@8×8指从8×8的样本中提取32个特征。每一层典型的卷积网络包括3个处理流程：卷积、激活、池化。对于任意一个卷积核，在所有的图像的所有位置进行卷积操作；对于每一个卷积输出标量，选择恰当的激活函数并计算输出；最后根据池化策略，得到本卷积层的输出。图 1包括3个卷积层。经过三次池化后，图像的大小已经降低为1×1的像素，此后接2个全连接层，最后一个全连接层也是输出层。诸如图 1的看似简单的CNN有着巨大的威力，在图像分类、物体识别、检索中基本上全面超越了传统的机器学习方法。

图1 卷积神经元网络实例

Fig.1 An example of convolutional neural network

2.3 深度学习在摄影测量几何方面的应用和展望

深度学习目前在几何中主要有两类应用。第一类是用于相机定位。将几何定位问题归结为深度学习，首先需要考虑：如何将一个优化问题(同时也是一个回归问题)纳入深度学习框架。2015年，PoseNet[14]第一次将CNN应用到相机的定位定姿中，可能也是迄今为止唯一较成熟的基于CNN的SLAM系统，并在2016年提出基于贝叶斯CNN的新版本[33]。PoseNet采用四元数表达角度，因此参数空间维度为7，即p=[x q]。采用二次范式(即最小二乘)，损失函数表达为

β为角度和位置参数间的量纲比例。对于一个分类问题，解空间是类别标签。可以为每个类别设定有限的离散标签。然而回归问题的解空间是无限、连续的，因此无法采用SoftMax等判决函数。PoseNet在GoogleNet基础上进行了改进。添加一个2048维度的全连接层，此后再加入一个7维全连接层，最后将SoftMax层移除并替换为以上损失函数。PoseNet利用传统的从运动恢复结构的方法(SfM)得到传感器的位置和姿态，每张图像对应一个位置(即标签)。此外，PoseNet也利用了迁移学习，将ImageNet和Places的训练结果作为初值参与后继训练，并提高了定位精度。目前，定位精度分别为户外2 m和3°，户内0.5 m和5°。距离经典的空中三角测量、SfM和SLAM所能达到的精度尚有一定的差距。

深度学习在几何上的第二个应用是3D重建。根据2D图像重建3D场景是摄影测量与计算机视觉共同的本质命题。虽然从2D到3D的重建涉及一些图像处理和特征表示知识，但是它仍属于一个几何问题。密集匹配是3D重建中的关键部分。2016年，Zbontar和LeCun的一篇文章(mc-CNN)[34]是开启深度学习进军立体匹配的代表作。mc-CNN利用CNN来学习匹配代价(matching cost)。传统的匹配代价包括亮度绝对值差异、相关系数、欧氏距离、交叉熵等，这些代价往往不是最优的，会受到亮度突变、视差突变、无纹理或重复纹理、镜面反射等影响。而深度学习方法试图通过更复杂的模式学习出对这些不利因素稳健的匹配代价。最终，这篇文章在KITTI和Middlebury数据集上得到了比绝对亮度差、census和归一化相关系数等匹配代价更低的错误率。此后，用深度学习进行立体匹配成了热门课题。许多学者纷纷提出各类匹配算法，如SGM-Net[35]、DispNetC[36]、Content-CNN[37]等。在KITTI测试集上，前30名几乎都是深度学习算法。自从1982年Marr创立计算机视觉开始[38]，3D几何重建就是计算机视觉的核心。当时的想法过于浪漫：既然有了Marr理论，实现3D重建只需一个夏天。事实上，直到今天这个问题也没有完全解决。虽然计算机视觉已经开辟广阔的研究空间，但该学科的最基本问题依然望而不及。这也解释了利用深度学习进行3D重建的热度所在。除了利用深度神经元网络学习匹配代价，另外一类方法是采用端到端的策略，即从立体像对直接学习出深度图(视差图)。2017年，Kendall等提出GC-Net[39]。其核心思想是：将视差看作图像外的第三维，即处理对象变成3D张量。然后，由3D卷积学习几何与语义特征，直接得到最优的视差图(即3D张量中的一个曲面)。相对于2D图像的学习，这种3D方法需要更大的显存空间。目前，处理计算机视觉中的自然图像尚且困难，处理大视差的遥感图像目前在微机上还遥不可及。

虽然深度学习方法在有限的测试集上表现优异，但是并不能说明它的普适性。在短期内，构造性的经典方法，如多视SGM，依然是2D到3D几何重建的主流。而基于端到端的立体匹配方法具有较强的冲击力，伴随更强计算能力的GPU的普及和更多学者的参与改进，极有可能超越经典方法。

2.4 深度学习在摄影测量语义方面的应用

深度学习在遥感图像语义提取方面的应用刚刚起步并逐渐普及。以下将从各类地物语义专题图出发，回顾深度学习的具体应用。

遥感图像建筑、道路网等地物的提取一直是数十年来的热门课题。虽然经典方法取得一定的效果，但距离实用、市场、商业软件尚有一定的距离。CNN目前正成为道路网提取的主流方法。文献[35]通过级联式端到端CNN同时实现了道路网提取及道路中心线提取，与其他方法比较，达到了更高的分类精度。文献[40]通过CNN结合线积分卷积克服了树木遮蔽、房屋阴影所造成的道路网残缺问题。文献[41]通过非监督学习预处理和空间相关性的应用，利用深度学习极大地提高了复杂城市场景的道路提取精度。文献[42-43]均为使用深度学习的方法进行道路提取并取得了良好的效果。

建筑物、农作物、水体等专题的提取相对道路而言较少，但预期会有许多相关文献近期发表。文献[44]采用CNN实现高分辨率多光谱卫星影像的建筑物提取。首先采用AlexNet提取特征，最后的全连接层用于训练SVM分类器并采用MRF模型精化。作物精细分类是摄影测量与遥感在农业中的重要应用。文献[45]在影像平面上进行2D卷积，在光谱方向上进行1D卷积，分别提取出影像空间特征和光谱特征，取得了比随机森林和全连接MLP更好的作物分类精度。文献[46]将CNN用于土地利用分类。文献[47]中也较全面地总结了深度学习在遥感方向的应用。

上述研究具有一定的积极意义，但目前显然还未实现遥感图像语义专题图的全自动提取。为了从本质上解决该问题，需要考虑两点。

第一点是恰当的迁移学习方法。目前ImageNet等庞大的数据库来自大众摄影图像，并不包括鸟瞰航摄图像和卫星遥感图像。照片的标注诸如人、大象或椅子；遥感图像中的标注诸如耕地、建筑、森林等。若直接将这些数据库训练得到的模型，用来进行遥感图像直接分类，就要考虑迁移学习。迁移学习是将A数据集中训练好的模型，应用在B数据集上。A与B可能是同源的，也可能存在巨大差异。这就要进一步发掘完善的迁移学习机制。以上文献几乎都存在训练集过小的问题，因此应用到其他场景可能错误率显著提高。

第二点是建立针对遥感图像的开源的、完备的标签数据库。涵盖足够多的地物类别，每个类别包括足够多的样本。这样的数据库是摄影测量与遥感走向“自动化专题制图”的必经之路。然而，实现难度要比千万图像级别的ImageNet更大。首先，由于远距成像的特性，图像受到更多电磁辐射传输的影响。经过大气传播的电磁辐射与地物间的相互作用机理更加复杂，同一标签的样本往往呈现明显的差异。这种差异不但对样本的选取造成不便，而且对深度学习模型的可区分性提出更大的挑战。第二，众包模式并不能完全起作用。普通人可能很好地辨认出诸如猫与狗的区别，因此通过互联网众包能够快速构建一个巨大的标注数据库；但是，小麦和水稻在遥感图像上的差异，则需要专业人员的目视判读。若影像分辨率较低，甚至可能需要实地调查。第三，摄影测量与遥感界的科研模式尚需向开源发展。目前，遥感学界已经开始走向开源模式，希望由公司、政府或科研机构能够在短期内建立的针对遥感图像分类的标签数据库，并实现完全开源。

有了足够的数据标签库或恰当的迁移学习方法，并借助深度学习的泛化能力，可以预期未来摄影测量与遥感专题制图的精度将比传统的特征分类方法得到明显的改进。

3 已有的研究工作

本节介绍深度学习在摄影测量学中两个较有代表性的应用。一是关于立体匹配和迁移学习。如上所述，计算机视觉所面对的数据源主要是大众图像和自然图像。而摄影测量主要面对航空、航天遥感图像。将大众图像训练获得的深度学习模型，通过一定的方式应用到遥感图像中，是一个迁移学习的过程。迁移学习是深度学习在摄影测量(及其他领域)中体现泛化能力的重要概念，同时立体匹配是摄影测量以及计算机视觉的核心命题；笔者尝试将这二者结合，期望得到当前最先进的结果。

二是关于深度学习在遥感时空数据中的应用。除了运动摄影，计算机视觉中的自然图像多为静态图像。摄影测量与遥感则不然。大部分遥感图像为时空数据，即存在一个额外的时间维度，对应变化、变迁、长势、趋势、动力学等。传统的基于2D CNN的2D卷积核在理论上只能提取2D信息，因此可能无法在时空数据中取得最佳的效果。如文献[45]等作物分类方法忽略了时相信息。笔者以多时相多光谱农业遥感数据为例，引入3D卷积和3D CNN更好地提取作物生长时序特征，并得到更精细的作物分类专题图。

3.1 基于深度学习和迁移学习的立体匹配

KITTI2012和KITTI2015是标准的立体匹配测试数据集[15]。数据包括纠正后的立体图像(即核线立体图像)与深度图，分别由安装在车辆上的立体相机和LIDAR获取。KITTI2012和KITTI2015各包含约200景图像。针对该数据集，目前许多立体匹配算法都公布了在该数据集上的测试结果。根据网站实时信息，深度学习的方法占据前10，SGM约排在30名左右。

如何有效地将KITTI数据集的训练模型应用于航空遥感图像密集匹配是兴趣点。数据为20幅航空图像，同时以LIDAR点云获取的深度图作为参考基准。受显卡容量限制，将航空图像裁剪到1000×300像素大小，并生成384幅立体像对用于测试。由于传统立体匹配的方法并不需要训练集，为公平起见，只在开源的KITTI数据集上训练模型，然后将模型直接应用于航空数据集上。训练和测试在Nvidia显卡Titan Xp上执行。表 1列出了SGM、SURE软件、MC-CNN[34]及GC-NET[35]的比较结果。前二者为经典的立体视觉方法，后二者是深度学习方法的代表作。其中，MC-CNN只学习匹配代价，其他代价聚合、一致性检验部分与SGM相同；而GC-NET是一种端到端的从立体像对直接获取深度图的CNN方法。表 1的结果显示，SGM的精度最低，而SURE最高。MC-CNN和GC-NET近似相等。比SGM要高出5个百分点，但比SURE低将近2个百分点。括号中的数值表示：如果采用航空影像数据自身进行训练，能达到的精度(训练集与测试集容量比例约为2：1)。图 2是较有代表性的一幅立体像对。左边是平地，右边是有层次的建筑物。图 2(c)和图 2(d)分别为SGM和深度学习的结果。这两种方法的唯一区别是代价函数的差异。绿色为正确匹配点，红色为错误点。无论是SGM还是深度学习的方法都在平地区域表现优秀。而在复杂的建筑物区，MC-CNN则更加优异。在深度急剧变化的边缘，SGM明显失误更多。虽然SURE的精度要比深度学习方法略高，但SURE用到了多视匹配的策略，而深度学习方法只利用了立体约束条件。因此，可以预见深度学习方法将会有很大的提升空间。

表 1 各类方法在航空测试集上的错误率

Tab. 1 Results of different stereo methods on aerial dataset

图2 SGM(c)与MC-CNN(d)结果比较

Fig.2 Results comparison between SGM and MC-CNN

3.2 基于3D卷积的时空农业数据精细分类专题图

试验数据包括两套2015年不同区域的高分2号(GF-2)数据(表 2)。数据1含4波段(红外、红、绿、蓝)4时相(6、7、8和9月)。根据目视判别的结果，影像覆盖区域内主要地物为玉米、树木、水稻和高粱。对各地物类随机选取训练样本400个，测试样本2000个。数据2含4波段(红外、红、绿、蓝)7时相(6月17日、7月8日、7月27日、9月9日、9月19日、11月7日和11月17日)。影像范围内主要地物为：道路、荒草地、居民地、空地、林带、湿地、水稻、水面、秧地和玉米。随机选取训练样本3180个，测试样本890个。以数据一为例，单通道样本窗口大小为8×8，每个样本块大小为16×8×8。其中16通道的顺序是：先红外波段的4个时相，再红波段的4个时相，以此类推。

表 2 试验数据信息

Tab. 2 The information of the experimental data

本次试验的目的是为了验证在作物分类中，理论上更优秀的3D CNN是否更好地作用于多时相数据，并与2D CNN以及传统分类方法对比。

采用了图 3所示的针对多光谱多时相数据的网络架构。其中，原始输入m@n×8×8指：样本大小为n×8×8的张量，n为时相，8×8为单通道的宽和高，m为光谱段。32@则指当前层的神经元个数为32。该架构采用了3层3D卷积神经元网络和2层全连接层。

图3 多光谱多时相遥感数据分类的3D网络架构

Fig.3 The 3D CNN for multi-spectral multi-temporal remote sensing data classification

表 3对比了2D CNN、3D CNN、SVM、KNN、PCA KNN的测试精度与全图分类精度。可以看出，在两类精度上，CNN要高于SVM、KNN和PCA等方法；3D CNN略优于2D CNN。图 4为不同方法对高分2号两套数据进行全图分类的结果图。

表 3 不同方法训练精度及分类精度对比

Tab. 3 Comparison of different methods on test accuracy and pixel wise classification

图4 高分2号数据1不同方法分类效果图

Fig.4 Classification results of different methods of GF2 data 1

本次试验与计算机视觉中的大量关于图像标签分类文献的结果相符合。在遥感图像的分类中，基于CNN的方法同样超越了传统的分类方法。在此基础上，引入了3D卷积，应对多时相多光谱数据，并得到了比2D CNN更好的分类精度。

4 结论

本文首先回顾了摄影测量与深度学习的历史，并分析了二者间的紧密联系。然后，介绍了深度学习以及卷积神经元网络的基本思想；分析了摄影测量与遥感、计算机视觉、机器学习等领域的相关发展。最后，结合笔者的研究介绍了深度学习在图像立体匹配和作物分类专题图提取中的应用。

得到以下结论：第一，目前深度学习并不适合摄影测量中纯几何领域，其定位、定向精度低于光束法区域网平差、SfM、SLAM等经典方法。第二，在图像匹配和3D几何重建中，深度学习表现出色，在标准数据集上遥遥领先，但是目前的主流3D重建算法依然以多视SGM等经典方法为核心，深度学习可能需要更庞大的训练集才能做到真正的领先。第三，在图像语义提取和分类中，深度学习方法已经全面领先于传统的机器学习方法，但目前迫切需要更庞大、更专业的遥感标签数据库以训练更好的模型。最后，利用深度学习的学习和泛化能力，端到端地实现遥感图像到语义专题图的提取，将为现代摄影测量的发展提供契机。

此外，本文借鉴迁移学习的思想，研究了基于深度学习的航空图像密集匹配，并取得比SGM更好的结果。同时，首次采用3D CNN提取作物的时空生长趋势，并取得比传统分类方法和2D CNN更好的作物精细分类专题图。这两个试验作为抛砖引玉，期待相关学者发展更好的深度学习算法并自动化、智能化地应用到摄影测量领域；最终实现摄影测量定义中“几何”与“语义”的完备性。

【引文格式】龚健雅, 季顺平. 摄影测量与深度学习[J]. 测绘学报，2018，47(6)：693-704. DOI: 10.11947/j.AGCS.2018.20170640

来源：测绘学报（版权归原作者及刊载媒体所有）

你可能感兴趣的:(测绘地理信息,航空摄影,影像处理,人工智能,GIS地理信息系统,RS遥感)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb