Tom Hardy

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/55747295

编辑丨3D视觉工坊

还是做一些背景介绍。已经是很热的深度学习，大家都看到不少精彩的故事，我就不一一重复。

简单的回顾的话，2006年Geoffrey Hinton的论文点燃了“这把火”，现在已经有不少人开始泼“冷水”了，主要是AI泡沫太大，而且深度学习不是包治百病的药方。

计算机视觉不是深度学习最早看到突破的领域，真正让大家大吃一惊的颠覆传统方法的应用领域是语音识别，做出来的公司是微软，而不是当时如日中天的谷歌。计算机视觉应用深度学习堪称突破的成功点是2012年ImageNet比赛，采用的模型是CNN，而不是Hinton搞的RBM和DBN之类，就是Hinton学生做出来以他命名的AlexNet。

（注：顺便提一下，2010年的ImageNet冠军是余凯/林元庆领导的NEC和UIUC Tom Huang组的合作团队，当时采用的方法是基于sparse coding+SVM。）

当然，真正一直在研究CNN的专家是Yann LeCun，小扎后来拉他去FB做AI research的头。第一个CNN模型就是他搞出来的，即LeNet，原来就是做图像数字识别。不得不说，CNN非常适合2-D信号的处理任务，RNN呢，是时域上的拓展。

现在CNN在计算机视觉应用的非常成功，传统机器学习方法基本被弃之不用。其中最大的一个原因就是，图像数据的特征设计，即特征描述，一直是计算机视觉头痛的问题，在深度学习突破之前10多年，最成功的图像特征设计 (hand crafted feature)是SIFT，还有著名的Bag of visual words，一种VQ方法。后来大家把CNN模型和SIFT比较，发现结构还蛮像的：），之后不是也有文章说RNN和CRF很像吗。

CNN从AlexNet之后，新模型如雨后春笋，每半年就有新发现。这里随便列出来就是，ZFNet (也叫MatNet)，VGGNet， NIN， GoogleNet (Inception)， Highway Network， ResNet， DenseNet，SE-Net（Squeeze and Excitation Net），。。。基本上都是在ImageNet先出名的：）。

简单回顾一下：

·AlexNet应该算第一个深度CNN；
·ZFNet采用DeconvNet和visualization技术可以监控学习过程；
·VGGNet采用小滤波器3X3去取代大滤波器5X5和7X7而降低计算复杂度；
·GoogleNet推广NIN的思路定义Inception基本模块（采用多尺度变换和不同大小滤波器组合，即1X1，3X3，5X5）构建模型；
·Highway Networks借鉴了RNN里面LSTM的gaiting单元；
·ResNet是革命性的工作，借鉴了Highway Networks的skip connection想法，可以训练大深度的模型提升性能，计算复杂度变小；
·Inception-V3/4用1X7和1X5取代大滤波器5X5和7X7，1X1滤波器做之前的特征瓶颈，这样卷积操作变成像跨通道（cross channel）的相关操作；
·DenseNet主要通过跨层链接解决vanishing gradient问题；
·SE-Net是针对特征选择的设计，gating机制还是被采用；
·前段时间流行的Attention机制也是借鉴于LSTM，实现object-aware的context模型。

在具体应用领域也出现了不少成功的模型，比如

·detection问题的R-CNN，fast RCNN，faster RCNN，SSD，YOLO，RetinaNet，CornerNet等，
·解决segmentation问题的FCN，DeepLab，Parsenet，Segnet，Mask R-CNN，RefineNet，PSPNet，U-Net等，
·处理激光雷达点云数据的VoxelNet，PointNet，BirdNet，LMNet，RT3D，PIXOR，YOLO3D等，
·实现激光雷达和图像融合的PointFusion，RoarNet，PointRCNN，AVOD等，
·做图像处理的DeHazeNet，SRCNN (super-resolution)，DeepContour，DeepEdge等，
·2.5 D视觉的MatchNet，DeepFlow，FlowNet等，
·3-D重建的PoseNet，VINet，Perspective Transformer Net，SfMNet，CNN-SLAM，SurfaceNet，3D-R2N2，MVSNet等，
·以及解决模型压缩精简的MobileNet，ShuffleNet，EffNet，SqueezeNet，
·。。。

下面我们针对具体应用再仔细聊。

一、先说图像/视频处理（计算机视觉的底层，不低级）。

图像处理，还有视频处理，曾经是很多工业产品的基础，现在电视，手机还有相机/摄像头等等都离不开，是技术慢慢成熟了（传统方法），经验变得比较重要，而且芯片集成度越来越高，基本上再去研究的人就少了。经典的ISP，A3，都是现成的，当然做不好的也很难和别人竞争，成本都降不下来。

这是一个典型成像处理的流程图：

经典的ISP流程图如下：

图像处理，根本上讲是基于一定假设条件下的信号重建。这个重建不是我们说的3-D重建，是指恢复信号的原始信息，比如去噪声，内插。这本身是一个逆问题，所以没有约束或者假设条件是无解的，比如去噪最常见的假设就是高斯噪声，内插实际是恢复高频信号，可以假设边缘连续性和灰度相关性，著名的TV（total variation）等等。

以前最成功的方法基本是信号处理，机器学习也有过，信号处理的约束条件变成了贝叶斯规则的先验知识，比如sparse coding/dictionary learning，MRF/CRF之类，现在从传统机器学习方法过渡到深度学习也正常吧。

1 去噪/去雾/去模糊/去鬼影；

先给出一个encoder-decoder network的AR-CNN模型（AR=Artifact Reduction）：

这是一个图像处理通用型的模型框架：

2 增强/超分辨率（SR）；

Bilateral filter是很有名的图像滤波器，这里先给出一个受此启发的CNN模型做图像增强的例子：

前面说过内插的目的是恢复失去的高频信息，这里一个做SR的模型就是在学习图像的高频分量：

3 修补/恢复/着色；

用于修补的基于GAN思想的Encoder-Decoder Network模型：

用于灰度图像着色（8比特的灰度空间扩展到24比特的RGB空间）的模型框架：

二、还有计算机视觉的预处理（2-D）。

计算机视觉需要图像预处理，比如特征提取，包括特征点，边缘和轮廓之类。以前做跟踪和三维重建，首先就得提取特征。特征点以前成功的就是SIFT/SURF/FAST之类，现在完全可以通过CNN形成的特征图来定义。

边缘和轮廓的提取是一个非常tricky的工作，细节也许就会被过强的图像线条掩盖，纹理（texture）本身就是一种很弱的边缘分布模式，分级（hierarchical）表示是常用的方法，俗称尺度空间（scale space）。以前做移动端的视觉平台，有时候不得不把一些图像处理功能关掉，原因是造成了特征畸变。现在CNN这种天然的特征描述机制，给图像预处理提供了不错的工具，它能将图像处理和视觉预处理合二为一。

1 特征提取；

LIFT（Learned Invariant Feature Transform）模型，就是在模仿SIFT：

2 边缘/轮廓提取；

一个轮廓检测的encoder-decoder network模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第10张图片

3 特征匹配；

这里给出一个做匹配的模型MatchNet：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第11张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第12张图片

三、再说2.5-D计算机视觉部分（不是全3-D）。

涉及到视差或者2-D运动的部分一般称为2.5-D空间。这个部分和前面的2-D问题是一样的，作为重建任务它也是逆问题，需要约束条件求解优化解，比如TV，GraphCut。一段时间（特别是Marr时代）计算机视觉的工作，就是解决约束条件下的优化问题。

后来，随机概率和贝叶斯估计大行其事，约束条件变成了先验知识（prior），计算机视觉圈里写文章要是没有 P (Probability) 和 B (Bayes)，都不好意思发。像SVM， Boosting，Graphical Model，Random Forest，BP（Belief Propagation），CRF（Conditional Random Field），Mixture of Gaussians，MCMC，Sparse Coding都曾经是计算机视觉的宠儿，现在轮到CNN出彩：）。

可以说深度学习是相当“暴力”的，以前分析的什么约束呀，先验知识呀在这里统统扔一边，只要有图像数据就可以和传统机器学习方法拼一把。

1 运动/光流估计；

传统的方法包括局部法和全局法，这里CNN取代的就是全局法。

这里是一个光流估计的模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第13张图片

2 视差/深度图估计；

深度图估计和运动估计是类似问题，唯一不同的是单目可以估计深度图，而运动不行。

这里是一个双目估计深度图的模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第14张图片

而这个是单目估计深度图的模型：巧妙的是这里利用双目数据做深度图估计的非监督学习

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第15张图片

另外一个单目深度估计的模型：也是利用双目的几何约束做非监督的学习

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第16张图片

3 视频去隔行/内插帧；

Deinterlacing和Framerate upconversion视频处理的经典问题，当年Sony和Samsung这些电视生产商这方面下了很大功夫，著名的NXP（从Philips公司spin-off）当年有个牛逼的算法在这个模块挣了不少钱。

基本传统方法都是采用运动估计和补偿的方法，俗称MEMC，所以我把它归类为2.5-D。前面运动估计已经用深度学习求解了，现在这两个问题自然也是。

首先看一个做MEMC的模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第17张图片

这是做Deinterlacing的一个模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第18张图片

这是Nvidia的Framerate Upconversion方面模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第19张图片

因为它采用optic flow方法做插帧，另外附上它的flow estimation模型：就是一个沙漏（hourglass）模式

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第20张图片

4 新视角图像生成；

刚才介绍单目估计深度图的时候，其实已经看到采用inverse warping方法做新视角生成的例子，在IBR领域这里有一个分支叫Depth Image-based Rendering （DIBR）。

和上个问题类似，采用深度图学习做合成图像，也属于2.5-D空间。在电视领域，曾经在3-D电视界采用这种方法自动从单镜头视频生成立体镜头节目。以前也用过机器学习，YouTube当年采用image search方法做深度图预测提供2D-3D的内容服务，但性能不好。现在感觉，大家好像不太热衷这个了。

这是一个产生新视角的模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第21张图片

而这个是从单镜头视频生成立体视频的模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第22张图片

有做编码/解码的，也是采用运动或者相似变换为基础，但性能不如传统方法，这里忽略。

四、下面谈谈3-D，基于多视角（MVS）/运动（SFM）的重建，后者也叫SLAM。

这部分就是经典的计算机视觉问题：3-D重建。

基本上可以分成两种路径：一是多视角重建，二是运动重建。前一个有一个经典的方法MVS（multiple view stereo），就是多帧匹配，是双目匹配的推广，这样采用CNN来解决也合理。当年CMU在Superbowl展示的三维重建和视角转化，轰动一时，就是基于此路径，但最终没有被产品化（技术已经转让了）。

后一个在机器人领域成为SLAM，有滤波法和关键帧法两种，后者精度高，在稀疏特征点的基础上可以采用BA（Bundle Adjustment），著名的方法如PTAM，ORB-SLAM1/2，LSD-SLAM，KinectFusion（RGB-D），LOAM和Velodyne SLAM（LiDAR）等。如今SLAM已经成为AR产业的瓶颈，看看MagicLeap和HoloLens，大家不能总是在平面检测基础上安一个虚拟物体吧，真正的虚实结合是在一个普通的真实环境里才行。

想想像特征点匹配，帧间运动估计，Loop Closure检测这些模块都可以采用CNN模型解决，那么SLAM/SFM/VO就进入CNN的探索区域。

1 标定；

Calibration是计算机视觉的经典问题，摄像头作为传感器的视觉系统首要任务就是要确定自己观测数据和3-D世界坐标系的关系，即标定。摄像头标定要确定两部分参数，一是内参数，二是外参数。对于有多个传感器的视觉系统，比如深度测距仪，以前有Kinect RGB-D，现在有Velodyne激光雷达，它们相互之间的坐标系关系是标定的任务。

外参数标定的完成帮助是校准数据，比如激光雷达的点云，RGB-D的深度图，还有摄像头的图像像素集，它们一定存在一个最佳匹配标准，这就可以通过数据训练NN模型来完成。而标定参数就是NN模型回归输出的结果。

这里是一个激光雷达和摄像头标定的系统框图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第23张图片

它的模型CalibNet结构视图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第24张图片

2 Visual Odometry（VO）;

VO属于SLAM的一部分，只是估计自身运动和姿态变化吧。VO是特斯拉的前Autopilot2.0负责人David Nister创立的，他之前以两帧图像计算Essential Matrix的“5点算法”而出名，现在是Nvidia的自动驾驶负责人，公司VP。

这里是一个和惯导数据结合的VIO（Visual-Inertial Odometry）NN模型：

这是著名的AR创业公司MagicLeap提出的VO模型：两部分组成，即特征提取和匹配（Homography）。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第25张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第26张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第27张图片

顺便加一个，激光雷达数据做Odometry的CNN模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第28张图片

3 SLAM (Mono, Stereo, RGB-D, LiDAR)/SFM；

运动恢复结构是基于背景不动的前提，计算机视觉的同行喜欢SFM这个术语，而机器人的peers称之为SLAM。SLAM比较看重工程化的解决方案，SFM理论上贡献大。

先看一个单摄像头的SFM系统框图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第29张图片

它的NN模型SFM-Net，包括Motion和Structure两部分：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第30张图片

再附上一个SLAM的模型CNN-SLAM：主要是加上一个单目深度图估计的CNN模块。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第31张图片

这是一个用CNN的基于Lidar的localization方法：不仅需要点云数据，还输入反射值灰度图。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第32张图片

图像像素运动是optic flow，而3-D场景的运动称之为scene flow，如果有激光雷达的点云数据，后者的估计可以通过ICP实现，这里给出一个CNN模型的实现方法FlowNet3D，是PointNet的扩展：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第33张图片

4 MVS；

MVS的传统方法可以分成两种：region growing和depth-fusion，前者有著名的PMVS，后者有KinectFusion，CNN模型求解MVS的方法就是基于此。

先看看一个做MVS任务的基于RNN中LSTM的3D-R2N2模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第34张图片

它的系统框图如下：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第35张图片

UIUC/Facebook合作的DeepMVS模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第36张图片

这是他们的系统框图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第37张图片

现在看到的是Berkeley分校Malik组提出的LSM（Learnt Stereo Machine ）模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第38张图片

下面是最近香港权龙教授组提出的MVSNet模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第39张图片

五、核心部分是计算机视觉的高层：环境理解。

这部分是深度学习在计算机视觉最先触及，并展示强大实力的部分。出色的工作太多，是大家关注和追捧的，而且有不少分析和总结文章，所以这里不会重复过多，只简单回顾一下。

1 语义分割/实例分割（Semantic/Instance Segmentation）；

语义分割最早成功应用CNN的模型应该是FCN（Fully Convolution Network），由Berkeley分校的研究人员提出。它是一种pixel2pixel的学习方法，之后各种演变模型，现在都可以把它们归类于Encoder-Decoder Network。

这里是去年CVPR的一片论文在总结自动驾驶的实时语义分割算法时给出的框图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第40张图片

其中Encoder部分特别采用了MobileNet和ShuffleNet。

实例分割是特殊的语义分割，结合了目标检测，可以说是带有明确轮廓的目标检测，其代表作就是Mask R-CNN，应该是何凯明去FB之后的第一个杰作。

这是一个借鉴目标检测算法SSD的实例分割模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第41张图片

而下面这个是从目标检测算法Faster-RCNN演变的实例分割模型MaskLab，论文发表在去年CVPR‘18：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第42张图片

这是它修正Mask的方法示意图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第43张图片

这是一个基于3-D点云的语义分割NN模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第44张图片

2 检测/识别(特别例子：人脸)；

目标检测的开拓性工作应该是Berkeley分校Malik组出来的，即两步法的R-CNN（Region-based CNN），借用了传统方法中的Region Proposal。之后不断改进的有fast RCNN和faster RCNN，每次都有新点子，真是“群星闪耀”的感觉。

一步法的工作，有名的就是SSD（Single Shot Detection）和YOLO（You Only Look Once)，期间何凯明针对one-stage和two-stage方法的各自优缺点引进一个Focal Loss，构建的新方法叫RetinaNet，而后来YOLO3基本也解决了精度低的弱点。

这里我画了一个算法发展草图（其实还有一些方法没有包括在里面，比如densebox，deepbox，R-FCN，FPN等等）。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第45张图片

ImageNet本身就是一个1000多种物体识别比赛，一般公布的是top 5的结果（可见最早精度有多低（：）。CNN在ImageNet的发展史，就是它在图像识别的一段近5年的历史了：）。

激光雷达点云数据的处理，无论识别还是分割，有PointNet以及改进的CNN模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第46张图片

基于点云做目标识别的例子有Apple公司研究人员发表的VoxelNet模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第47张图片

将点云和RGB图像结合的目标检测CNN模型例子如下：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第48张图片

这里顺便提一下人脸识别，因为是对人脸的个体属性判别，所以这个课题应该算fine grained recognition。就好像对狗或者马这种动物继续判别它的品种，都是细分的。

请注意，人脸识别分人脸验证（face verification）和人脸确认（face identification）；前者是指两个人是不是同一个人，1-to-1 mapping，而后者是确定一个人是一群人中的某个，1-to-many ampping。以前经常有报道机器的人脸识别比人强了，都是指前者，假如后者的话，那谁能像机器一样识别上万人的人脸数据库呢？何况中国公安部的数据高达亿的数量级。

一个完整的人脸识别系统，需要完成人脸检测和人脸校准（face alignment），而后者是需要人脸关键点（facial landmarks）的检测，也是可以基于CNN模型来做。这里以FB的DeepFace模型为例吧，给出一个人脸识别的系统框图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第49张图片

这是不久前刚刚提出的人脸检测模型：Selective Refinement Network

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第50张图片

而这里给出一个基于facial landmarks做校准的模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第51张图片

顺便提一下旷世科技的Pyramid CNN模型和商汤科技的DeepID2模型（一共发布过4个DeepID版本）依次如图：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第52张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第53张图片

3 跟踪（特别例子：人体姿态/骨架）；

目标跟踪是一个递推估计问题，根据以前的图像帧目标的信息推算当前目标的位置甚至大小/姿态。有一阵子，跟踪和检测变得浑为一体，即所谓tracking by detection，跟踪也可以看出一个目标分割（前后景而言）/识别问题。

跟踪是短时（short term）邻域的检测，而一般的检测是长时（long term）大范围的检测。跟踪的困难在于目标的遮挡（分部分还是全部），背景复杂（相似目标存在），快速（fast）以及突变（agile）运动等等。比如，跟踪人脸，当转90度成侧脸时就会有以上这些问题。

跟踪方法有一个需要区分的点，多目标（MOT）还是单目标（SOT）跟踪器。单目标不会考虑目标之间的干扰和耦合，而多目标跟踪会考虑目标的出现，消失以及相互交互和制约，保证跟踪各个目标的唯一性是算法设计的前提。

跟踪目标是多样的，一般是考虑刚体还是柔体，是考虑单刚体还是铰接式（articulated），比如人体或者手指运动，需要确定skeleton模型。跟踪可以是基于图像的，或者激光雷达点云的，前者还要考虑目标在图像中大小的变化，姿态的变化，难度更大。

基于以上特点，跟踪可以用CNN或者RNN模型求解，跟踪目标的描述本身就是NN模型的优势，检测也罢，分割或者识别也罢，都不是问题。运动特性的描述也可以借鉴RNN模型，不过目前看到的结果这部分不比传统方法好多少。

先看一个单目标跟踪的CNN模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第54张图片

这个展示的模型是一个基于R-CNN检测模型扩展的单目标跟踪方法：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第55张图片

多目标跟踪模型有这么一个例子：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第56张图片

下面是一个基于RNN的多目标跟踪模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第57张图片

补充一个基于RGB图像和3-D点云的目标跟踪NN模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第58张图片

顺便谈一下人体姿态和骨架跟踪问题。以前传统方法在人体姿态估计花了很大力气但效果不好，提出了part-based目标模型，比如constellation model, pictorial structure, implicit shape model, deformable model等等。

最近CMU提出一个方法，基于Part Affinity Fields（PAF）来估计人体姿态和骨架，速度非常快。PAF是一个非参数描述模型，用来将图像像素和人体各肢体相关起来，看它的架构如图，采用的是two branch CNN结构，联合学习各肢体的相关性和位置。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第59张图片

下面这个是其中双部图形匹配(Bipartie matching)算法的示意图。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第60张图片

这种多目标快速姿态跟踪的实现对人体行为的理解是非常重要的工具。

六、最后讲一下计算机视觉的推广领域。

这里我选了4个计算机视觉的应用谈谈深度学习对这些领域的推动，在CNN或者RNN“火”之前，这些应用已经存在，但在识别分类任务上性能有限罢了。自动驾驶的应用在另外文章已经提过了，在此忽略。

1 内容检索；

CBIR（Content-based Image Retrieval）有两波人搞，一波是计算机科学的，把这个问题当数据库看待；另一波人是电子过程的，认为是图像匹配问题。刚开始大家也是对这个问题的semantic gap比较头疼，用了一些feature，比如颜色，纹理，轮廓，甚至layout，效果真不咋样。

后来有了SIFT，用了Information Retrieval的概念Bag of Words，加上inverted Indexing，TF-IDF（term frequency–inverse document frequency），hashing之类的技术变得好多了，每年ACM MM会议上一堆的paper。深度学习进来，主要就是扮演特征描述的角色。

这是一个CBIR采用CNN的框架：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第61张图片

这个展示的是image matching用于CBIR的CNN模型：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第62张图片

2 增强现实；

AR一开始就不好做，不说VR那部分的问题，主要是实时性要求高，无论识别还是运动/姿态估计，精度都不好。现在计算机硬件发展了，计算速度提高了，加上深度学习让识别变得落地容易了，最近越来越热，无论是姿态估计还是特征匹配（定位），都变得容易些了。希望这次能真正对社会带来冲击，把那些AR的梦想都实现。

这个框架是Google Glass的AR应用平台，其中几个模块都可以基于CNN实现：

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第63张图片

下面给出的是camera motion 的encoder-decoder network框架：三个模型串联，其中一个有迭代。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第64张图片

下面的模型展示了特征提取和描述的作用，AR中直接可以用做re-localization。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第65张图片

3 内容加注/描述；

Captioning是计算机视觉和NLP的结合。你可以把它当成一个“检索”任务，也可以说是一个“翻译”工作。深度学习，就是来帮助建立一个语言模型并取样产生描述。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第66张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第67张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第68张图片

4 内容问答（Q&A）。

Q&A 也是计算机视觉和NLP的结合，其实质是在图像描述和语言描述之间建立一个桥梁。有人说，Q&A是一个Turing Test的好问题，这里深度学习就是在帮助理解图像的描述，问题的组成，以及它们模式之间的交互。

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第69张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第70张图片

深度学习在计算机视觉领域（图像，视频，3D点云，深度图等）应用全览_第71张图片

有些CNN的应用还是需要进一步改进模型，性能并没有达到满意。不过，大家高兴地看到深度学习已经进来了，以后随着研究的深入性能会越来越好。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：
学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

你可能感兴趣的:(算法,大数据,编程语言,计算机视觉,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi