GarfieldEr007

深度学习（十五）基于DCNN的人脸特征点定位-CVPR 2013

基于DCNN的人脸特征点定位

原文地址：http://blog.csdn.net/hjimce/article/details/49955149

作者：hjimce

一、相关理论

本篇博文主要讲解2013年CVPR的一篇利用深度学习做人脸特征点定位的经典paper：《Deep Convolutional Network Cascade for Facial Point Detection》，论文的主页为：http://mmlab.ie.cuhk.edu.hk/archive/CNN_FacePoint.htm 。网页提供了训练数据、测试demo，但是我却没有找到源码，所以只能自己写代码实现。这篇paper是利用深度学习搞人脸特征点定位的开山之作，想当年此算法曾经取得了state-of-art 的结果。后来face++发表的几篇paper的思想，都是在这篇paper的算法上进行扩展的。

如果之前没有学过类似DCNN的思想的话，那么会感觉相当难，至少我是这么觉得的。在之前学过的各种深度学习模型中，一般就只有一个CNN，可这篇paper是由十几个CNN组成的。我一看到文献中如下网络结构图片：

作为菜鸟的我，就已经晕了，然后在看一下文献的一些公式，我彻底没了耐性。因为我看外文paper，一般首先会直接看图、看公式，可这篇paper的图，一上来就把我吓到了。之前学过反卷积网络，FCN、R-CNN、FR-CNN、OverFeat、Siamese Network、NIN等等各种网络，感觉花个一两天的时间，总可以把算法想通。可是学了这篇paper之后，感觉难度完全不是一个等级的，因为初次接触这种DCNN，花了好几周的时间，才把源码实现出来，过程相当痛苦，好吧，还是不罗嗦了，这篇博文将仔细讲解paper算法的实现过程，领略不一样的CNN模型，也就是传说中的DCNN（这篇paper，后来人们又把这种多层次的CNN模型称之为DCNN）。接着我将先简单介绍，文章的主要思想。

1、RCNN回顾

paper的总思想是一种从粗到精的定位思想，如果你之前已经对R-CNN有所了解，我们就回忆一下现在的一些物体检测的大体算法思路，因为我觉得RCNN也是一种从粗定位，到精识别的过程，跟本篇paper的思想很相似，下面是RCNN的流程图(RCNN文献《Region-based Convolutional Networks for Accurate Object Detection and Segmentation》)：

首先输入一张图片，然后RCNN的思路是：

(1)采用传统的方法，先把一张图片中各个可能的物体的bounding box分割出来

(2)把各个可能的裁剪出来的物体检测框，输入cnn，进行特征提取，最后进行物体分类识别

OK，算法的总体思路很简单。其实这也是一种从粗到精的思想，就是我们对输入的一整张图片先进行粗定位，先定位出物体的bounding box，也就是物体的大体的位置。然后进行裁剪(bouding box)，这样我们裁剪出来的图片范围就变小了，外界背景因素的干扰就减小了，然后我们在把裁剪后的图片，作为CNN的输入，这样有利于提高精度。总之，假设你要用CNN做人脸识别，那么你就不应该把一整张图片，包括风景、背景、身体、头发这些背景因素都扔进CNN中，这样的精度会比较小。你应该是先用人脸检测器，把人脸部位的图片裁剪出来，送入CNN中，精度才会较高。OK，可能你觉得，我这边讲的话题有点废话，其实《Deep Convolutional Network Cascade for Facial Point Detection》这篇paper的思想就是这样，很简单的一个思想。

2、paper的思想

图 1

回到本篇文章的主题，特征点定位。以上面的图片为例，假设我们要定位出上面的5个人脸特征点，从粗定位到精定位的过程如下（下面我先用最简单的理解方式，讲解粗到精的定位过程，先不根据paper的算法进行讲解，等明白了粗定精的定位过程，我们再结合paper的算法进行细讲）：

(1) level1。首先我们要做的第一步，把人脸图片裁剪出来，而不是直接把上面的一整张图片，扔到CNN中，因为上面图片包含的范围太大了，我们需要使得输入CNN的图片范围越小越好，比如裁剪成下面的图片，然后输入CNN中（我们只需要保证要定位的5个特征点包含在里面就可以了）：

图 2

因此网络的第一层次CNN模型，我们的目标就是要定位出包含这5个特征点的最小包围盒，缩小搜索范围（paper没有这一层，它所采用的算法是直接采用人脸检测器，但是如果采用cnn，先定位出5个特征点的bounding box 精度会比直接采用人脸检测器，定位精度来的高，这个可以从后面face++发表的paper:《Extensive Facial Landmark Localization with Coarse-to-fine Convolutional Network Cascade》中看到，这篇我以后会在另外一篇博文中讲解，这边只是为了方便理解）

本层次CNN模型的输入：原始图片（图1）

本层次CNN模型的输出：包含五个特征点的bonding box，预测出bounding box后，把它裁剪出来，得到图2

(2) level2。接着我们采用CNN，粗定位出这五个特征点，如下图所示（换了一张示例图片，将就一下）：

图 3

上面示例图中，蓝色的点是正确的点；然后红色的点是，我们采用本层次网络CNN模型，预测定位出来的特征点。可以看到红色的点和正确的蓝色点，之间还是有很大的误差，这就是所谓的粗定位，只能大体的搜索到各个点的位置，精度还有待提高。这一层次，又称之为网络特征点的初始定位层，很粗糙的一个定位。然后根据我们cnn的粗定位点，也就是红色的点，作为中心，进行裁剪出一个小的矩形区域，进一步缩小搜索范围：

鼻子

左右嘴角

左右眼睛

图 4

本层次CNN模型输入：包含五个特征点的bounding box图片（也就是图 2）

本层次CNN模型输出：预测出五个特征点的初始位置，得到图3的红色特征点位置，预测出来以后，进行裁剪，把各个特征点的一个小区域范围中的图片裁剪出来，得到图4

(3) level3。这一层又称之位精定位。

因此接着我们就要分别设计5个CNN模型，用于分别输入上面的5个特征点所对应的图片区域了，然后用于分别定位，找到蓝色正确点的坐标。通过图4的裁剪，我们的搜索的范围一下子小了很多，就只有小小的一个范围而已了。这边需要注意，各个部位的CNN模型参数是不共享的，也就是各自独立工作，5个CNN用于分别定位5个点。每个CNN的输出是两个神经元（因为一个CNN，只定位1个特征点，一个特征点，包含了(x，y)两维）。声明：这一层次的网络，文献不仅仅包含了5个CNN，它是用了10个CNN，每个特征点有两个CNN训练预测，然后进行平均，我们这里可以先忽略这一点，影响不大。

本层次CNN模型输入：各个特征点，对应裁剪出来的图片区域，如图4

本层次CNN模型输出：各个特征点的精定位位置。

OK，到了这里，基本讲完了，从粗定位到精定位的思想了，如果看不懂，就得结合文献，反复的读了，因为只有懂了这个思想，才能进行下一步。

二、网络架构

上面只是对从粗到精的思想，大体的思路进行了讲解，但是具体我们要怎么实现，代码要怎么实现，各个网络是如何训练的？因此接着我要讲的就是细节、代码实现问题，上面讲解从粗到精的思想的时候，我为了方便理解，所以有的一些细节也没有根据文献的讲。这一部分，我们将根据文献的一步一步，每个细节，网络结构进行讲解。首先我们先再次看一下网络的结构图：

这篇papar的DCNN，总体上分成三大部分，分别是：level 1、level 2、level 3。每个level 里面，包含着好几个CNN模型，我们将一步一步剖析这个网络结构。在最开始的时候，首先，我们利用人脸检测器，裁剪出人脸图片，具体的人脸检测器的就是用我们传统的方法，比如haar特征。然后把我们裁剪出来的人脸图片，作为level 1的输入。下面开始分层次讲解各个level 的具体细节（在此不要纠结level 这个词怎么翻译，如果非要理解这个词，可以用“等级”，leve 1表示最粗糙的等级，然后level 2表示精等级，level 3表示更精的等级）。

1、level 1网络架构

网络的输入：我们通过人脸检测器，裁剪出face bounding box，然后把它转换成灰度图像，最后缩放到39*39大小的图片，这个39*39的图片，将作为我们level 1的输入。在网络的第一层次上，由三个卷积神经网络组成，这三个卷积神经网络分别命名为：F1（网络的输入为一整张人脸图片），EN1（输入图片包含了眼睛和鼻子）、NM1(包含了鼻子和嘴巴区域)。这三个卷积网络区别在于输入的图片区域不同：

第一层次网络

A、F1结构

F1的输入为整个人脸图片（39*39的大小），输出为我们所要预测的五个特征点。F1的网络结构如下：

F1的网络结构图

输入一张人脸图片大小为39*39，然后通过卷积神经网络，输出一个10维的特征向量（5个特征点）。F1的结构，第一个层特征图选择20，第二次卷积特征图个数选择40，然后接着是60、80。具体各层的参数可以参考下面表格：

F1网络参数

I(39,39)表示输入图片大小为39*39，P(2)应该表示池化为stride大小为2。具体的各层参数我就不再详解，因为这个不是重点，而且即便是你没有根据paper的结构进行设计，对精度的影响也不大(只要你设计的网络合理，不要出现过拟合、欠拟合都OK)

B、EN1、NM1的网络结构

这两个CNN和F1基本相同，不过输入图片的大小不同，输出神经元的个数也不相同。

EN1用于定位:左眼+右眼+鼻子三个特征点，因此自然而然，网络设计的时候，输出层的神经元个数就是6。然后输入的图片，是我们根据比例裁剪的，我们把39*39图片的上半部分裁剪出来，裁剪出31*39大小的图片，当然裁剪大小比例这个是一个经验裁剪，我们只要保证裁剪的区域包含了眼睛和鼻子区域就好了。

NM1用于定位：左嘴角+右嘴角+鼻子三个特征点。同样的，网络的输出就是6个神经元，输入部分，从人脸的底部往上裁剪，也是裁剪出31*39的图片，只要裁剪出来的区域，只包含嘴巴和鼻子，就OK了。具体这两个CNN的各层相关参数，如下表格中的S1行所示（S0是F1，S1是EN1、NM1）：

EN1\NM1网络参数

那么F1、EN1、NM1三个网络是怎么连接在一起的？我们通过平均的方法，把重复预测的特征点进行位置平均。比如我们的鼻子点，三个网络都可以预测到位置，那么我们就把这三个网络预测出来的鼻子点，三个点相加，然后除以3，就可以得到平均位置了。再如，右眼睛，我们F1、EN1这两个网络有预测，我们就把这两个网络预测到的右眼睛点相加在一起，然后除以2，就得到平均位置了。

那么为什么要搞得这么复杂了，为什么要用三个网络进行分别预测，然后进行平均呢？其实这个就像Alexnet一样，采用平均预测的方法，可以提高网络的稳定性，提高精度，如果你之前已经学过Alexnet，就会明白作者为什么要用平均预测。总之”平均“，可以提高网络的稳定性、防止预测特征点的位置偏差过大，提高精度。

OK，我们大体知道了level 1由三个CNN组成，三个CNN分别预测各自所需要的特征点，然后进行位置平均。这三个CNN都包含了9层（如上面的表格所示），算是一个深度网络。level 1因为是粗定位，输入的图片区域比较大，特征提取难度比较大，所以我们设计这一层级网络的时候，需要保证网络的深度，用于提取复杂的特征（原理解释请自己查看paper）。突然感觉讲到这边，有点累了，好漫长的算法，感觉才讲了一半左右，坚持……

2、level 2 网络架构

A、level 2的输入

经过了level 1 我们大体可以知道了，各个特征点的位置，接着我们要减小搜索范围，我们以第一层级预测到的特征点，以这五个预测特征点为中心，然后用一个较小的bbox，把这五个特征点的小区域范围内的图片裁剪出来，如下图所示：

鼻子

左右嘴角

左右眼睛

level 2 输入

上图中，红色的点就是我们用level 1 预测出来的位置，然后在进行裁剪（上面图，我是自己手动随便裁剪的，因为比较懒，所以就随便做了一个示意图，我们程序裁剪的时候，是以预测点为中心点，裁剪出一个矩形框）。OK,既然是裁剪，那么我们要裁剪多大？这个可以从下面表格参数中知道，level 2采用的是S2行，我们只需要看S2那一行参数就可以了：

我们裁剪的时候，是以level 1的特征点为中心，裁剪出小区域范围的图片。

B、网络总体结构

level 2 组成

本层次的网络CNN个数可就多了，level 2 由10个CNN组成，每个CNN网络层数、每层的相关参数，如上面的表格中S2那一行所示。总之就是leve 2 和level 3的结构都是用了S2那一行的参数，每个CNN包含6层。

哎，看到上面level 2的10个CNN，估计会有点晕，其实很简单，且听我细细道来：这10个CNN，分别用于预测5个特征点，每个特征点用了两个CNN，然后两个CNN对预测的结果进行平均。我们以左眼特征点为例，我们用表格S2行的参数设计出了LE21、LE22，我们在训练的时候，训练了两个模型，这两个CNN都是用于预测左眼特征点，然后我们使用的时候，就直接用这两个CNN预测到的特征点，做位置平均。总之一句话就是：还是平均，跟level 1一样，也是用多个CNN进行位置平均。

3、level 3网络架构

level 3是在level 2得到预测点位置的基础上，重新进行裁剪。我们知道由level 2的网络，我们可以进一步得到那5个特征点的位置（离正确的点越近了），然后我们利用level 2的预测位置，重新进行裁剪。然后在重新进行预测，level 3的总体结构如下：

与level 2结构相同，也是由10个CNN组成，每两个CNN预测1个特征点。那么level 3和level 2的区别在哪里呢？首先我们的裁剪区域发生了变化，我们也可以让level 3的裁剪图片大小再变得更小一些。

三、网络训练

测试误差评价标准公式如下：

其中l是人脸框的长度。

其它细节：

1、采用local shared weights 有助于level 1的精度提高

2、采用abs+tanh 激活，可以提高网络性能：

OK，终于解放了，讲解完毕，对于人脸特征点的定位，出了从粗到精的定位方法，后面还有一些paper采用的是mutil-task方法，好像很不错的样子，以后在慢慢学习。

参考文献：

1、《Deep Convolutional Network Cascade for Facial Point Detection》

2、《Extensive Facial Landmark Localization with Coarse-to-fine Convolutional Network Cascade》

3、《Face Alignment at 3000 FPS via Regressing Local Binary Features》

4、《Face Alignment by Explicit Shape Regression》

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
南美洲的奇特艺术品【神秘档案馆·第三期】清风小和尚
本期回答问题：1.复活节岛石像是谁建造的？2.复活节岛石像的建造方法与目的？3.纳斯卡线条的设计意义？南美洲是南亚美利加洲的简称，位于西半球的南部，东濒大西洋，西临太平洋，北滨加勒比海，南隔德雷克海峡与南极洲相望。对南美洲最简单的定位方法是：美国南面。南美洲是地球上第四大的大洲，有着种类繁多的物种和丰富的地形。在这片广袤的土地上，有两样奇特的艺术品---复活节岛摩艾石像与纳斯卡线条。摩艾石像（Mo
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
请用幸福影响他人，请不要看不惯别人吕氏春秋驴驴
这个世间包罗万象，这个世间丰富多彩，这个世间色彩缤纷。。。。。如果只一种模式，一种色彩，一种花朵，一样容颜，一种人，一个思想。。。。。多么无趣啊！不管怎样的思想和生活方式只要能够安慰自己的心灵，能克服自己的恐惧感受祥和，充满生命的活力。。。。就是正确的活法。读了金刚经你会感觉博大精深空灵之美，看见基督徒你会感知被爱，易经道德经你会定位人生不纠结，读了鲁米你会跟宇宙自然神灵做朋友，人生无意义会让你珍
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
【Bugs】Python：“ModuleNotFoundError: No module named ‘XXX‘” 系'辞工具箱 python bug anaconda
问题描述Python使用库的前提是必须已安装了相应的库，往往利用“命令行指令”实现安装，一般安装解法类似。但，还是具有延伸问题，本博客对此作记录。【1】Nomodulenamed‘seaborn’(1.1):情况1：为Anaconda安装【图1-2】.定位Anaconda路径【图3】.Anaconda路径加入Path>&
《我的人间烟火》火遍全网，姐弟恋专业户魏大勋用演技为自己正名，他的代表作并非三个女人天然农场
说起魏大勋，真是一言难尽！毕业于中央戏剧学院的他，出道十几年居然没有塑造出让观众记住的角色，一直被大家定位为综艺咖，甚至有人打趣道，魏大勋的代表作就是三段姐弟恋。他的绯闻女友，囊括了马苏、杨幂、秦岚这三位顶级女神。不得不承认，魏大勋虽然形象欠佳，但是眼光不错，艳福不浅，直逼当年的泡妞高手李亚鹏。与李亚鹏不同的是，魏大勋每次都是奔着结婚而去，并非玩玩而已，毕竟不以结婚为目标的恋爱都是耍流氓！有网友评
解决Obsidian写笔记中的＜img＞标签无法显示图片的问题全能全知者笔记
Obsidian中写md笔记如果使用标签会显示不出图案，后来才知道因为Obsidian的问题导致只能用绝对路径定位。所以我本人写了一个py插件，将md笔记里的img标签批量替换成Obsidian能够读取的形式。安装FixObsImgDpy:pipinstallFixObsImgDpy安装完成后在需要修复的md文件的父目录下运行命令:FixObsImgDpy就会自动修复父目录以下的全部md文件仓库
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
7月结束了摸不着的小鱼
这日子快得让人看不见、摸不着，也是真的太快了点吧！一眨眼我已经辞去第二份工作两个多月了！在这两个月里真的是做了好多好多事，有自己小试牛刀的“创业”，也有辛酸在家带娃的三个周……时间带不走的永远看不见，时间能带走的都是我们所见所闻的东西……前一个月感觉都是在荒废时间吧，也没有找到自己的定位，一次又一次的更替和改变，我越发觉得自己不清楚自己所要的东西是什么了？后面一个多月的时间里就是磨练耐心了，全程带
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
程序员架构师主要是做什么_程序员架构师：职责、技能与挑战绿色小猪
免费备考资料（2024年11月软考）：历年试题+视频课合集+电子讲义点击领取>>>免费刷题：2024年11月软考备考刷题点此进入>>>程序员架构师的角色定位在软件开发领域，程序员架构师是一个至关重要的角色。他们不仅需要深入理解业务需求，还要将其转化为技术上的解决方案。程序员架构师是项目中的技术领航者，负责制定和维护软件系统的整体架构，确保系统的可扩展性、可维护性和性能。他们的工作涉及从概念化到实现
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
Android shell 常用 debug 命令晨春计 Audio debug android linux
目录1、查看版本2、am命令3、pm命令4、dumpsys命令5、sed命令6、log定位查看APK进程号7、log定位使用场景1、查看版本1.1、Android串口终端执行getpropro.build.version.release#获取Android版本uname-a#查看linux内核版本信息uname-r#单独查看内核版本1.2、linux服务器执行lsb_release-a#查看Lin
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
第九章肿瘤放射治疗晨翕
放射物理学：主要研究各种放射源的性能特点、治疗剂量学、质量控制、质量保证及辐射防护等放射生物学：主要研究机体正常组织和肿瘤组织对射线对反应及如何人为地改变这些反应对质和量。放射技术学：主要研究具体运用各种放射源及设备治疗肿瘤患者，包括射野设置、体位固定、定位、摆位操作等技术实施。临床放射肿瘤学：在临床肿瘤学的基础上，研究肿瘤放射治疗的适应证，根据病理、分期、预后确定治疗策略，综合运用放射物理、放射
前端CSS面试常见题剑亦未配妥前端面试前端 css 面试
边界塌陷盒模型有两种：W3C盒模型和IE盒模型，区别在于宽度是否包含边框定义：同时给兄弟/父子盒模型设置上下边距，理论上边距值是两者之和，实际上不是注意：浮动和定位不会产生边界塌陷；只有块级元素垂直方向才会产生margin合并margin计算方案margin同为正负：取绝对值大的值一正一负：求和父子元素边界塌陷解决父元素可以通过调整padding处理；设置overflowhidden，触发BFC子
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

深度学习（十五）基于DCNN的人脸特征点定位-CVPR 2013

你可能感兴趣的:(Deep,Learning,深度学习,Deep,Learning,DCNN,人脸,特征点定位)