K5niper

学习笔记 - GreedyAI - DeepLearningCV - Lesson3 Deep-Neural-Network

第7章深度神经网络

任务学习41: 梯度消亡

深度神经网络面临的挑战

（1）梯度消亡（Gradient Vanishing）：训练过程非常慢

（2）过拟合（Overfitting）：在训练数据集上表现好，在实际测试数据集上表现差

梯度消亡（Gradient Vanishing）现象

（1）神经网络中，靠近输入端网络各层的系数逐渐不再随着训练而变化，或者变化非常缓慢

（2）网络层数越多，该现象越明显

梯度消亡(Gradient Vanishing)前提

（1）使用基于梯度的训练方法（例如梯度下降法）

（2）使用的激活函数的输出值域范围远小于输入值域范围，例如逻辑函数（logistic or sigmoid），双曲正切（tanh）

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-1 * x))

def tanh(x):
    return (np.exp(x) - np.exp(-1 * x)) / (np.exp(x) + np.exp(-x))

x = np.linspace(-10, 10, 100)

fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(x, sigmoid(x), label="sigmoid")
ax.plot(x, tanh(x), label="tanh")
ax.grid(True)
ax.legend()
plt.show()

任务学习42: 梯度消亡问题分析

Sepp Hochreiter（Germany）于1991年系统分析了ྛ梯度消亡的原因，他也是LSTM的发明⼈

梯度消亡问题分析

梯度下降法依靠理解系数的微小变化对输出的影响来学习网络的系数。

如果一个系数的微小变化对网络输出没有影响或者影响极小，那就无法知晓如何优化这个系数，或者优化特别慢，造成训练的困难。

梯度消亡原因

使用梯度下降法训练神经网络，如果激活函数具有将输出值域范围相对于输入值域大幅度压缩的特性，那么就会出现梯度消亡。

例如，双曲正切函数将 $\infty$ 到 $\infty$ 的输入压缩到 $- 1$ 到 $+ 1$ 之间。除了输入在 $(- 3, + 3)$ 之间的值之外，其它输入值对应的梯度都非常小，接近 $0$ ，

def derivative_tanh(x):
    return 1 - np.tanh(x) ** 2

x = np.linspace(-10, 10, 100)

fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(x, tanh(x), label="tanh")
ax.plot(x, derivative_tanh(x), label=r"$\frac{d \mathrm{tanh}(x)}{d x}$")
ax.grid(True)
ax.legend()
plt.show()

任务学习43: 梯度消亡解决方案

梯度消亡解决方案

（1）激活函数ReLU： $\max(0, x)$

输入大于 $0$ ，梯度为 $1$ ，否则为 $0$ 。

$\begin{cases} 0, \ & x \lt 0 \\ x, \ & x \geq 0 \end{cases}, \quad f^{\prime}(x) = \begin{cases} 0, \ & x \lt 0 \\ 1, \ & x \geq 0 \end{cases}$

（2）激活函数LeakyReLU： $\max(ax, x), 0 \lt a \lt 1$

输入大于等于 $0$ ，梯度为 $1$ ，否则为 $a$ 。

def relu(x):
    y = x.copy()
    y[x < 0] = 0
    return y

def derivative_relu(x):
    y = np.ones(x.shape)
    y[x < 0] = 0
    return y

x = np.linspace(-5, 5, 50)

fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(x, relu(x), label="ReLU")
ax.plot(x, derivative_relu(x), ".",
        label=r"$\frac{d \mathrm{ReLU}(x)}{d x}$")
ax.grid(True)
ax.legend()
plt.show()

梯度消亡思考

为什么不选择激活函数： $f (x) = x$ ？

假设 $l$ 层神经网络，权值矩阵分别为： $\mathbf{W}_1, \mathbf{W}_2, \cdots, \mathbf{W}_l$ ，则网络输出向量 $\mathbf{y}$ 可表示为：

$\begin{aligned} \mathbf{y} = & f \left( \mathbf{W}_l f \left( \cdots f \left( \mathbf{W}_2 f \left( \mathbf{W}_1 \mathbf{x} \right) \right) \right) \right) \\ = & \mathbf{W}_l \cdots \mathbf{W}_2 \mathbf{W}_1 \mathbf{x} \\ = & \mathbf{W} \mathbf{x} \end{aligned}$

即网络等效为单层网络，是-个线性系统，仅具有线性表示能力。

梯度消亡解决方案

采用不基于梯度的网络训练方法：[Derivative-tree optimization: a review of algorithms and comparison of software implementations](https://link.springer.com/article/10.1007%2Fs10898-012-9951-y]

（1）基于遗传、进化算法

https://www.ijcai.org/Proceedings/89-1/Papers/122.pdf

https://blog.coast.ai/lets-evolve-a-neural-network-with-a-genetic-algorithm-code-included-8809bece164

（2）粒子群优化（Particle Swarm Optimization, PSO）

https://visualstudiomagazine.com/articles/2013/12/01/neural-network-training-using-particle-swarm-optimization.aspx

https://ieeexplore.ieee.org/document/1202255/?reload=true

任务学习44: 过拟合

过拟合（Overfitting)

网络在训练数据集上的准确率很⾼，但是在测试集上的准确率⽐较低

过拟合的解决⽅ٛ案

（1）DropOut

（2） $L_2$ 正则化

（3） $L_1$ 正则化

（4）MaxNorm

任务学习45: DropOut 训练

假设⽹络过拟合

DropOut

DropOut训练

给定DropOut rate $r$ 为 $1 / 3$ ，则在训练过程中，随机丢弃 $1 / 3$ 神经元结点，对剩余神经元结点权值进行梯度更新。

Dropout使用

所有神经元结点均参与推理，但各神经元结点权值需要乘以 $1 - r$ （1 - DropOut rate）

任务学习46: 正则化

$L_2$ 正则化

损失函数（loss function） $(\theta)$ 中的每一个权值 $\theta_i$ ，都对损失函数加上 $\frac{1}{2} \lambda \theta_{i}^{2}$ 。其中， $\lambda \gt 0$ 是正则化的强度。

训练过程中，每一次权值更新的时候都额外加上这一步：

$\theta_{i} = \theta_{i} - \lambda \theta_{i}$

正则化的目的是使权值的绝对值减小，权值的绝对值越大，减小的程度越强；

$L_2$ 正则化使得大多数权值的值都不为零，但是绝对值都比较小。

$L_1$ 正则化

损失函数 $(\theta)$ 中的每一个权值 $\theta_i$ ，都对损失函数加上 $\lambda \left| \theta_{i} \right|$ 。其中 $\lambda \gt 0$ 正则化的强度。

训练过程中，每一次权值更新的时候都额外加上这一步：

$\theta_{i} = \begin{cases} \theta_{i} - \lambda, \ & \theta_{i} \gt 0\\ \theta_{i} + \lambda, \ & \theta_{i} \leq 0\\ \end{cases}$

$L_1$ 正则化的目的是使得许多权值的绝对值接近 $0$ ，其它那些权值不接近于 $0$ 的权值对应的特征就是对输出有影响的特征。因此 $L_1$ 正则化可以用于特征选择。

任务学习47: 最大范数约束神经元的初始化

最⼤֒范数约束（Max Norm）

为每一个神经元对应的权值向量设置一个最大第二范数值 $c$ ，这个值通常设为 $3$ 。如果一个神经元的第二范数值大于 $c$ ，则将每个系数值按比例缩小，使得第二范式值等于 $c$ 。

训练过程中，每一次权值更新的时候都额外加上这一步：

$\theta_{i} = \begin{cases} \theta_{i} * \frac{c}{\| \mathbf{\theta} \|}, \ & \| \mathbf{\theta} \| \gt c \\ \theta_{i}, \ & \| \mathbf{\theta} \| \leq c \end{cases}$

最大范数约束可以防止由于训练步长较大引发的过拟合。

神经元系数的初始化

偏置系数（bias）：初始化为 $O$

权值系数：初始化为

$\theta_{i} = \text{np.random.randn(n) * sqrt(2 / n)}$ ，其中， $n$ 为神经元的输入向量的元素个数。

范数

学习笔记 - GreedyAI - DeepLearningCV - Lesson3 Deep-Neural-Network K5niper GreedyAi -DeepLearningCV
第7章深度神经网络任务学习41:梯度消亡深度神经网络面临的挑战（1）梯度消亡（GradientVanishing）：训练过程非常慢（2）过拟合（Overfitting）：在训练数据集上表现好，在实际测试数据集上表现差梯度消亡（GradientVanishing）现象（1）神经网络中，靠近输入端网络各层的系数逐渐不再随着训练而变化，或者变化非常缓慢（2）网络层数越多，该现象越明显梯度消亡(Gradi
搭建一个小型的证券知识图谱简单随风机器学习知识图谱自然语言处理
本项目主要实现逻辑如下：数据获取数据处理导入neo4j本项目需要用到两种数据源：一种是公司董事的信息，另一种是股票的行业以及概念信息。董事信息通过scrapy进行爬取，具体包含各个上市公司董事会成员姓名、职位、性别、年龄。股票的行业及概念信息通过Tushare信息进行获取。1.董事信息获取我们通过访问’http://pycs.greedyai.com/’来获取上市公司的董事信息，主要获取董事的姓名
知识图谱技术与应用指南（转） SeanCheney
作者李文哲，贪心科技CTO（greedyai.com），这是一家AI培训公司，他们家的NLP课程知识点（https://www.greedyai.com/courseinfor/93）曾任普惠金融首席数据科学家。在大数据、机器学习、深度学习、自然语言处理，图数据库等领域有丰富的研究和实践经验。先后就职过亚马逊、高盛、Fiserv等多家公司。南开大学本科，美国TexasAM大学人工智能硕士，美国南加
推荐一个比吴恩达的还要优质的机器学习课程 frank_hetest
原文链接：http://dmoj.greedyai.com/api/wxlogin/callback?state=longmen\x26amp;fromroad=20191019jiqixuexiblog相信很多朋友对机器学习算法都有所了解，有尝试学习并利用机器学习算法以及工具做一些AI产品！但是仅仅停留在“调包”的阶段。想去深入理解一些算法的核心内涵却被XGBoost|GBDT等算法劝退了！为了
推荐10个趣味实战项目，从零入门人工智能和数据分析，看这篇就够了 R语言中文社区
原文链接：http://dmoj.greedyai.com/api/wxlogin/callback?state=pythondetails\x26amp;fromroad=20190723biaogeyouhuashuo贪心学院“花最少的钱，学最好的AI"【从0基础到精准掌握】Python人工智能与数据分析特训营零基础轻松掌握人工智能Python编程语言全网招募200名AI爱好者10周直播课，1
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

学习笔记 - GreedyAI - DeepLearningCV - Lesson3 Deep-Neural-Network

第7章 深度神经网络

任务学习41: 梯度消亡

任务学习42: 梯度消亡问题分析

任务学习43: 梯度消亡解决方案

任务学习44: 过拟合

任务学习45: DropOut 训练

任务学习46: 正则化

任务学习47: 最大范数约束 神经元的初始化

你可能感兴趣的:(GreedyAi,-,DeepLearningCV)

第7章深度神经网络

任务学习47: 最大范数约束神经元的初始化