hliu1307

第二章：神经网络的数学基础

文章目录

补充
- 关于类和标签的说明
- MNIST数据集
初识神经网络
- 加载 Keras 中的 MNIST 数据集
- 准备图像数据
- 准备标签
- 网络架构
- 编译
- 运行
- 性能评估
神经网络的数据表示
- 标量（0D 张量）
- 向量（1D 张量）
- 矩阵（2D 张量）
- 3D 张量与更高维张量
- 关键属性
- 在 Numpy 中操作张量
- 数据批量的概念
- 现实世界中的数据张量
- - 向量数据
  - 时间序列数据或序列数据
  - 图像
  - 视频
张量运算
- 逐元素运算
- 广播
- 张量点积
- 张量变形
- 张量运算的几何解释
- 深度学习的几何解释
神经网络的“引擎”：基于梯度的优化！！！！!
- 什么是导数
- 张量运算的导数：梯度
- 随机梯度下降
- 链式求导：反向传播算法

补充

关于类和标签的说明

在机器学习中，分类问题中的某个类别叫作类（class）。数据点叫作样本（sample）。某个样本对应的类叫作标签（label）。

MNIST数据集

mnist数据集是机器学习领域的一个经典数据集，这个数据集包含 60 000 张训练图像和 10 000 张测试图，将手写数字的灰度图像（28 像素×28 像素）划分到 10 个类别中（0~9）。

初识神经网络

首先，将训练数据（train_images 和 train_labels）输入神经网络；其次，网络学习将图像和标签关联在一起；最后，网络对 test_images 生成预测，而我们将验证这些预测与 test_labels 中的标签是否匹配。

加载 Keras 中的 MNIST 数据集

from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

train_images 和 train_labels 组成了训练集（training set），模型将从这些数据中进行学习。然后在测试集（test set，即 test_images 和 test_labels）上对模型进行测试。
图像被编码为 Numpy 数组，而标签是数字数组，取值范围为 0~9。图像和标签一一对应。

准备图像数据

train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

在开始训练之前，我们将对数据进行预处理，将其变换为网络要求的形状，并缩放到所有值都在 [0, 1] 区间。比如，之前训练图像保存在一个 uint8 类型的数组中，其形状为(60000, 28, 28)，取值区间为 [0, 255]。我们需要将其变换为一个 float32 数组，其形状为 (60000, 28 * 28)，取值范围为 0~1。

准备标签

from keras.utils import to_categorical
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

网络架构

from keras import models
from keras import layers
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))

神经网络的核心组件是层（layer），它是一种数据处理模块，你可以将它看成数据过滤器。进去一些数据，出来的数据变得更加有用。具体来说，层从输入数据中提取表示——我们期望这种表示有助于解决手头的问题。大多数深度学习都是将简单的层链接起来，从而实现渐进式的数据蒸馏（data distillation）。深度学习模型就像是数据处理的筛子，包含一系列越来越精细的
数据过滤器（即层）。
本例中的网络包含 2 个 Dense 层，它们是密集连接（也叫全连接）的神经层。第二层（也是最后一层）是一个 10 路 softmax 层，它将返回一个由 10 个概率值（总和为 1）组成的数组。每个概率值表示当前数字图像属于 10 个数字类别中某一个的概率。

编译

network.compile(optimizer='rmsprop',  # 优化器
				loss='categorical_crossentropy',  # 损失函数
				metrics=['accuracy'])  # 在训练和测试过程中需要监控的指标

运行

network.fit(train_images, train_labels, epochs=5, batch_size=128)

Keras 中这一步是通过调用网络的 fit 方法来完成的——我们在训练数据上拟合（fit）模型

性能评估

test_loss, test_acc = network.evaluate(test_images, test_labels)
print('test_acc:', test_acc)

神经网络的数据表示

前面例子使用的数据存储在多维 Numpy 数组中，也叫张量（tensor）。
张量这一概念的核心在于，它是一个数据容器。它包含的数据几乎总是数值数据，因此它是数字的容器。矩阵是二维张量。张量是矩阵向任意维度的推广［注意，张量的维度（dimension）通常叫作轴（axis）］。

标量（0D 张量）

仅包含一个数字的张量叫作标量（scalar，也叫标量张量、零维张量、0D 张量）。在 Numpy中，一个 float32 或 float64 的数字就是一个标量张量（或标量数组）。
可以用 ndim 属性来查看一个 Numpy 张量的轴的个数。标量张量有 0 个轴（ndim == 0）。张量轴的个数也叫作阶（rank）。下面是一个 Numpy 标量。

>>> import numpy as np
>>> x = np.array(12)
>>> x
array(12)
>>> x.ndim
0

向量（1D 张量）

数字组成的数组叫作向量（vector）或一维张量（1D 张量）。一维张量只有一个轴。下面是一个 Numpy 向量。

>>> x = np.array([12, 3, 6, 14, 7])
>>> x
array([12, 3, 6, 14, 7])
>>> x.ndim
1

这个向量有 5 个元素，所以被称为 5D 向量。不要把 5D 向量和 5D 张量弄混！ 5D 向量只有一个轴，沿着轴有 5 个维度，而 5D 张量有 5 个轴（沿着每个轴可能有任意个维度）。
维度（dimensionality）可以表示沿着某个轴上的元素个数（比如 5D 向量），也可以表示张量中轴的个数（比如 5D 张量），这有时会令人感到混乱。对于后一种情况，技术上更准确的说法是 5 阶张量（张量的阶数即轴的个数），但 5D 张量这种模糊的写法更常见。

矩阵（2D 张量）

向量组成的数组叫作矩阵（matrix）或二维张量（2D 张量）。矩阵有 2 个轴（通常叫作行和列）。你可以将矩阵直观地理解为数字组成的矩形网格。下面是一个 Numpy 矩阵。

>>> x = np.array([[5, 78, 2, 34, 0],
				  [6, 79, 3, 35, 1],
				  [7, 80, 4, 36, 2]])
>>> x.ndim
2

第一个轴上的元素叫作行（row），第二个轴上的元素叫作列（column）。在上面的例子中，[5, 78, 2, 34, 0] 是 x 的第一行，[5, 6, 7] 是第一列。

3D 张量与更高维张量

将多个矩阵组合成一个新的数组，可以得到一个 3D 张量，你可以将其直观地理解为数字组成的立方体。下面是一个 Numpy 的 3D 张量。

>>> x = np.array([[[5, 78, 2, 34, 0],
				   [6, 79, 3, 35, 1],
				   [7, 80, 4, 36, 2]],
			   	   [[5, 78, 2, 34, 0],
				   [6, 79, 3, 35, 1],
				   [7, 80, 4, 36, 2]],
				   [[5, 78, 2, 34, 0],
				   [6, 79, 3, 35, 1],
				   [7, 80, 4, 36, 2]]])
>>> x.ndim 
3

将多个 3D 张量组合成一个数组，可以创建一个 4D 张量，以此类推。深度学习处理的一般是 0D 到 4D 的张量，但处理视频数据时可能会遇到 5D 张量。

关键属性

张量是由以下三个关键属性来定义的。
轴的个数（阶）：例如，3D 张量有 3 个轴，矩阵有 2 个轴。这在 Numpy 等 Python 库中也叫张量的 ndim。
形状：这是一个整数元组，表示张量沿每个轴的维度大小（元素个数）。例如，前面矩阵示例的形状为 (3, 5)，3D 张量示例的形状为 (3, 3, 5)。向量的形状只包含一个元素，比如 (5,)，而标量的形状为空，即 ()。
数据类型（在 Python 库中通常叫作 dtype）：这是张量中所包含数据的类型，例如，张量的类型可以是 float32、uint8、float64 等。在极少数情况下，你可能会遇到字符（char）张量。注意Numpy（以及大多数其他库）中不存在字符串张量，因为张量存储在预先分配的连续内存段中，而字符串的长度是可变的，无法用这种方式存储。

在 Numpy 中操作张量

使用语法 train_images[i] 来选择沿着第一个轴的特定数字。选择张量的特定元素叫作张量切片（tensor slicing）。

>>> my_slice = train_images[10:100] # 选择第 10~100 个数字（不包括第 100 个）
>>> print(my_slice.shape)
(90, 28, 28)
# 写法2
>>> my_slice = train_images[10:100, :, :] 
>>> my_slice.shape
(90, 28, 28)
# 写法3
>>> my_slice = train_images[10:100, 0:28, 0:28] 
>>> my_slice.shape
(90, 28, 28)

数据批量的概念

通常来说，深度学习中所有数据张量的第一个轴（0 轴，因为索引从 0 开始）都是样本轴（samples axis，有时也叫样本维度）。在 MNIST 的例子中，样本就是数字图像。此外，深度学习模型不会同时处理整个数据集，而是将数据拆分成小批量。具体来看，下面是 MNIST 数据集的一个批量，批量大小为 128。

batch = train_images[:128]
然后是下一个批量。
batch = train_images[128:256]
然后是第 n 个批量。
batch = train_images[128 * n:128 * (n + 1)]

对于这种批量张量，第一个轴（0 轴）叫作批量轴（batch axis）或批量维度（batch dimension）。

现实世界中的数据张量

向量数据

2D 张量，形状为 (samples, features)
这是最常见的数据。对于这种数据集，每个数据点都被编码为一个向量，因此一个数据批量就被编码为 2D 张量（即向量组成的数组），其中第一个轴是样本轴，第二个轴是特征轴。
例如：人口统计数据集、文本文档数据集

时间序列数据或序列数据

3D 张量，形状为 (samples, timesteps, features)。
当时间（或序列顺序）对于数据很重要时，应该将数据存储在带有时间轴的 3D 张量中。每个样本可以被编码为一个向量序列（即 2D 张量），因此一个数据批量就被编码为一个 3D 张量。
例如：股票价格数据集、推文数据集

图像

4D 张量，形状为 (samples, height, width, channels) 或 (samples, channels, height, width)。
图像通常具有三个维度：高度、宽度和颜色深度。虽然灰度图像（比如 MNIST 数字图像）只有一个颜色通道，因此可以保存在 2D 张量中，但按照惯例，图像张量始终都是 3D 张量，灰度图像的彩色通道只有一维。因此，如果图像大小为 256×256，那么 128 张灰度图像组成的批量可以保存在一个形状为 (128, 256, 256, 1) 的张量中，而 128 张彩色图像组成的批量则可以保存在一个形状为 (128, 256, 256, 3) 的张量中。

图像张量的形状有两种约定：通道在后（channels-last）的约定（在 TensorFlow 中使用）和通道在前（channels-first）的约定（在 Theano 中使用）。Google 的 TensorFlow 机器学习框架将颜色深度轴放在最后：(samples, height, width, color_depth)。与此相反，Theano将图像深度轴放在批量轴之后：(samples, color_depth, height, width)。如果采用 Theano 约定，前面的两个例子将变成 (128, 1, 256, 256) 和 (128, 3, 256, 256)。Keras 框架同时支持这两种格式。

视频

5D 张量，形状为 (samples, frames, height, width, channels) 或 (samples, frames, channels, height, width)。
视频数据是现实生活中需要用到 5D 张量的少数数据类型之一。视频可以看作一系列帧，每一帧都是一张彩色图像。由于每一帧都可以保存在一个形状为 (height, width, color_depth) 的 3D 张量中，因此一系列帧可以保存在一个形状为 (frames, height, width, color_depth) 的 4D 张量中，而不同视频组成的批量则可以保存在一个 5D 张量中，其形状为(samples, frames, height, width, color_depth)。

张量运算

在最开始的例子中，我们通过叠加 Dense 层来构建网络。Keras 层的实例如下所示。
keras.layers.Dense(512, activation=‘relu’)
这个层可以理解为一个函数，输入一个 2D 张量，返回另一个 2D 张量，即输入张量的新表示。具体而言，这个函数如下所示（其中 W 是一个 2D 张量，b 是一个向量，二者都是该层的属性）。
output = relu(dot(W, input) + b)
我们将上式拆开来看。这里有三个张量运算：输入张量和张量 W 之间的点积运算（dot）、得到的 2D 张量与向量 b 之间的加法运算（+）、最后的 relu 运算。relu(x) 是 max(x, 0)。

逐元素运算

relu 运算和加法都是逐元素（element-wise）的运算，即该运算独立地应用于张量中的每个元素，也就是说，这些运算非常适合大规模并行实现。
对逐元素运算编写简单的 Python 实现，那么可以用 for 循环。下列代码是对逐元素 relu 运算的简单实现。

def naive_relu(x):
	 assert len(x.shape) == 2  # x 是一个 Numpy 的 2D 张量
	 x = x.copy()  # x 是一个 Numpy 的 2D 张量
	 for i in range(x.shape[0]):
	 for j in range(x.shape[1]):
	 x[i, j] = max(x[i, j], 0)
	 return x

根据同样的方法，可以实现逐元素的加法、乘法、减法等。
在实践中处理 Numpy 数组时，这些运算都是优化好的 Numpy 内置函数。因此，在 Numpy 中可以直接进行下列逐元素运算，速度非常快

import numpy as np 
z = x + y  # 逐元素的相加
z = np.maximum(z, 0.)  # 逐元素的 relu

广播

将一个 2D 张量与一个向量相加。如果将两个形状不同的张量相加，较小的张量会被广播（broadcast），以匹配较大张量的形状。
广播的两步
(1) 向较小的张量添加轴（叫作广播轴），使其 ndim 与较大的张量相同。
(2) 将较小的张量沿着新轴重复，使其形状与较大的张量相同。
来看一个具体的例子。假设 X 的形状是 (32, 10)，y 的形状是 (10,)。首先，我们给 y添加空的第一个轴，这样 y 的形状变为 (1, 10)。然后，我们将 y 沿着新轴重复 32 次，这样得到的张量 Y 的形状为 (32, 10)，并且 Y[i, :] == y for i in range(0, 32)。现在，我们可以将 X 和 Y 相加，因为它们的形状相同。
在实际的实现过程中并不会创建新的 2D 张量，因为那样做非常低效。重复的操作完全是虚拟的，它只出现在算法中，而没有发生在内存中。但想象将向量沿着新轴重复 10 次，是一种很有用的思维模型。下面是一种简单的实现。

def naive_add_matrix_and_vector(x, y):
	 assert len(x.shape) == 2 
	 assert len(y.shape) == 1 
	 assert x.shape[1] == y.shape[0]
	 x = x.copy() 
	 for i in range(x.shape[0]):
	 for j in range(x.shape[1]):
	 x[i, j] += y[j]
	 return x

如果一个张量的形状是 (a, b, … n, n+1, … m)，另一个张量的形状是 (n, n+1, … m)，那么你通常可以利用广播对它们做两个张量之间的逐元素运算。广播操作会自动应用于从 a 到 n-1 的轴。
下面这个例子利用广播将逐元素的 maximum 运算应用于两个形状不同的张量。

import numpy as np
x = np.random.random((64, 3, 32, 10)) # x 是形状为 (64, 3, 32, 10) 的随机张量
y = np.random.random((32, 10))  # y 是形状为 (32, 10) 的随机张量
z = np.maximum(x, y) # 输出 z 的形状是 (64, 3, 32, 10)，与 x 相同

张量点积

点积运算，也叫张量积（tensor product，不要与逐元素的乘积弄混），是最常见也最有用的张量运算。与逐元素的运算不同，它将输入张量的元素合并在一起。
在 Numpy、Keras、Theano 和 TensorFlow 中，都是用 * 实现逐元素乘积。TensorFlow 中的点积使用了不同的语法，但在 Numpy 和 Keras 中，都是用标准的 dot 运算符来实现点积。

import numpy as np
z = np.dot(x, y)

数学符号中的点（.）表示点积运算 z=x.y
从数学的角度来看，看一下两个向量 x 和 y 的点积。其计算过程如下

def naive_vector_dot(x, y):
	 assert len(x.shape) == 1 
	 assert len(y.shape) == 1
	 assert x.shape[0] == y.shape[0]
	 z = 0.
	 for i in range(x.shape[0]):
	 z += x[i] * y[i]
	 return z

注意，两个向量之间的点积是一个标量，而且只有元素个数相同的向量之间才能做点积。
你还可以对一个矩阵 x 和一个向量 y 做点积，返回值是一个向量，其中每个元素是 y 和 x的每一行之间的点积。其实现过程如下。

import numpy as np
def naive_matrix_vector_dot(x, y):
	 assert len(x.shape) == 2  # x 是一个 Numpy 矩阵
	 assert len(y.shape) == 1  # y 是一个 Numpy 向量
	 assert x.shape[1] == y.shape[0]  # x 的第 1 维和 y 的第 0 维大小必须相同
	 z = np.zeros(x.shape[0]) 
	 for i in range(x.shape[0]):
	 for j in range(x.shape[1]):
	 z[i] += x[i, j] * y[j]
	 return z

可以复用前面写过的代码，从中可以看出矩阵 - 向量点积与向量点积之间的关系。

def naive_matrix_vector_dot(x, y):
	 z = np.zeros(x.shape[0])
	 for i in range(x.shape[0]):
	 z[i] = naive_vector_dot(x[i, :], y)
	 return z

注意，如果两个张量中有一个的 ndim 大于 1，那么 dot 运算就不再是对称的，也就是说，dot(x, y) 不等于 dot(y, x)。
当然，点积可以推广到具有任意个轴的张量。最常见的应用可能就是两个矩阵之间的点积。对于两个矩阵 x 和 y，当且仅当 x.shape[1] == y.shape[0] 时，你才可以对它们做点积（dot(x, y)）。得到的结果是一个形状为 (x.shape[0], y.shape[1]) 的矩阵，其元素为 x的行与 y 的列之间的点积。其简单实现如下。

def naive_matrix_dot(x, y):
	 assert len(x.shape) == 2 
	 assert len(y.shape) == 2
	 assert x.shape[1] == y.shape[0] 
	 z = np.zeros((x.shape[0], y.shape[1])) 
	 for i in range(x.shape[0]): 
	 for j in range(y.shape[1]): 
	 row_x = x[i, :]
	 column_y = y[:, j]
	 z[i, j] = naive_vector_dot(row_x, column_y)
	 return z

更一般地说，你可以对更高维的张量做点积，只要其形状匹配遵循与前面 2D 张量相同的原则：

(a, b, c, d) . (d,) -> (a, b, c)
(a, b, c, d) . (d, e) -> (a, b, c, e)

张量变形

第三个重要的张量运算是张量变形（tensor reshaping）。虽然前面神经网络第一个例子的Dense 层中没有用到它，但在将图像数据输入神经网络之前，我们在预处理时用到了这个运算。
张量变形是指改变张量的行和列，以得到想要的形状。变形后的张量的元素总个数与初始张量相同。简单的例子可以帮助我们理解张量变形。

>>> x = np.array([[0., 1.],
				  [2., 3.],
				  [4., 5.]])
>>> print(x.shape)
(3, 2)
>>> x = x.reshape((6, 1))
>>> x
array([[ 0.],
	   [ 1.],
	   [ 2.],
	   [ 3.],
	   [ 4.],
	   [ 5.]])
>>> x = x.reshape((2, 3))
>>> x
array([[ 0., 1., 2.],
       [ 3., 4., 5.]])

经常遇到的一种特殊的张量变形是转置（transposition）。对矩阵做转置是指将行和列互换，使 x[i, :] 变为 x[:, i]。

>>> x = np.zeros((300, 20))  # 创建一个形状为 (300, 20) 的零矩阵
>>> x = np.transpose(x)
>>> print(x.shape)
(20, 300)

张量运算的几何解释

对于张量运算所操作的张量，其元素可以被解释为某种几何空间内点的坐标，因此所有的张量运算都有几何解释。举个例子，我们来看加法。首先有这样一个向量：A = [0.5, 1]
它是二维空间中的一个点。常见的做法是将向量描绘成原点到这个点的箭头
假设又有一个点：B = [1, 0.25]，将它与前面的 A 相加。从几何上来看，这相当于将两个向量箭头连在一起，得到的位置表示两个向量之和对应的向量

通常来说，仿射变换、旋转、缩放等基本的几何操作都可以表示为张量运算。举个例子，要将一个二维向量旋转 theta 角，可以通过与一个 2×2 矩阵做点积来实现，这个矩阵为 R = [u, v]，其中 u 和 v 都是平面向量：u = [cos(theta), sin(theta)]，v = [-sin(theta), cos(theta)]。

深度学习的几何解释

前面讲过，神经网络完全由一系列张量运算组成，而这些张量运算都只是输入数据的几何变换。因此，可以将神经网络解释为高维空间中非常复杂的几何变换，这种变换可以通过许多简单的步骤来实现。

神经网络的“引擎”：基于梯度的优化！！！！!

更新网络的所有权重一种好的方法是利用网络中所有运算都是可微（differentiable）的这一事实，计算损失相对于网络系数的梯度（gradient），然后向梯度的反方向改变系数，从而使损失降低。

什么是导数

斜率 a 被称为 f 在 p 点的导数（derivative）。如果 a 是负的，说明 x 在 p 点附近的微小变化将导致 f(x) 减小（如图 2-10 所示）；如果 a 是正的，那么 x 的微小变化将导致 f(x) 增大。此外，a 的绝对值（导数大小）表示增大或减小的速度快慢。

对于每个可微函数 f(x)（可微的意思是“可以被求导”。例如，光滑的连续函数可以被求导），都存在一个导数函数 f’(x)，将 x 的值映射为 f 在该点的局部线性近似的斜率。例如，cos(x)的导数是 -sin(x)，f(x) = a * x 的导数是 f’(x) = a，等等。
如果你想要将 x 改变一个小因子 epsilon_x，目的是将 f(x) 最小化，并且知道 f 的导数，那么问题解决了：导数完全描述了改变 x 后 f(x) 会如何变化。如果你希望减小 f(x) 的值，只需将 x 沿着导数的反方向移动一小步。

张量运算的导数：梯度

梯度（gradient）是张量运算的导数。它是导数这一概念向多元函数导数的推广。多元函数是以张量作为输入的函数。
假设有一个输入向量 x、一个矩阵 W、一个目标 y 和一个损失函数 loss。你可以用 W 来计算预测值 y_pred，然后计算损失，或者说预测值 y_pred 和目标 y 之间的距离。

y_pred = dot(W, x)
loss_value = loss(y_pred, y)

如果输入数据 x 和 y 保持不变，那么这可以看作将 W 映射到损失值的函数。

loss_value = f(W)

假设 W 的当前值为 W0。f 在 W0 点的导数是一个张量 gradient(f)(W0)，其形状与 W 相同，每个系数 gradient(f)(W0)[i, j] 表示改变 W0[i, j] 时 loss_value 变化的方向和大小。张量 gradient(f)(W0) 是函数 f(W) = loss_value 在 W0 的导数。
前面已经看到，单变量函数 f(x) 的导数可以看作函数 f 曲线的斜率。同样，gradient(f)(W0) 也可以看作表示 f(W) 在 W0 附近曲率（curvature）的张量。
对于一个函数 f(x)，你可以通过将 x 向导数的反方向移动一小步来减小 f(x) 的值。同样，对于张量的函数 f(W)，你也可以通过将 W 向梯度的反方向移动来减小 f(W)，比如 W1 = W0 - step * gradient(f)(W0)，其中 step 是一个很小的比例因子。也就是说，沿着曲率的反方向移动，直观上来看在曲线上的位置会更低。注意，比例因子 step 是必需的，因为gradient(f)(W0) 只是 W0 附近曲率的近似值，不能离 W0 太远。

随机梯度下降

给定一个可微函数，理论上可以用解析法找到它的最小值：函数的最小值是导数为 0 的点，因此你只需找到所有导数为 0 的点，然后计算函数在其中哪个点具有最小值。
将这一方法应用于神经网络，就是用解析法求出最小损失函数对应的所有权重值。可以通过对方程 gradient(f)(W) = 0 求解 W 来实现这一方法。这是包含 N 个变量的多项式方程，其中 N 是网络中系数的个数。N=2 或 N=3 时可以对这样的方程求解，但对于实际的神经网络是无法求解的，因为参数的个数不会少于几千个，而且经常有上千万个。
基于当前在随机数据批量上的损失，一点一点地对参数进行调节。由于处理的是一个可微函数，你可以计算出它的梯度，从而有效地实现第四步。沿着梯度的反方向更新权重，损失每次都会变小一点。
(1) 抽取训练样本 x 和对应目标 y 组成的数据批量。
(2) 在 x 上运行网络，得到预测值 y_pred。
(3) 计算网络在这批数据上的损失，用于衡量 y_pred 和 y 之间的距离。
(4) 计算损失相对于网络参数的梯度［一次反向传播（backward pass）］。
(5) 将参数沿着梯度的反方向移动一点，比如 W -= step * gradient，从而使这批数据上的损失减小一点。
这个方法叫作小批量随机梯度下降（mini-batch stochastic gradient descent，又称为小批量 SGD）。术语随机（stochastic）是指每批数据都是随机抽取的（stochastic 是 random在科学上的同义词）。下图给出了一维的情况，网络只有一个参数，并且只有一个训练样本。

直观上来看，为 step 因子选取合适的值是很重要的。如果取值太小，则沿着曲线的下降需要很多次迭代，而且可能会陷入局部极小点。如果取值太大，则更新权重值之后可能会出现在曲线上完全随机的位置。
注意，小批量 SGD 算法的一个变体是每次迭代时只抽取一个样本和目标，而不是抽取一批数据。这叫作真 SGD（有别于小批量 SGD）。还有另一种极端，每一次迭代都在所有数据上运行，这叫作批量 SGD。这样做的话，每次更新都更加准确，但计算代价也高得多。这两个极端之间的有效折中则是选择合理的批量大小。
此外，SGD 还有多种变体，其区别在于计算下一次权重更新时还要考虑上一次权重更新，而不是仅仅考虑当前梯度值，比如带动量的 SGD、Adagrad、RMSProp 等变体。这些变体被称为优化方法（optimization method）或优化器（optimizer）。其中动量的概念尤其值得关注，它在许多变体中都有应用。动量解决了 SGD 的两个问题：收敛速度和局部极小点。

在某个参数值附近，有一个局部极小点（local minimum）：在这个点附近，向左移动和向右移动都会导致损失值增大。如果使用小学习率的 SGD 进行优化，那么优化过程可能会陷入局部极小点，导致无法找到全局最小点。
使用动量方法可以避免这样的问题，这一方法的灵感来源于物理学。有一种有用的思维图像，就是将优化过程想象成一个小球从损失函数曲线上滚下来。如果小球的动量足够大，那么它不会卡在峡谷里，最终会到达全局最小点。动量方法的实现过程是每一步都移动小球，不仅要考虑当前的斜率值（当前的加速度），还要考虑当前的速度（来自于之前的加速度）。这在实践中的是指，更新参数 w 不仅要考虑当前的梯度值，还要考虑上一次的参数更新，其简单实现如下所示。

past_velocity = 0.
momentum = 0.1  # 不变的动量因子
while loss > 0.01: # 优化循环
	 w, loss, gradient = get_current_parameters()
	 velocity = past_velocity * momentum - learning_rate * gradient
	 w = w + momentum * velocity - learning_rate * gradient
	 past_velocity = velocity
	 update_parameter(w)

链式求导：反向传播算法

在前面的算法中，我们假设函数是可微的，因此可以明确计算其导数。在实践中，神经网络函数包含许多连接在一起的张量运算，每个运算都有简单的、已知的导数。例如，下面这个网络 f 包含 3 个张量运算 a、b 和 c，还有 3 个权重矩阵 W1、W2 和 W3。

f(W1, W2, W3) = a(W1, b(W2, c(W3)))

根据微积分的知识，这种函数链可以利用下面这个恒等式进行求导，它称为链式法则（chain rule）：(f(g(x)))’ = f’(g(x)) * g’(x)。将链式法则应用于神经网络梯度值的计算，得到的算法叫作反向传播（backpropagation，有时也叫反式微分，reverse-mode differentiation）。反向传播从最终损失值开始，从最顶层反向作用至最底层，利用链式法则计算每个参数对损失值的贡献大小。
现在以及未来数年，人们将使用能够进行符号微分（symbolic differentiation）的现代框架来实现神经网络，比如 TensorFlow。也就是说，给定一个运算链，并且已知每个运算的导数，这些框架就可以利用链式法则来计算这个运算链的梯度函数，将网络参数值映射为梯度值。对于这样的函数，反向传播就简化为调用这个梯度函数。由于符号微分的出现，你无须手动实现反向传播算法。因此，我们不会在本节浪费你的时间和精力来推导反向传播的具体公式。你只需充分理解基于梯度的优化方法的工作原理。

你可能感兴趣的:(#,python深度学习)

Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
Python深度学习-环境 cunzai1985 tensorflow python 深度学习人工智能 anaconda
Python深度学习-环境(PythonDeepLearning-Environment)Inthischapter,wewilllearnabouttheenvironmentsetupforPythonDeepLearning.Wehavetoinstallthefollowingsoftwareformakingdeeplearningalgorithms.在本章中，我们将学习为Python
Python深度学习（使用 LSTM 生成文本）--学习笔记（十八）呆萌的小透明深度学习神经网络深度学习
第8章生成式深度学习人工智能模拟人类思维过程的可能性，并不局限于被动性任务（比如目标识别）和大多数反应性任务（比如驾驶汽车），它还包括创造性活动。的确，到目前为止，我们见到的人工智能艺术作品的水平还很低。人工智能还远远比不上人类编剧、画家和作曲家。但是，替代人类始终都不是我们要谈论的主题，人工智能不会替代我们自己的智能，而是会为我们的生活和工作带来更多的智能，即另一种类型的智能。在许多领域，特别是
Python深度学习：构建下一代智能系统 2401_83402415 python python 深度学习开发语言 Transformer模型目标检测算法 Attention
近年来，伴随着以卷积神经网络（CNN）为代表的深度学习的快速发展，人工智能迈入了第三次发展浪潮，AI技术在各个领域中的应用越来越广泛。为了帮助广大学员更加深入地学习人工智能领域最近3-5年的新理论与新技术，本文讲解注意力机制、Transformer模型（BERT、GPT-1/2/3/3.5/4、DETR、ViT、SwinTransformer等）、生成式模型（变分自编码器VAE、生成式对抗网络GA
python深度学习框架——TensorFlow 零度° python python tensorflow
TensorFlow，由Google开发的开源机器学习库，以其强大的功能和灵活性，在深度学习、计算机视觉和自然语言处理等领域发挥着重要作用。本文将深入探讨TensorFlow中的一些常用函数及其参数。TensorFlow核心概念在TensorFlow中，**张量（Tensor）**是基本的数据单元，可以视为多维数组。**计算图（ComputationGraph）是由节点（代表数学运算）和边（代表张
校园打架行为识别检测系统 YOLOv5 燧机科技SuiJi YOLO 人工智能 python 计算机视觉开发语言
校园打架行为识别检测系统基于python深度学习框架+边缘分析技术，校园打架行为识别检测系统自动对校园监控视频图像信息进行分析识别。校园打架行为识别检测系统利用学校监控对校园、广场等区域进行实时监测，当监测到有人打架斗殴时，系统立即抓拍存档语音提醒，并将打架行为回传给学校监控后台，提醒后台人员及时处理打架情况。在YOLO系列算法中，针对不同的数据集，都需要设定特定长宽的锚点框。在网络训练阶段，模型
[Python人工智能] 四十二.命名实体识别 (3)基于Bert+BiLSTM-CRF的中文实体识别万字详解（异常解决中） Eastmount 人工智能 python bert 实体识别 bert4keras
从本专栏开始，作者正式研究Python深度学习、神经网络及人工智能相关知识。前文讲解如何实现中文命名实体识别研究，构建BiGRU-CRF模型实现。这篇文章将继续以中文语料为主，介绍融合Bert的实体识别研究，使用bert4keras和kears包来构建Bert+BiLSTM-CRF模型。然而，该代码最终结果有些问题，目前还在解决中，但现阶段方法先作为在线笔记分享出来。基础性文章，希望对您有帮助，如
[Python人工智能] 四十一.命名实体识别 (2)基于BiGRU-CRF的中文实体识别万字详解 Eastmount python 人工智能实体识别 BiGRU-CRF Keras
从本专栏开始，作者正式研究Python深度学习、神经网络及人工智能相关知识。前文讲解如何实现威胁情报实体识别，利用BiLSTM-CRF算法实现对ATT&CK相关的技战术实体进行提取，是安全知识图谱构建的重要支撑。这篇文章将以中文语料为主，介绍中文命名实体识别研究，并构建BiGRU-CRF模型实现。基础性文章，希望对您有帮助，如果存在错误或不足之处，还请海涵。且看且珍惜！由于上一篇文章详细讲解ATT
如何使用Hugging Face：对Transformer和pipelines的介绍第欧根尼的酒桶 transformer 深度学习人工智能
一、transformer介绍众所周知，transformer模型（如GPT-3、LLaMa和ChatGPT）已经彻底改变了人工智能领域。它们不仅被用于自然语言处理，还被应用于计算机视觉、语音处理和其他任务中。HuggingFace是一个以变换器为核心的Python深度学习库。因此，在我们深入了解其工作原理之前，我们将探讨什么是transformer，以及为什么它们能够支持如此强大的模型。1.递归
基于python深度学习的中文情感分析的系统，附源码计算机徐师兄 Python 项目 python 深度学习开发语言情感分析系统中文情感分析
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12W+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
python常用的深度学习框架攻城狮的梦 python开发 python 开发语言
目录一：介绍二：使用Python中有几个非常受欢迎的深度学习框架，它们提供了构建和训练神经网络所需的各种工具和库。以下是一些最常用的Python深度学习框架：一：介绍TensorFlow：由Google开发的TensorFlow是最受欢迎的深度学习框架之一。它支持分布式训练，能够在不同硬件上高效运行，包括CPU、GPU和TPU。TensorFlow还提供了一个高级API，称为Keras，它使构建和
第7章 python深度学习——波斯美女 weixin_42963026 python 深度学习美女
第7章高级的深度学习最佳实践本章包括以下内容：Keras函数式API使用Keras回调函数使用TensorBoard可视化工具开发最先进模型的重要最佳实践本章将介绍几种强大的工具，可以让你朝着针对困难问题来开发最先进模型这一目标更近一步。利用Keras函数式API，你可以构建类图（graph-like）模型、在不同的输入之间共享某一层，并且还可以像使用Python函数一样使用Keras模型。Ker
第8章 python深度学习——波斯美女 weixin_42963026 深度学习美女人工智能
第8章生成式深度学习本章包括以下内容：使用LSTM生成文本实现DeepDream实现神经风格迁移变分自编码器了解生成式对抗网络人工智能模拟人类思维过程的可能性，并不局限于被动性任务（比如目标识别）和大多数反应性任务（比如驾驶汽车），它还包括创造性活动。2015年夏天，我们见识了Google的DeepDream算法，它能够将一张图像转化为狗眼睛和错觉式伪影（pareidolicartifact）混合
第4章 python深度学习——（波斯美女） weixin_42963026 python 深度学习美女
第4章机器学习基础本章包括以下内容：除分类和回归之外的机器学习形式评估机器学习模型的规范流程为深度学习准备数据特征工程解决过拟合处理机器学习问题的通用工作流程学完第3章的三个实例，你应该已经知道如何用神经网络解决分类问题和回归问题，而且也看到了机器学习的核心难题：过拟合。本章会将你对这些问题的直觉固化为解决深度学习问题的可靠的概念框架。我们将把所有这些概念——模型评估、数据预处理、特征工程、解决过
第5章（python深度学习——波斯美女） weixin_42963026 深度学习计算机视觉 python
第5章深度学习用于计算机视觉本章包括以下内容：理解卷积神经网络（convnet）使用数据增强来降低过拟合使用预训练的卷积神经网络进行特征提取微调预训练的卷积神经网络将卷积神经网络学到的内容及其如何做出分类决策可视化本章将介绍卷积神经网络，也叫convnet，它是计算机视觉应用几乎都在使用的一种深度学习模型。你将学到将卷积神经网络应用于图像分类问题，特别是那些训练数据集较小的问题。如果你工作的地方并
第3章-python深度学习——（波斯美女） weixin_42963026 python 深度学习美女
第3章神经网络入门本章包括以下内容：神经网络的核心组件Keras简介建立深度学习工作站使用神经网络解决基本的分类问题与回归问题本章的目的是让你开始用神经网络来解决实际问题。你将进一步巩固在第2章第一个示例中学到的知识，还会将学到的知识应用于三个新问题，这三个问题涵盖神经网络最常见的三种使用场景：二分类问题、多分类问题和标量回归问题。本章将进一步介绍神经网络的核心组件，即层、网络、目标函数和优化器；
第2章-神经网络的数学基础——python深度学习 weixin_42963026 深度学习 python 深度学习
第2章神经网络的数学基础2.1初识神经网络我们来看一个具体的神经网络示例，使用Python的Keras库来学习手写数字分类。我们这里要解决的问题是，将手写数字的灰度图像（28像素×28像素）划分到10个类别中（0~9）。我们将使用MNIST数据集，它是机器学习领域的一个经典数据集，其历史几乎和这个领域一样长，而且已被人们深入研究。MNIST数据集包含60000张训练图像和10000张测试图像，由美
竞赛保研电影评论情感分析 - python 深度学习情感分类 iuerfee 分类 python
1前言学长分享优质竞赛项目，今天要分享的是GRU的电影评论情感分析-python深度学习情感分类学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分这是一个较为新颖的竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1项目介绍其实，很明显这个项目和微博谣言检测是一样的，也是个二分类
基于python深度学习对遥感图像识别资深码里奥深度学习 python 深度学习开发语言
数据集介绍，下载本资源后，界面如下：有两个文件夹一个是存放数据集的文件。数据集介绍：一共含有:4个类别，数据集图片数量超过:4500张,包含:'cloudy','desert','green_area','water'等。然后本地的train.txt和val.txt里面存放的是数据集的图片路径和对应的标签。运行train.py文件就会将train.txt和val.txt里面的数据进行读取然后训练，
深入浅出Pytorch(一） qq_42194332 pytorch python 深度学习
Task01:Pytorch认知和安装python实现的深度学习的科学计算包，提供了一套深度学习框架。发展好，框架简洁，项目开源，上手快。pytorch的安装选择常见的Anaconda+Pytorch+Pycharm配套工具需要区分的是：Anaconda是开源的python版本，包含conda、Python等许多科学包。Pytorch是开源的Python深度学习库。Pycharm是python的一
深度学习 pytorch的使用（张量1）在路上哟～深度学习 #pytorch pytorch 人工智能 python 深度学习
一、张量的创建PyTorch是一个Python深度学习框架，它将数据封装成张量（Tensor）来进行运算。PyTorch中的张量就是元素为同一种数据类型的多维矩阵。在PyTorch中，张量以"类"的形式封装起来，对张量的一些运算、处理的方法被封装在类中。一、创建张量的方式1、torch.tensor根据指定数量创建张量2、torch.Tensor根据形状创建张量，也可以用来创建指定数据的张量3、t
python深度学习—第6章（波斯美女） weixin_42963026 python 深度学习美女
第6章深度学习用于文本和序列6.1处理文本数据与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。它有多种实现方法。将文本分割为单词，并将每个单词转换为一个向量。将文本分割为字符，并将每个字符转换为一个向量。提取单词或字符的n-gram，并将每个n-gram转换为一个向量。n-gram是多个连续单词或字符
Python深度学习亮亮你看起风了
百度网盘地址：https://pan.baidu.com/s/1RPYPAklmwwQd128ocgElYw解压码：h8vb封面图片
资深程序员骆昊：Python从新手到大师，100天完整学习路线算法channel
Python-100天从新手到大师摘要：最近后台有些小伙伴在问我Python入门的问题，我推荐这个学习路线资料，可能你们有些已经在使用它，的确它是我见过最全的、最富有逻辑体系的Python技术栈总结，含有Python基础语法、前端、后端、Python做数据分析、数据挖掘，Python机器学习，Python深度学习等。真正做到“一文在手，打遍天下无敌手”！文章出处：https://github.co
python深度学习搭环境技巧 yang_daxia python 深度学习开发语言
1、使用-t做不同项目的环境隔离pipintallxxx-t/path/env1公共环境放一个路径，其他放单独路径，可以完美隔离训练时通过exportPYTHONPATH=/path/env1:$PYTHONPATH来调整2、安装包，因为依赖导致失败加上参数–no-deps,不按照依赖有时候不需要安装依赖，使用已经安装的即可，之后再针对性的补缺少的依赖3、目前环境下无安装，使用别的机器，安装好以后
pytorch-gpu版本安装 EelBarb pytorch 人工智能 python
前言PyTorch是一款广泛使用的python深度学习框架，它能够帮助研究者们快速构建和训练复杂的神经网络，在人工智能领域无疑是【宠儿】的存在。但刚进门的小白们应该都有困惑：为什么有些基于pytorch框架吃CPU，油得却是吃GPU，这里呢，主要是因为pytorch拥有CPU和GPU两个版本，其中毋庸置疑的是如果使用GPU的话，速度往往超于CPU版本。这里呢，我将就【pytorch-gpu版本安装
python 深度学习记录遇到的报错问题11 水w #深度学习 python 深度学习开发语言人工智能
本篇继python深度学习记录遇到的报错问题10-CSDN博客六、ValueError:cannotconvertfloatNaNtointeger报错：原因：这个错误通常是因为在尝试将NaN值转换为整数时发生的。NaN表示“非数字”，它无法转换为整数。在Python中，NaN表示NotaNumber，表示数据集中缺失的条目。它是一种特殊的float值，不能转换为float以外的其他类型。解决方法
大数据毕设分享 opencv python 深度学习垃圾图像分类系统 caxiou 毕业设计 python 毕设
文章目录0前言课题简介一、识别效果二、实现1.数据集2.实现原理和方法3.网络结构最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是opencvpython深度学习垃圾分类系统学长这里给一个题
python 深度学习记录遇到的报错问题10 水w #深度学习 linux 深度学习运维 python 人工智能
本篇继python深度学习解决遇到的报错问题9_module'd2l.torch'hasnoattribute'train_ch3-CSDN博客一、CUDAerror:nokernelimageisavailableforexecutiononthedeviceCUDAkernelerrorsmightbeasynchronouslyreportedatsomeotherAPIcall,sothe
神经网络——神经网络入门前丨尘忆·梦 keras深度学习神经网络
神经网络入门本章的目的是让你开始用神经网络来解决实际问题。你将进一步巩固在前边第一个示例中学到的知识，还会将学到的知识应用于三个新问题，这三个问题涵盖神经网络最常见的三种使用场景：二分类问题、多分类问题和标量回归问题。本章将进一步介绍神经网络的核心组件，即层、网络、目标函数和优化器；还会简要介绍Keras，它是贯穿本书的Python深度学习库。你还将建立深度学习工作站，安装好TensorFlow和
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb