あずにゃん

tensorflow 2.0 深度学习（第二部分 part2）

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）

tensorflow 2.0 深度学习（第一部分 part1）

tensorflow 2.0 深度学习（第一部分 part2）

tensorflow 2.0 深度学习（第一部分 part3）

tensorflow 2.0 深度学习（第二部分 part1）

tensorflow 2.0 深度学习（第二部分 part2）

tensorflow 2.0 深度学习（第二部分 part3）

tensorflow 2.0 深度学习 (第三部分卷积神经网络 part1)

tensorflow 2.0 深度学习 (第三部分卷积神经网络 part2)

tensorflow 2.0 深度学习（第四部分循环神经网络）

tensorflow 2.0 深度学习（第五部分 GAN生成神经网络 part1）

tensorflow 2.0 深度学习（第五部分 GAN生成神经网络 part2）

tensorflow 2.0 深度学习（第六部分强化学习）

反向传播算法

导数与梯度

import tensorflow as tf
w = tf.Variable(1.0) #
b = tf.Variable(2.0) #
x = tf.Variable(3.0) #

#1.求导，tape.gradient(y,[参数θ])求参数θ相对于y的梯度信息
#  dy_dw = tape.gradient(y, [w])
#2.通过tape.gradient(loss,[参数θ])函数求得网络参数θ的梯度信息
#  grads = tape.gradient(loss, [w1, b1, w2, b2, w3, b3]) 
#  根据loss对模型所有参数求导 tape.gradient(loss, model.trainable_variables)

with tf.GradientTape() as t1:
	with tf.GradientTape() as t2:
		y = x * w + b 
	dy_dw, dy_db = t2.gradient(y, [w, b])
d2y_dw2 = t1.gradient(dy_dw, w)

print(y) 	#tf.Tensor(5.0, shape=(), dtype=float32)
print(dy_dw) 	#tf.Tensor(3.0, shape=(), dtype=float32)
print(dy_db) 	#tf.Tensor(1.0, shape=(), dtype=float32)
print(d2y_dw2) 	#None

assert dy_dw.numpy() == 3.0 #dy_dw.numpy()值为3.0
assert d2y_dw2 is None

激活函数的导数

import  tensorflow as tf
from    tensorflow import keras
from    tensorflow.keras import datasets, layers
 
def sigmoid(x): # sigmoid函数，也可以直接使用tf.nn.sigmoid
    return 1 / (1 + tf.math.exp(-x))

def derivative(x): # sigmoid导数的计算
    return sigmoid(x)*(1-sigmoid(x))

损失函数的梯度

全连接层的梯度

单输出感知机及其梯度

多输出感知机及其梯度

多层感知机及其梯度

链式法则

import tensorflow as tf 

# 构建待优化变量
x = tf.constant(1.)
w1 = tf.constant(2.)
b1 = tf.constant(1.)
w2 = tf.constant(2.)
b2 = tf.constant(1.)
 
with tf.GradientTape(persistent=True) as tape:
	# 非tf.Variable类型的张量需要人为设置记录梯度信息
	tape.watch([w1, b1, w2, b2])
	# 构建2层网络，前向计算
	y1 = x * w1 + b1	
	y2 = y1 * w2 + b2

#1.求导，tape.gradient(y,[参数θ])求参数θ相对于y的梯度信息
#  dy_dw = tape.gradient(y, [w])
#2.通过tape.gradient(loss,[参数θ])函数求得网络参数θ的梯度信息
#  grads = tape.gradient(loss, [w1, b1, w2, b2, w3, b3]) 
#  根据loss对模型所有参数求导 tape.gradient(loss, model.trainable_variables)

# 独立求解出各个导数
dy2_dy1 = tape.gradient(y2, [y1])[0]
dy1_dw1 = tape.gradient(y1, [w1])[0]
dy2_dw1 = tape.gradient(y2, [w1])[0]

# 验证链式法则：dy2_dy1 * dy1_dw1 == dy2_dw1
print(dy2_dy1 * dy1_dw1)
print(dy2_dw1)

import tensorflow as tf 

x = tf.constant(1.)
w1 = tf.constant(2.)
b1 = tf.constant(1.)
w2 = tf.constant(2.)
b2 = tf.constant(1.)

with tf.GradientTape(persistent=True) as tape:
	tape.watch([w1, b1, w2, b2])
	y1 = x * w1 + b1
	y2 = y1 * w2 + b2

#1.求导，tape.gradient(y,[参数θ])求参数θ相对于y的梯度信息
#  dy_dw = tape.gradient(y, [w])
#2.通过tape.gradient(loss,[参数θ])函数求得网络参数θ的梯度信息
#  grads = tape.gradient(loss, [w1, b1, w2, b2, w3, b3]) 
#  根据loss对模型所有参数求导 tape.gradient(loss, model.trainable_variables)

# 独立求解出各个导数
dy2_dy1 = tape.gradient(y2, [y1])[0]
dy1_dw1 = tape.gradient(y1, [w1])[0]
dy2_dw1 = tape.gradient(y2, [w1])[0] #链式法则：dy2/dy1 * dy1/dw1 == dy2/dw1

print(dy2_dy1 * dy1_dw1)#验证链式法则：dy2_dy1 * dy1_dw1 == dy2_dw1
print(dy2_dw1)

import tensorflow as tf 

x=tf.random.normal([1,3])
w=tf.ones([3,1])
b=tf.ones([1])
y = tf.constant([1])

with tf.GradientTape() as tape:
	tape.watch([w, b])
	logits = tf.sigmoid(x@w+b) #非线性激活函数sigmoid(线性函数x@w+b)
	loss = tf.reduce_mean(tf.losses.MSE(y, logits)) #MSE均方差损失函数(真实值y - 预测值logits)

#1.求导，tape.gradient(y,[参数θ])求参数θ相对于y的梯度信息
#  dy_dw = tape.gradient(y, [w])
#2.通过tape.gradient(loss,[参数θ])函数求得网络参数θ的梯度信息
#  grads = tape.gradient(loss, [w1, b1, w2, b2, w3, b3]) 
#  根据loss对模型所有参数求导 tape.gradient(loss, model.trainable_variables)

grads = tape.gradient(loss, [w, b])
print('w grad:', grads[0]) #w的梯度值
#tf.Tensor(
#[[ 0.03690954]
# [ 0.14418897]
# [-0.0085043 ]], shape=(3, 1), dtype=float32)
print('b grad:', grads[1])  #b的梯度值
#tf.Tensor([-0.22039364], shape=(1,), dtype=float32)

import tensorflow as tf 
a = tf.linspace(-10., 10., 10)
with tf.GradientTape() as tape:
	tape.watch(a)
	y = tf.sigmoid(a)
grads = tape.gradient(y, [a])
print('x:', a.numpy())
#x: [-10.  -7.7777777  -5.5555553  -3.333333   -1.1111107   
#    1.1111116  3.333334  5.5555563   7.7777786  10. ]
print('y:', y.numpy())
#y: [4.5388937e-05 4.1878223e-04 3.8510561e-03 3.4445226e-02 2.4766389e-01
#    7.5233626e-01 9.6555483e-01 9.9614894e-01 9.9958128e-01 9.9995458e-01]
print('grad:', grads[0].numpy())
#grad: [4.5386874e-05 4.1860685e-04 3.8362255e-03 3.3258751e-02 1.8632649e-01
#       1.8632641e-01 3.3258699e-02 3.8362255e-03 4.1854731e-04 4.5416677e-05]

反向传播算法

Himmelblau 函数优化实战

import  numpy as np
from    mpl_toolkits.mplot3d import Axes3D
from    matplotlib import pyplot as plt
import  tensorflow as tf

def himmelblau(x):
 # himmelblau 函数实现
 return (x[0] ** 2 + x[1] - 11) ** 2 + (x[0] + x[1] ** 2 - 7) ** 2

#通过 np.meshgrid 函数(TensorFlow 中也有 meshgrid 函数)生成二维平面网格点坐标 
x = np.arange(-6, 6, 0.1)
y = np.arange(-6, 6, 0.1)
#x,y range: (120,) (120,)
print('x,y range:', x.shape, y.shape) 

# 生成 x-y 平面采样网格点，方便可视化。生成网格点，并拆分后返回所有点的 x,y 坐标张量。
# tf.meshgrid 会返回在 axis=2 维度切割后的 2 个张量 a,b，其中张量 a 包含了所有点的 x坐标，
# b 包含了所有点的 y 坐标，shape 都为[120,120]
X, Y = np.meshgrid(x, y)
#X,Y maps: (120, 120) (120, 120)
print('X,Y maps:', X.shape, Y.shape)
# 计算网格点上的函数值
# Z.shape (120, 120)
Z = himmelblau([X, Y]) 

# 利用 Matplotlib 库可视化 Himmelblau 函数 
# 绘制 himmelblau 函数曲面
fig = plt.figure('himmelblau')
ax = fig.gca(projection='3d')
ax.plot_surface(X, Y, Z)
ax.view_init(60, -30)
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.show()

#1.参数的初始化值对优化的影响不容忽视，可以通过尝试不同的初始化值，检验函数优化的极小值情况
#2.初始化[X,Y]为tf.constant([-1., 0.])时，优化的Himmelblau函数[X,Y]为[-2.805118   3.1313126], 极小值Z为 f(x) = 2.273736618907049e-13，即0.0000000000002273736618907049
#  初始化[X,Y]为tf.constant([1., 0.])时，优化的Himmelblau函数[X,Y]为[3.0000002 1.9999996], 极小值Z为 f(x) = 1.818989620386291e-12，即0.000000000001818989620386291
#  初始化[X,Y]为tf.constant([-4., 0.])时，优化的Himmelblau函数[X,Y]为[-3.7793102 -3.283186 ], 极小值Z为 f(x) = 0.0
#  初始化[X,Y]为tf.constant([4., 0.])时，优化的Himmelblau函数[X,Y]为[ 3.584428  -1.8481264], 极小值Z为 f(x) = 1.1368684856363775e-12，即0.0000000000011368684856363775
#3.通过改变网络参数的初始化状态tf.constant([X,Y])，我们可以得到Himmelblau函数多种极小值解Z。大致可以从图上看出它共有 4个局部极小值点，
#  并且等高线上的局部极小值Z都是 0，所以这 4个局部极小值也是全局最小值。我们可以通过解析的方法计算出局部极小值Z的坐标X、Y，
#  他们分别是(3,2), (−2 805, 3 131), (−3 779, −3 283), (3 584, −1 848)。
#  参数的初始化状态tf.constant([X,Y])是可能影响梯度下降算法的搜索轨迹的，甚至有可能搜索出完全不同的数值解。
#  这个例子就比较好的解释了不同的初始状态对梯度下降算法的影响。
#4.下面的tf.constant([X,Y])初始化参数 
x = tf.constant([4., 0.]) 
 
for step in range(200): # 循环优化 200 次
	with tf.GradientTape() as tape: #梯度跟踪
		tape.watch([x]) # 加入梯度跟踪列表
 		y = himmelblau(x) # 前向传播
 	# 反向传播
 	grads = tape.gradient(y, [x])[0] 
 	# 更新参数,0.01 为学习率
 	x -= 0.01*grads
 	# 打印优化的极小值
 	if step % 20 == 19:
 		print ('step {}: x = {}, f(x) = {}'.format(step, x.numpy(), y.numpy()))

#step 19: x = [ 3.5381215 -1.3465767], f(x) = 3.7151756286621094
#step 39: x = [ 3.5843277 -1.8470242], f(x) = 3.451140582910739e-05
#step 59: x = [ 3.584428  -1.8481253], f(x) = 4.547473508864641e-11
#step 79: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12
#step 99: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12
#step 119: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12
#step 139: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12
#step 159: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12
#step 179: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12
#step 199: x = [ 3.584428  -1.8481264], f(x) = 1.1368684856363775e-12

import  numpy as np
from    mpl_toolkits.mplot3d import Axes3D
from    matplotlib import pyplot as plt
import  tensorflow as tf
 
def himmelblau(x):
    return (x[0] ** 2 + x[1] - 11) ** 2 + (x[0] + x[1] ** 2 - 7) ** 2
 
x = np.arange(-6, 6, 0.1)
y = np.arange(-6, 6, 0.1)
print('x,y range:', x.shape, y.shape)
X, Y = np.meshgrid(x, y)
print('X,Y maps:', X.shape, Y.shape)
Z = himmelblau([X, Y])

fig = plt.figure('himmelblau')
ax = fig.gca(projection='3d')
ax.plot_surface(X, Y, Z)
ax.view_init(60, -30)
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.show()
 
# [-1., 0.],[1., 0.], [-4, 0.], [4, 0.]
x = tf.constant([4., 0.])

for step in range(200):
    with tf.GradientTape() as tape:
        tape.watch([x])
        y = himmelblau(x)

    grads = tape.gradient(y, [x])[0] 
    x -= 0.01*grads
 
    if step % 20 == 0:
        print ('step {}: x = {}, f(x) = {}'.format(step, x.numpy(), y.numpy()))

import  numpy as np
from    mpl_toolkits.mplot3d import Axes3D
from    matplotlib import pyplot as plt
import  tensorflow as tf
 
def himmelblau(x):
    # himmelblau函数实现
    return (x[0] ** 2 + x[1] - 11) ** 2 + (x[0] + x[1] ** 2 - 7) ** 2
 
x = np.arange(-6, 6, 0.1)
y = np.arange(-6, 6, 0.1)
print('x,y range:', x.shape, y.shape)
# 生成x-y平面采样网格点，方便可视化
X, Y = np.meshgrid(x, y)
print('X,Y maps:', X.shape, Y.shape)
Z = himmelblau([X, Y]) # 计算网格点上的函数值

# 绘制himmelblau函数曲面
fig = plt.figure('himmelblau')
ax = fig.gca(projection='3d')
ax.plot_surface(X, Y, Z)
ax.view_init(60, -30)
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.show()

# 参数的初始化值对优化的影响不容忽视，可以通过尝试不同的初始化值，
# 检验函数优化的极小值情况
# [-1., 0.], [1., 0.], [-4, 0.], [4, 0.]
# x = tf.constant([-1., 0.])
# x = tf.constant([4., 0.])
# x = tf.constant([1., 0.])
# x = tf.constant([-4., 0.])
x = tf.constant([-2., 2.])

for step in range(200):# 循环优化
    with tf.GradientTape() as tape: #梯度跟踪
        tape.watch([x]) # 记录梯度
        y = himmelblau(x) # 前向传播
    # 反向传播
    grads = tape.gradient(y, [x])[0] 
    # 更新参数,0.01为学习率
    x -= 0.01*grads
    # 打印优化的极小值
    if step % 20 == 19:
        print ('step {}: x = {}, f(x) = {}'
               .format(step, x.numpy(), y.numpy()))

反向传播算法实战

from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
import seaborn as sns
from matplotlib import pyplot as plt

N_SAMPLES = 2000  # 采样点数
TEST_SIZE = 0.3  # 测试数量比率
# 利用工具函数直接生成数据集
X, y = make_moons(n_samples=N_SAMPLES, noise=0.2, random_state=100)
# 将 2000 个点按着 7:3 分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=42)
print(X.shape, y.shape)  # (2000, 2) (2000,)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)  # (1400, 2) (600, 2) (1400,) (600,)


# 绘制数据集的分布，X 为 2D 坐标，y 为数据点的标签
def make_plot(X, y, plot_name, file_name=None, XX=None, YY=None, preds=None, dark=False):
    if (dark):
        plt.style.use('dark_background')
    else:
        sns.set_style("whitegrid")
    plt.figure(figsize=(16, 12))
    axes = plt.gca()
    axes.set(xlabel="$x_1$", ylabel="$x_2$")
    plt.title(plot_name, fontsize=30)
    plt.subplots_adjust(left=0.20)
    plt.subplots_adjust(right=0.80)
    if (XX is not None and YY is not None and preds is not None):
        plt.contourf(XX, YY, preds.reshape(XX.shape), 25, alpha=1, cmap=cm.Spectral)
        plt.contour(XX, YY, preds.reshape(XX.shape), levels=[.5], cmap="Greys", vmin=0, vmax=.6)
    # 绘制散点图，根据标签区分颜色
    plt.scatter(X[:, 0], X[:, 1], c=y.ravel(), s=40, cmap=plt.cm.Spectral, edgecolors='none')
    plt.savefig('dataset.svg')
    plt.close()
 
# 调用 make_plot 函数绘制数据的分布，其中 X 为 2D 坐标，y 为标签
make_plot(X, y, "Classification Dataset Visualization ")
plt.show()

import numpy as np

class Layer:
    # 全连接网络层
    def __init__(self, n_input, n_neurons, activation=None, weights=None, bias=None):
        """
        :param int n_input: 输入节点数
        :param int n_neurons: 输出节点数
        :param str activation: 激活函数类型
        :param weights: 权值张量，默认类内部生成
        :param bias: 偏置，默认类内部生成
        """
        # 通过正态分布初始化网络权值，初始化非常重要，不合适的初始化将导致网络不收敛
        # weights [输入节点数,输出节点]，bias [输出节点,]
        self.weights = weights if weights is not None else np.random.randn(n_input, n_neurons) * np.sqrt(1 / n_neurons)
        self.bias = bias if bias is not None else np.random.rand(n_neurons) * 0.1
        self.activation = activation  # 激活函数类型，如’sigmoid’
        self.last_activation = None  # 激活函数的输出值 o
        self.error = None  # 用于计算当前层的 delta 变量的中间变量
        self.delta = None  # 记录当前层的 delta 变量，用于计算梯度

    # 网络层的前向传播
    def activate(self, x):
        # 前向传播
        r = np.dot(x, self.weights) + self.bias  # X@W+b
        # 通过激活函数，得到全连接层的输出 o
        self.last_activation = self._apply_activation(r)
        return self.last_activation

    # self._apply_activation 实现了不同的激活函数的前向计算过程 
    def _apply_activation(self, r):
        # 计算激活函数的输出
        if self.activation is None:
            return r  # 无激活函数，直接返回
        # ReLU 激活函数
        elif self.activation == 'relu':
            return np.maximum(r, 0)
        # tanh
        elif self.activation == 'tanh':
            return np.tanh(r)
        # sigmoid
        elif self.activation == 'sigmoid':
            return 1 / (1 + np.exp(-r))
        return r

    # 针对于不同的激活函数，它们的导数计算实现如下
    def apply_activation_derivative(self, r):
        # 计算激活函数的导数
        # 无激活函数，导数为 1
        if self.activation is None:
            return np.ones_like(r)
        # ReLU 函数的导数实现
        elif self.activation == 'relu':
            grad = np.array(r, copy=True)
            grad[r > 0] = 1.
            grad[r <= 0] = 0.
            return grad
        # tanh 函数的导数实现
        elif self.activation == 'tanh':
            return 1 - r ** 2
        # Sigmoid 函数的导数实现
        elif self.activation == 'sigmoid':
            # 可以看到，Sigmoid 函数的导数实现为 ∗ (1 − )，其中即为()。
            return r * (1 - r)
        return r

class NeuralNetwork:
    # 神经网络大类
    def __init__(self):
        self._layers = []  # 网络层对象列表

    def add_layer(self, layer):
        # 追加网络层
        self._layers.append(layer)

    # 网络的前向传播只需要循环调用网络层对象的前向计算函数即可
    def feed_forward(self, X):
        # 前向传播
        for layer in self._layers:
            # 依次通过各个网络层
            X = layer.activate(X)
        return X

    1.前向传播：
        从前往后(从第一层隐藏层最后到输出层)
            每一层中的第一步是线性函数w@x+b=z，每一层中的第二步是非线性函数(激活函数)。
            最后输出层第二步激活函数的输出值作为预测值，输入到损失函数计算loss。
        
    2.反向传播：
        1.从后往前(输出层到第一层隐藏层)求每一层的delta变量
            1.输出层：
                 = output(1 − output)(output − y) = (1 − )(y - output)
                1.第一步：先计算损失函数的导数，比如此处计算均方差的导数：中间值error = 真实标签y - 预测值output，公式L/ = ( −yi)，为output，yi为y。
                2.第二步：然后计算激活函数的导数，比如此处计算Sigmoid的导数：output(1 − output)，output为预测值，公式/ * () = (1 − )。
                3.第三步：最后把损失函数导数值和激活函数导数值两者相乘得出delta变量值 = output(1 − output)(output − y) = (1 − )(y - output)。
                
            2.最后一层隐藏层逐一计算到第一层隐藏层：
                 = activation(1 − activation) ∑j Jj ij
                1.第一步：先计算当前层(比如第三层隐藏层)的下一层(比如输出层)的weights权重矩阵和delta变量值两者的dot矩阵相乘，
                          作为当前层的中间值error = np.dot(下一层weights, 下一层delta) = ∑j Jj ij，ij为下一层weights，下一层delta为Jj。
                2.第二步：计算当前层激活函数的导数，比如此处计算Sigmoid的导数：activation(1 − activation)，activation为激活函数输出值，公式/ * () = (1 − )。
                3.第三步：最后把当前层的中间值error和激活函数导数值两者相乘得出delta变量值 = activation(1 − activation) ∑j Jj ij。
                
        2.从前往后(第一层隐藏层到输出层)更新每一层的模型参数θ
            L/θ = θ_grad =  * 激活函数的输出o.T(或者输入层的输出o.T)
            θ = θ - lr * θ_grad = θ - lr * L/θ
            1.第一步：获取上一层网络层激活函数的输出o
                1.第一层隐藏层：使用输入层的输出作为o。
                2.第二层隐藏层到输出层：使用上一层网络层激活函数的输出activation作为o，比如第二层隐藏层使用第一层激活函数的输出activation作为o。
            2.第二步：当前层delta变量值 * 激活函数的输出o.T(或者输入层的输出o.T) = θ_grad = L/θ
            3.第三步：θ = θ - lr * θ_grad = θ - lr * L/θ：其中 L/θ表示loss对于参数θ的梯度表示为θ_grad，用于更新参数θ，lr为学习率。

class NeuralNetwork:
    # 神经网络大类
    def __init__(self):
        self._layers = []  # 网络层对象列表

    def add_layer(self, layer):
        # 追加网络层
        self._layers.append(layer)

    # 网络的前向传播只需要循环调用网络层对象的前向计算函数即可
    def feed_forward(self, X):
        # 前向传播
        for layer in self._layers:
            # 依次通过各个网络层
            X = layer.activate(X)
        return X

    """
    1.前向传播：
        从前往后(从第一层隐藏层最后到输出层)
            每一层中的第一步是线性函数w@x+b=z，每一层中的第二步是非线性函数(激活函数)。
            最后输出层第二步激活函数的输出值作为预测值，输入到损失函数计算loss。
        
    2.反向传播：
        1.从后往前(输出层到第一层隐藏层)求每一层的delta变量
            1.输出层：
                 = output(1 − output)(output − y) = (1 − )(y - output)
                1.第一步：先计算损失函数的导数，比如此处计算均方差的导数：中间值error = 真实标签y - 预测值output，公式L/ = ( −yi)，为output，yi为y。
                2.第二步：然后计算激活函数的导数，比如此处计算Sigmoid的导数：output(1 − output)，output为预测值，公式/ * () = (1 − )。
                3.第三步：最后把损失函数导数值和激活函数导数值两者相乘得出delta变量值 = output(1 − output)(output − y) = (1 − )(y - output)。
                
            2.最后一层隐藏层逐一计算到第一层隐藏层：
                 = activation(1 − activation) ∑j Jj ij
                1.第一步：先计算当前层(比如第三层隐藏层)的下一层(比如输出层)的weights权重矩阵和delta变量值两者的dot矩阵相乘，
                          作为当前层的中间值error = np.dot(下一层weights, 下一层delta) = ∑j Jj ij，ij为下一层weights，下一层delta为Jj。
                2.第二步：计算当前层激活函数的导数，比如此处计算Sigmoid的导数：activation(1 − activation)，activation为激活函数输出值，
                          公式/ * () = (1 − )。
                3.第三步：最后把当前层的中间值error和激活函数导数值两者相乘得出delta变量值 = activation(1 − activation) ∑j Jj ij。
                
        2.从前往后(第一层隐藏层到输出层)更新每一层的模型参数θ
            L/θ = θ_grad =  * 激活函数的输出o.T(或者输入层的输出o.T)
            θ = θ - lr * θ_grad = θ - lr * L/θ
            1.第一步：获取上一层网络层激活函数的输出o
                1.第一层隐藏层：使用输入层的输出作为o。
                2.第二层隐藏层到输出层：使用上一层网络层激活函数的输出activation作为o，比如第二层隐藏层使用第一层激活函数的输出activation作为o。
            2.第二步：当前层delta变量值 * 激活函数的输出o.T(或者输入层的输出o.T) = θ_grad = L/θ
            3.第三步：θ = θ - lr * θ_grad = θ - lr * L/θ：其中 L/θ表示loss对于参数θ的梯度表示为θ_grad，用于更新参数θ，lr为学习率。
    """
    # 网络模型的反向传播实现稍复杂，需要从最末层开始，计算每层的变量。
    # 根据我们推导的梯度公式，将计算出的变量存储在 Layer 类的 delta 变量中，用于计算梯度。
    # 在 backpropagation 函数中，反向计算每层的变量，并根据梯度公式计算每层参数的梯度值，按着梯度下降算法完成一次参数的更新。
    def backpropagation(self, X, y, learning_rate):
        # 反向传播算法实现
        # 前向计算，得到输出值
        output = self.feed_forward(X)
        # range(4)+reversed表示 反转从大到小遍历为 3/2/1/0，即从最后一层输出层开始从后往前遍历每一层
        for i in reversed(range(len(self._layers))):  # 反向循环
            layer = self._layers[i]  # 得到当前层对象
            # 如果是输出层，获取的是layers[3]==layers[-1]
            if layer == self._layers[-1]:  # 对于输出层
                # 计算 2分类任务的均方差的导数 L/ = ( −yi)。y为yi，即真实值；output为 ，即模型输出层的sigmoid激活函数输出的预测值
                # 第一步：计算损失函数的导数，此处为使用 均方差函数的导数 计算出当前层 delta变量的 中间变量error
                #         = (1 − )( − )，为输出层输出的预测值，为真实值，( − )即为 y - output
                layer.error = y - output
                # 关键步骤：计算最后一层的 delta，参考输出层的梯度公式，此处即计算输出层所使用的sigmoid的的导数
                # 第二步：apply_activation_derivative计算激活函数的导数，此处为计算sigmoid激活函数的导数，output为 模型输出层的sigmoid激活函数输出的预测值，
                #        中间变量error为均方差函数的导数值，将计算出的变量存储在Layer类的delta变量中，用于计算梯度。
                #         = (1 − )( − )，为输出层输出的预测值，为真实值，′ = (1 − )，将()写回形式，
                #	       即变成′ = (1 − )，(1 − )即为 apply_activation_derivative(output)
                layer.delta = layer.error * layer.apply_activation_derivative(output)
            # 如果是隐藏层，获取的分别为layers[2](第三层隐藏层)、layers[1](第二层隐藏层)、layers[0](第一层隐藏层)
            else:
                # 第一步：获取下一层Layer对象，获取的分别为layers[3](输出层)、layers[2](第三层隐藏层)、layers[1](第二层隐藏层)
                next_layer = self._layers[i + 1]  # 得到下一层对象
                # 第二步：使用 下一层Layer的weights权重 和 下一层Layer的delta中保存的 计算出当前层 delta变量的 中间变量error。
                #       1.在计算layers[2](第三层隐藏层)的delta变量的 中间变量error 使用的是 layers[3](输出层)的weights权重、变量。
                #         Jj = j(1 − j) ∑k  jk，jk即下一层输出层的next_layer.weights，即下一层输出层的next_layer.delta变量。
                #         ∑k  jk 即为 layer.error，即为 np.dot(next_layer.weights, next_layer.delta)
                #       2.在计算layers[1](第二层隐藏层)的delta变量的 中间变量error 使用的是 layers[2](第三层隐藏层)的weights权重、变量。
                #          = (1 − ) ∑j Jj j，j即第三层隐藏层的next_layer.weights，Jj即第三层隐藏层的next_layer.delta变量。
                #         ∑j Jj j 即为 layer.error，即为 np.dot(next_layer.weights, next_layer.delta)
                #       3.在计算layers[0](第一层隐藏层)的delta变量的 中间变量error 使用的是 layers[1](第二层隐藏层)的weights权重、变量。
                layer.error = np.dot(next_layer.weights, next_layer.delta)
                # 关键步骤：计算隐藏层的 delta，参考隐藏层的梯度公式
                # 第三步：last_activation为模型隐藏层的激活函数的输出值，此处即为sigmoid激活函数的输出值。
                #        apply_activation_derivative计算激活函数的导数，此处为计算sigmoid激活函数的导数。
                #        将计算出的变量存储在 Layer类的 delta变量中，用于计算梯度。
                #        1.在计算layers[2](第三层隐藏层)的delta变量：Jj = j(1 − j) ∑k  jk，
                #          ′ = (1 − )，将()写回j形式，即变成′ = j(1 − j)，j为输出层输出的预测值，
                #         即apply_activation_derivative(last_activation)，∑k  jk 即下一层输出层Layer对象的。
                #        2.在计算layers[1](第二层隐藏层)的delta变量： = (1 − ) ∑j Jj j，
                #          ′ = (1 − )，将()写回形式，即变成′ = (1 − )，为第三层隐藏层输出的预测值，
                #          即apply_activation_derivative(last_activation)，∑j Jj j 即下一层第三层隐藏层Layer对象的。
                #       3.在计算layers[0](第一层隐藏层)的delta变量：。。。。。。
                layer.delta = layer.error * layer.apply_activation_derivative(layer.last_activation)

        # 在反向计算完每层的变量delta后，只需要按着 L/W_j = *_Jj 公式计算每层的梯度，并更新网络参数即可。
        # 由于代码中的 delta 计算的是−，因此更新时使用了加号。
        # 循环更新权值
        for i in range(len(self._layers)):  # range(4)遍历为0/1/2/3，即从第一层隐藏层开始遍历到输出层。
            layer = self._layers[i]  # 得到当前层对象
            # atleast_xd 支持将输入数据直接视为x维。这里的 x可以表示：1，2，3。
            # np.atleast_1d([1])：[1]。np.atleast_2d([1])：[[1]]。np.atleast_3d([1])：[[[1]]]。
            # 第一步：o_i 为上一网络层激活函数的输出，也即为当前连接的起始节点的输出值，last_activation为激活函数的输出值。
            #       1.比如为第一层隐藏层时，X使用输入层的输出作为o_i
            #       2.非第一层隐藏层时，使用上一层激活函数的输出作为o_i。比如第二层隐藏层时，使用第一层激活函数的输出作为o_i；
            #         第三层隐藏层时，使用第二层激活函数的输出作为o_i；输出层时，使用第第三层激活函数的输出作为o_i。
            o_i = np.atleast_2d(X if i == 0 else self._layers[i - 1].last_activation)
            # 梯度下降算法，delta 是公式中的负数，故这里用加号
            # w1 = w1 - lr * w1_grad 优化器规则，根据 模型参数θ = θ - lr * grad 更新网络参数，grad即为此处的 L/W_j
            # layer.delta * o_i.T：即为grad，即为L/W_j = _Jj*，delta即为_Jj，可以写为当前连接的起始节点的输出值与终止节点j的梯度信息_Jj的相乘运算
            # 第二步：从第一层隐藏层开始逐一更新参数θ到输出层为止
            #       第一层隐藏层grad：L/_ =  * ，layer.delta为 = (1 − )∑j Jj j，o_i为 即上一层输入层的输出。
            #       第二层隐藏层grad：L/_j = Jj * i，layer.delta为Jj = j (1 − j )∑k  jk，o_i为i 即上一层第一层隐藏层的激活函数输出。
            #       第三层隐藏层grad：∂L/_j =  * j，layer.delta为 = (1 − )( − ) = ′( − )，
            #       o_i为j 即上一层第二层隐藏层的激活函数输出。输出层grad：。。。，o_i 即上一层第三层隐藏层的激活函数输出。
            layer.weights += layer.delta * o_i.T * learning_rate

    def train(self, X_train, X_test, y_train, y_test, learning_rate, max_epochs):
        # 网络训练函数
        # one-hot 编码
        # 二分类任务网络设计为 2 个输出节点，因此需要将真实标签 y 进行 one-hot 编码
        y_onehot = np.zeros((y_train.shape[0], 2))  # y_onehot.shape (1400, 2)
        # y_train为(1400,)个标签，np.arange(y_train.shape[0])遍历从0~1399个数字，即把每个标签one-hot化为(1,2)
        y_onehot[np.arange(y_train.shape[0]), y_train] = 1

        # 将 one-hot 编码后的真实标签与网络的输出计算均方差，并调用反向传播函数更新网络参数，循环迭代训练集 1000 遍
        mses = []
        for i in range(max_epochs):  # 训练 1000 个 epoch
            for j in range(len(X_train)):  # 一次训练一个样本
                self.backpropagation(X_train[j], y_onehot[j], learning_rate)

            if i % 10 == 0:
                # 打印出 MSE Loss
                mse = np.mean(np.square(y_onehot - self.feed_forward(X_train)))
                mses.append(mse)
                print('Epoch: #%s, MSE: %f' % (i, float(mse)))
                # 统计并打印准确率
                # print('Accuracy: %.2f%%' % (self.accuracy(self.predict(X_test), y_test.flatten()) * 100))

        return mses

# 实例化网络对象，添加 4 层全连接层 
nn = NeuralNetwork()  # 实例化网络类
nn.add_layer(Layer(2, 25, 'sigmoid'))    # 隐藏层 1, 2=>25
nn.add_layer(Layer(25, 50, 'sigmoid')) # 隐藏层 2, 25=>50
nn.add_layer(Layer(50, 25, 'sigmoid')) # 隐藏层 3, 50=>25
nn.add_layer(Layer(25, 2, 'sigmoid'))  # 输出层, 25=>2

from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
import seaborn as sns
from matplotlib import pyplot as plt
import numpy as np

N_SAMPLES = 2000  # 采样点数
TEST_SIZE = 0.3  # 测试数量比率
# 利用工具函数直接生成数据集
X, y = make_moons(n_samples=N_SAMPLES, noise=0.2, random_state=100)
# 将 2000 个点按着 7:3 分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=42)
print(X.shape, y.shape)  # (2000, 2) (2000,)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)  # (1400, 2) (600, 2) (1400,) (600,)


# 绘制数据集的分布，X 为 2D 坐标，y 为数据点的标签
def make_plot(X, y, plot_name, file_name=None, XX=None, YY=None, preds=None, dark=False):
    if (dark):
        plt.style.use('dark_background')
    else:
        sns.set_style("whitegrid")
    plt.figure(figsize=(16, 12))
    axes = plt.gca()
    axes.set(xlabel="$x_1$", ylabel="$x_2$")
    plt.title(plot_name, fontsize=30)
    plt.subplots_adjust(left=0.20)
    plt.subplots_adjust(right=0.80)
    if (XX is not None and YY is not None and preds is not None):
        plt.contourf(XX, YY, preds.reshape(XX.shape), 25, alpha=1, cmap=cm.Spectral)
        plt.contour(XX, YY, preds.reshape(XX.shape), levels=[.5], cmap="Greys", vmin=0, vmax=.6)
    # 绘制散点图，根据标签区分颜色
    plt.scatter(X[:, 0], X[:, 1], c=y.ravel(), s=40, cmap=plt.cm.Spectral, edgecolors='none')
    plt.savefig('dataset.svg')
    plt.close()


# 调用 make_plot 函数绘制数据的分布，其中 X 为 2D 坐标，y 为标签
make_plot(X, y, "Classification Dataset Visualization ")
plt.show()


class Layer:
    # 全连接网络层
    def __init__(self, n_input, n_neurons, activation=None, weights=None, bias=None):
        """
        :param int n_input: 输入节点数
        :param int n_neurons: 输出节点数
        :param str activation: 激活函数类型
        :param weights: 权值张量，默认类内部生成
        :param bias: 偏置，默认类内部生成
        """
        # 通过正态分布初始化网络权值，初始化非常重要，不合适的初始化将导致网络不收敛
        # weights [输入节点数,输出节点]，bias [输出节点,]
        self.weights = weights if weights is not None else np.random.randn(n_input, n_neurons) * np.sqrt(1 / n_neurons)
        self.bias = bias if bias is not None else np.random.rand(n_neurons) * 0.1
        self.activation = activation  # 激活函数类型，如’sigmoid’
        self.last_activation = None  # 激活函数的输出值 o
        self.error = None  # 用于计算当前层的 delta 变量的中间变量
        self.delta = None  # 记录当前层的 delta 变量，用于计算梯度

    # 网络层的前向传播
    def activate(self, x):
        # 前向传播
        r = np.dot(x, self.weights) + self.bias  # X@W+b
        # 通过激活函数，得到全连接层的输出 o
        self.last_activation = self._apply_activation(r)
        return self.last_activation

    # self._apply_activation 实现了不同的激活函数的前向计算过程：
    def _apply_activation(self, r):
        # 计算激活函数的输出
        if self.activation is None:
            return r  # 无激活函数，直接返回
        # ReLU 激活函数 () := (0, )
        elif self.activation == 'relu':
            return np.maximum(r, 0)
        # tanh 激活函数 tanh(x)即为 2*sigmoid(2*x) - 1
        elif self.activation == 'tanh':
            return np.tanh(r)
        # sigmoid 激活函数 1 / (1 + np.exp(-x))
        elif self.activation == 'sigmoid':
            return 1 / (1 + np.exp(-r))
        return r

    # 针对于不同的激活函数，它们的导数计算实现如下
    def apply_activation_derivative(self, r):
        # 计算激活函数的导数
        # 无激活函数，导数为 1
        if self.activation is None:
            return np.ones_like(r)
        # ReLU 函数的导数实现
        elif self.activation == 'relu':
            grad = np.array(r, copy=True)  # 用于保存梯度的张量
            grad[r > 0] = 1.  # 元素为正的元素导数为 1
            grad[r <= 0] = 0.  # 元素为负的导数为 0
            return grad
        # tanh 函数的导数实现 1-tanh(x)**2
        elif self.activation == 'tanh':
            return 1 - r ** 2
        # Sigmoid 函数的导数实现 sigmoid(x)*(1-sigmoid(x))
        elif self.activation == 'sigmoid':
            # 可以看到，Sigmoid 函数的导数实现为 ∗ (1 − )，其中即为()。
            return r * (1 - r)
        return r


class NeuralNetwork:
    # 神经网络大类
    def __init__(self):
        self._layers = []  # 网络层对象列表

    def add_layer(self, layer):
        # 追加网络层
        self._layers.append(layer)

    # 网络的前向传播只需要循环调用网络层对象的前向计算函数即可
    def feed_forward(self, X):
        # 前向传播
        for layer in self._layers:
            # 依次通过各个网络层
            X = layer.activate(X)
        return X

    """
    1.前向传播：
        从前往后(从第一层隐藏层最后到输出层)
            每一层中的第一步是线性函数w@x+b=z，每一层中的第二步是非线性函数(激活函数)。
            最后输出层第二步激活函数的输出值作为预测值，输入到损失函数计算loss。
        
    2.反向传播：
        1.从后往前(输出层到第一层隐藏层)求每一层的delta变量
            1.输出层：
                 = output(1 − output)(output − y) = (1 − )(y - output)
                1.第一步：先计算损失函数的导数，比如此处计算均方差的导数：中间值error = 真实标签y - 预测值output，公式L/ = ( −yi)，为output，yi为y。
                2.第二步：然后计算激活函数的导数，比如此处计算Sigmoid的导数：output(1 − output)，output为预测值，公式/ * () = (1 − )。
                3.第三步：最后把损失函数导数值和激活函数导数值两者相乘得出delta变量值 = output(1 − output)(output − y) = (1 − )(y - output)。
                
            2.最后一层隐藏层逐一计算到第一层隐藏层：
                 = activation(1 − activation) ∑j Jj ij
                1.第一步：先计算当前层(比如第三层隐藏层)的上一层(比如输出层)的weights权重矩阵和delta变量值两者的dot矩阵相乘，
                          作为当前层的中间值error = np.dot(上一层weights, 上一层delta) = ∑j Jj ij，ij为上一层weights，上一层delta为Jj。
                2.第二步：计算当前层激活函数的导数，比如此处计算Sigmoid的导数：activation(1 − activation)，activation为激活函数输出值，公式/ * () = (1 − )。
                3.第三步：最后把当前层的中间值error和激活函数导数值两者相乘得出delta变量值 = activation(1 − activation) ∑j Jj ij。
                
        2.从前往后(第一层隐藏层到输出层)更新每一层的模型参数θ
            L/θ = θ_grad =  * 激活函数的输出o.T(或者输入层的输出o.T)
            θ = θ - lr * θ_grad = θ - lr * L/θ
            1.第一步：获取上一层网络层激活函数的输出o
                1.第一层隐藏层：使用输入层的输出作为o。
                2.第二层隐藏层到输出层：使用上一层网络层激活函数的输出activation作为o，比如第二层隐藏层使用第一层激活函数的输出activation作为o。
            2.第二步：当前层delta变量值 * 激活函数的输出o.T(或者输入层的输出o.T) = θ_grad = L/θ
            3.第三步：θ = θ - lr * θ_grad = θ - lr * L/θ：其中 L/θ表示loss对于参数θ的梯度表示为θ_grad，用于更新参数θ，lr为学习率。
    """
    # 网络模型的反向传播实现稍复杂，需要从最末层开始，计算每层的变量。
    # 根据我们推导的梯度公式，将计算出的变量存储在 Layer 类的 delta 变量中，用于计算梯度。
    # 在 backpropagation 函数中，反向计算每层的变量，并根据梯度公式计算每层参数的梯度值，按着梯度下降算法完成一次参数的更新。
    def backpropagation(self, X, y, learning_rate):
        # 反向传播算法实现
        # 前向计算，得到输出值
        output = self.feed_forward(X)
        # range(4)+reversed表示 反转从大到小遍历为 3/2/1/0，即从最后一层输出层开始从后往前遍历每一层
        for i in reversed(range(len(self._layers))):  # 反向循环
            layer = self._layers[i]  # 得到当前层对象
            # 如果是输出层，获取的是layers[3]==layers[-1]
            if layer == self._layers[-1]:  # 对于输出层
                # 计算 2分类任务的均方差的导数 L/ = ( −yi)。y为yi，即真实值；output为 ，即模型输出层的sigmoid激活函数输出的预测值
                # 第一步：计算损失函数的导数，此处为使用 均方差函数的导数 计算出当前层 delta变量的 中间变量error
                #         = (1 − )( − )，为输出层输出的预测值，为真实值，( − )即为 y - output
                layer.error = y - output
                # 关键步骤：计算最后一层的 delta，参考输出层的梯度公式，此处即计算输出层所使用的sigmoid的的导数
                # 第二步：apply_activation_derivative计算激活函数的导数，此处为计算sigmoid激活函数的导数，output为 模型输出层的sigmoid激活函数输出的预测值，
                #        中间变量error为均方差函数的导数值，将计算出的变量存储在Layer类的delta变量中，用于计算梯度。
                #         = (1 − )( − )，为输出层输出的预测值，为真实值，′ = (1 − )，将()写回形式，即变成′ = (1 − )，
                #        (1 − )即为 apply_activation_derivative(output)
                layer.delta = layer.error * layer.apply_activation_derivative(output)
            # 如果是隐藏层，获取的分别为layers[2](第三层隐藏层)、layers[1](第二层隐藏层)、layers[0](第一层隐藏层)
            else:
                # 第一步：获取下一层Layer对象，获取的分别为layers[3](输出层)、layers[2](第三层隐藏层)、layers[1](第二层隐藏层)
                next_layer = self._layers[i + 1]  # 得到下一层对象
                # 第二步：使用 下一层Layer的weights权重 和 下一层Layer的delta中保存的 计算出当前层 delta变量的 中间变量error。
                #       1.在计算layers[2](第三层隐藏层)的delta变量的 中间变量error 使用的是 layers[3](输出层)的weights权重、变量。
                #         Jj = j(1 − j) ∑k  jk，jk即下一层输出层的next_layer.weights，即下一层输出层的next_layer.delta变量。
                #         ∑k  jk 即为 layer.error，即为 np.dot(next_layer.weights, next_layer.delta)
                #       2.在计算layers[1](第二层隐藏层)的delta变量的 中间变量error 使用的是 layers[2](第三层隐藏层)的weights权重、变量。
                #          = (1 − ) ∑j Jj j，j即第三层隐藏层的next_layer.weights，Jj即第三层隐藏层的next_layer.delta变量。
                #         ∑j Jj j 即为 layer.error，即为 np.dot(next_layer.weights, next_layer.delta)
                #       3.在计算layers[0](第一层隐藏层)的delta变量的 中间变量error 使用的是 layers[1](第二层隐藏层)的weights权重、变量。
                layer.error = np.dot(next_layer.weights, next_layer.delta)
                # 关键步骤：计算隐藏层的 delta，参考隐藏层的梯度公式
                # 第三步：last_activation为模型隐藏层的激活函数的输出值，此处即为sigmoid激活函数的输出值。
                #        apply_activation_derivative计算激活函数的导数，此处为计算sigmoid激活函数的导数。
                #        将计算出的变量存储在 Layer类的 delta变量中，用于计算梯度。
                #        1.在计算layers[2](第三层隐藏层)的delta变量：Jj = j(1 − j) ∑k  jk，
                #          ′ = (1 − )，将()写回j形式，即变成′ = j(1 − j)，j为输出层输出的预测值，即apply_activation_derivative(last_activation)，
                #          ∑k  jk 即下一层输出层Layer对象的。
                #        2.在计算layers[1](第二层隐藏层)的delta变量： = (1 − ) ∑j Jj j，
                #          ′ = (1 − )，将()写回形式，即变成′ = (1 − )，为第三层隐藏层输出的预测值，即apply_activation_derivative(last_activation)，
                #          ∑j Jj j 即下一层第三层隐藏层Layer对象的。
                #       3.在计算layers[0](第一层隐藏层)的delta变量：。。。。。。
                layer.delta = layer.error * layer.apply_activation_derivative(layer.last_activation)

        # 在反向计算完每层的变量delta后，只需要按着 L/W_j = *_Jj 公式计算每层的梯度，并更新网络参数即可。
        # 由于代码中的 delta 计算的是−，因此更新时使用了加号。
        # 循环更新权值
        for i in range(len(self._layers)):  # range(4)遍历为0/1/2/3，即从第一层隐藏层开始遍历到输出层。
            layer = self._layers[i]  # 得到当前层对象
            # atleast_xd 支持将输入数据直接视为x维。这里的 x可以表示：1，2，3。
            # np.atleast_1d([1])：[1]。np.atleast_2d([1])：[[1]]。np.atleast_3d([1])：[[[1]]]。
            # 第一步：o_i 为上一网络层激活函数的输出，也即为当前连接的起始节点的输出值，last_activation为激活函数的输出值。
            #       1.比如为第一层隐藏层时，X使用输入层的输出作为o_i
            #       2.非第一层隐藏层时，使用上一层激活函数的输出作为o_i。比如第二层隐藏层时，使用第一层激活函数的输出作为o_i；
            #         第三层隐藏层时，使用第二层激活函数的输出作为o_i；输出层时，使用第第三层激活函数的输出作为o_i。
            o_i = np.atleast_2d(X if i == 0 else self._layers[i - 1].last_activation)
            # 梯度下降算法，delta 是公式中的负数，故这里用加号
            # w1 = w1 - lr * w1_grad 优化器规则，根据 模型参数θ = θ - lr * grad 更新网络参数，grad即为此处的 L/W_j
            # layer.delta * o_i.T：即为grad，即为L/W_j = _Jj*，delta即为_Jj，可以写为当前连接的起始节点的输出值与终止节点j的梯度信息_Jj的相乘运算
            # 第二步：从第一层隐藏层开始逐一更新参数θ到输出层为止
            #       第一层隐藏层grad：L/_ =  * ，layer.delta为 = (1 − )∑j Jj j，o_i为 即上一层输入层的输出。
            #       第二层隐藏层grad：L/_j = Jj * i，layer.delta为Jj = j (1 − j )∑k  jk，o_i为i 即上一层第一层隐藏层的激活函数输出。
            #       第三层隐藏层grad：∂L/_j =  * j，layer.delta为 = (1 − )( − ) = ′( − )，o_i为j 即上一层第二层隐藏层的激活函数输出。
            #       输出层grad：。。。，o_i 即上一层第三层隐藏层的激活函数输出。
            layer.weights += layer.delta * o_i.T * learning_rate

    def train(self, X_train, X_test, y_train, y_test, learning_rate, max_epochs):
        # 网络训练函数
        # one-hot 编码
        # 二分类任务网络设计为 2 个输出节点，因此需要将真实标签 y 进行 one-hot 编码
        y_onehot = np.zeros((y_train.shape[0], 2))  # y_onehot.shape (1400, 2)
        # y_train为(1400,)个标签，np.arange(y_train.shape[0])遍历从0~1399个数字，即把每个标签one-hot化为(1,2)
        y_onehot[np.arange(y_train.shape[0]), y_train] = 1

        # 将 one-hot 编码后的真实标签与网络的输出计算均方差，并调用反向传播函数更新网络参数，循环迭代训练集 1000 遍
        mses = []
        for i in range(max_epochs):  # 训练 1000 个 epoch
            for j in range(len(X_train)):  # 一次训练一个样本
                self.backpropagation(X_train[j], y_onehot[j], learning_rate)

            if i % 10 == 0:
                # 打印出 MSE Loss
                mse = np.mean(np.square(y_onehot - self.feed_forward(X_train)))
                mses.append(mse)
                print('Epoch: #%s, MSE: %f' % (i, float(mse)))
                # 统计并打印准确率
                # print('Accuracy: %.2f%%' % (self.accuracy(self.predict(X_test), y_test.flatten()) * 100))

        return mses

# 实例化网络对象，添加 4 层全连接层：
nn = NeuralNetwork()  # 实例化网络类
nn.add_layer(Layer(2, 25, 'sigmoid'))  # 隐藏层 1, 2=>25
nn.add_layer(Layer(25, 50, 'sigmoid'))  # 隐藏层 2, 25=>50
nn.add_layer(Layer(50, 25, 'sigmoid'))  # 隐藏层 3, 50=>25
nn.add_layer(Layer(25, 2, 'sigmoid'))  # 输出层, 25=>2
nn.train(X_train, X_test, y_train, y_test, 0.01, 1000)

你可能感兴趣的:(人工智能,TensorFlow)

ChatGPT是强人工智能吗? 呵呵爱吃菜 chatgpt 人工智能
ChatGPT是强人工智能吗?本文从人工智能发展的三个阶段的角度,分析当前强大的AI大模型所处的阶段,并通过对比各阶段的定义,明确各阶段的特点和未来发展方向;NarrowAI（弱人工智能）、AGI（人工通用智能）和ASI（人工超级智能）代表了人工智能发展的三个不同阶段，它们在智能水平、任务范围和应用场景上存在显著差异。以下是它们的总结与对比：1.定义与特点类型NarrowAI（弱人工智能）AGI（
GPT-4、GPT-4O 和 GPT-4O-mini 的区别与联系 surfirst LLM ai 语言模型 chatgpt
简介近年来，人工智能技术飞速发展，特别是在自然语言处理领域。GPT-4是OpenAI推出的新一代大模型，而GPT-4O和GPT-4O-mini是其优化版本，专门为不同应用场景和计算资源需求进行调整。在这篇文章中，我们将详细比较GPT-4、GPT-4O和GPT-4O-mini的区别与联系，帮助开发者更好地选择适合的模型。GPT-4是OpenAI发布的第四代通用预训练模型，具备强大的生成和理解能力，适
讯飞绘镜（ai生成视频）技术浅析（一）爱研究的小牛 AIGC—视频 AIGC—技术综述人工智能 AIGC 深度学习
讯飞绘镜（也称为星火绘镜）是科大讯飞推出的一款基于人工智能技术的短视频创作平台，旨在通过先进的AI技术简化视频创作流程，让用户能够轻松将创意转化为高质量的视频内容。以下是对讯飞绘镜相关技术、工作原理及具体实现的详细介绍：一、核心技术讯飞绘镜的核心技术主要依托于科大讯飞的星火大模型，并结合了多种先进的AI技术，包括：1.大模型技术：基于讯飞星火大模型，为脚本生成、分镜生成等提供基础能力支持。该模型能
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
开发基于WebRTC和OpenAI实时API的AI语音助手框架：技术解析与最佳实践花生糖@ AIGC学习资料库 webrtc 人工智能
随着人工智能（AI）和实时通信技术的发展，构建一个能够提供即时响应、多语言支持以及个性化用户体验的AI语音助手变得越来越重要。本文将深入探讨如何使用现代Web技术和先进的AI工具开发这样一个语音助手框架，具体来说，我们将基于Next.js、WebRTC和OpenAIAPI创建一个高效且用户友好的解决方案。技术架构主框架-Next.js选择Next.js作为主框架不仅因为它提供的服务端渲染（SSR）
国外各领域专家学者的一些谏言：如何使AI代理架构变得成功强哥之神人工智能语言模型 AI代理智能体大模型 Agent
最近在研究AI代理架构为什么比较难落地，看到有一篇文章是关于各领域专家学者对AI代理架构的一些看法，值得关注。我将其整理成了中文，大家可一起细品各家观点，全文如下。代理型人工智能被寄予厚望，其潜力在于能够独立完成复杂任务。然而，目前该领域的炒作热潮远超实际成功案例，背后原因复杂多样。“2024年，AI代理已成为众多供应商的营销热词。但对于用户组织而言，代理技术还处于早期探索阶段，充满好奇心与实验性
【人工智能时代】- 开源向量数据库比较：Chroma, Milvus, Faiss,Weaviate xiaoli8748_软件开发人工智能时代人工智能开源数据库
语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较，希望你能够选择出最符合自己特定需求的数据库。什么是向量数据库?向量数据库是一种将数据存储为高维向量的数据库，高维向量是特征或属性的数学表示。每个向量都有一定数量的维度，根据数据的复杂性和粒度，可以从数十到
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
tensorflow对应的python版本_tensorflow + python + keras 版本对应关系 weixin_39912303
TensorFlow2.2tensorflow-2.2TensorFlow2.2.0+Keras2.3.1onPython3.7.TensorFlow2.1tensorflow-2.1TensorFlow2.1.0+Keras2.3.1onPython3.6.TensorFlow2.0tensorflow-2.0TensorFlow2.0.0+Keras2.3.1onPython3.6.Tenso
（详细整理！！！！）Tensorflow与Keras、Python版本对应关系！！！今天不想Debug tensorflow keras 人工智能
小伙伴们大家好，不知道大家有没有被tensorflow框架困扰过今天我就给大家整理一下tensorflow和keras、python版本的对应关系大家这些都可以在官网找到，下面我把官网的连接给大家放在这里：在Windows环境中从源代码构建|TensorFlow(google.cn)但是为了方便大家，我给大家列在下面啦！！！下面这个是我给大家总结的（也是为我自己整理的，嘿嘿~~~）（然后后面我也把
如何解决Package ‘zipp’ requires a different Python: 3.5.2 not in '>=3.6 @_sunny_@ pip python tensorflow
如何解决Package‘zipp’requiresadifferentPython:3.5.2notin'>=3.6我出现这个问题是在我的服务器上，安装TensorFlow包的时候。原因就是Python的版本较低，Zipp的版本较高解决办法输入pip3list查看包的版本，然后将zipp包先卸载pip3uninstallzipp然后下载指定版本的Zipp包pip3installzipp==1.0.
线性回归——最小二乘法代数详细计算过程在天愿作比翼鸟在地愿为连理枝机器学习和人工智能学习概述线性回归最小二乘法机器学习
Reference:动手实战人工智能AIByDoing关于矩阵方法的求解可参考：最小二乘法矩阵详细计算过程基本定义：通过找到一条直线去拟合数据点的分布趋势的过程，就是线性回归的过程。在上图呈现的这个过程中，通过找到一条直线去拟合数据点的分布趋势的过程，就是线性回归的过程。而线性回归中的「线性」代指线性关系，也就是图中所绘制的红色直线。所以，找到最适合的那一条红色直线，就成为了线性回归中需要解决的目
《数据孤岛：AI模型训练之殇，精度与泛化的双重困境》人工智能深度学习
在人工智能飞速发展的当下，数据就是模型的“燃料”。从医疗影像诊断到智能交通调度，从电商推荐系统到金融风险预测，AI模型的精准度与泛化能力，决定了其在实际应用中的价值。然而，一个棘手的问题正阻碍着AI前行的步伐——数据孤岛。数据孤岛，是指在组织内部或不同组织之间，由于系统、管理或流程的原因，数据被孤立存储在不同的数据库、应用程序或部门中，彼此之间缺乏有效的连接和整合。据权威机构调研，在高度信息化的企
自动驾驶系统研发系列—追尾风险不再隐形：解密后碰撞预警系统（RCW）的技术与应用学步_技术自动驾驶系统研发自动驾驶人工智能机器学习 RCW
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
python3+TensorFlow 2.x 基础学习（一）刀客123 python学习 tensorflow 学习人工智能
目录TensorFlow2.x基础1、安装TensorFlow2.x2、TensorFlow2.x基础概念2、1EagerExecution2、2TensorFlow张量（Tensor）3、使用Keras构建神经网络模型3、1构建Sequential模型3、2编译模型1、Optimizer（优化器）2、Loss（损失函数）3、Metrics（评估指标）3、3训练模型3、4评估模型3、5预测4、使用
自动驾驶系列—自动驾驶MCU架构全方位解析：从单核到多核的选型指南与应用实例学步_技术自动驾驶自动驾驶单片机架构 MCU
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
经典卷积网络算法-VGG16 終不似少年遊* 人工智能学习进阶网络算法 python 人工智能神经网络图像识别
目录前言TensorFlow2.x中的tf.keras.applications使用示例主要参数迁移学习TensorFlow2.x的优势VGG16前置理解：全连接池化层具体作用与1x1池化的区别使用场景示例与1x1池化的对比总结VGG16的原始结构全局平均池化层在VGG16中的应用1.替代全连接层2.优势修改后的VGG16结构示例修改后的模型结构对比原始VGG16和修改后的模型使用场景总结前言ti
你知道吗？其实这些都是AI——智能聊天机器人贫苦游商人工智能机器人机器学习 AIGC 制造
智能聊天机器人AI：优化用户体验的智能助手在现代的数字化生活中，智能聊天机器人已经成为许多中国社交平台上不可或缺的一部分。这些机器人通过人工智能技术的支持，为用户提供各种互动服务，从回答常见问题到提供个性化建议，极大地提升了用户体验和平台的服务质量。智能聊天机器人AI的核心在于其强大的自然语言处理能力。通过分析用户的输入文本，这些系统能够理解用户的意图，并生成相应的回复。例如，当用户在购物平台上询
分享当下最热门的AI工具合集香橙薄荷心人工智能人工智能
1、ChatGPTChatGPT一个基于人工智能技术的虚拟助手，旨在为用户提供信息、解答问题和协助完成各种任务。我能够处理多种主题，包括但不限于科学、技术、文化、历史等领域。我的目标是为您提供准确、及时的帮助，以提升您的工作和生活效率这个，可免费使用GPT-3.5和GPT-4.0模型~推荐指数：⭐⭐⭐⭐⭐链接：点击直达>>>2、ChatGAIChatGAI是一个基于人工智能技术的语言模型，旨在理解
信息学/计算机系各种网站（学习资源、常用工具及其他）一只贴代码君命令大全-干货合集学习 dubbo java 开发语言算法 c++
大学指南上海交通大学生存手册中国科学技术大学人工智能与数据科学学院本科进阶指南USTC不完全入学指南大学生活质量指北科研论信息搜集AI信息搜集USTC飞跃网站计算机保研技术新闻HackerNewsTheHackerNewsTechCrunchArsTechnicaMITNews技术博客日更技术雷达学习资源CS清华计算机系学生科协技能引导文档菜鸟教程北大CS自学指南OpenSourceSociety
2024年人工智能领域发生了哪些事儿？全球AI大事件1至12月盘点人工智能aigc
2024年，对人工智能（AI）而言是激动人心的一年。这一年不仅见证了AI技术的全面突破，也深刻改变了社会生活的方方面面。从金融到医疗、从教育到娱乐，AI的深度渗透无处不在。显然，这项技术已经从概念走向普及，并开始重新定义我们的未来。一月：人机交互技术的崭新开端2024年1月30日：Neuralink脑机接口植入Neuralink宣布，首名人类成功接受脑机接口芯片植入手术。这项手术由机器人完成，芯片
第84期 | GPTSecurity周报 aigc
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
未来商贸物流：人工智能与大数据的深度融合呆码科技临沂软件开发软件开发商贸物流科技人工智能
未来商贸物流：人工智能与大数据的深度融合在当今数字化浪潮汹涌澎湃的时代，商贸物流行业正站在变革的十字路口，而人工智能与大数据宛如一对闪耀的双子星，为其照亮前行的道路，深度融合之下，一个全新的未来画卷正徐徐展开。智能预测需求：精准把握市场脉搏传统的商贸物流往往依赖过往经验和粗略的市场调研来预估货物需求，这就如同在迷雾中摸索，充满不确定性。而如今，借助大数据的海量存储与超强分析能力，以及人工智能的深度
从文字到思维：呆马GPT在人工智能领域的创新之旅呆码科技 gpt 人工智能
引言生成式预训练变换器（GenerativePre-trainedTransformer，简称GPT）领域是人工智能技术中的一大革新。自OpenAI推出第一代GPT以来，该技术经历了多代发展，不断提升模型的规模、复杂度和智能化程度。GPT模型通过在大规模数据集上进行预训练，学习语言的统计规律和世界知识，然后在特定任务上进行微调，以适应不同的应用需求。GPT领域的发展推动了自然语言处理（NLP）技术
小米Vela操作系统开源：AIoT时代的全新引擎 lilu8888888 开源前端
小米近日正式开源了其物联网嵌入式软件平台——Vela操作系统，并将其命名为OpenVela。这一举动在AIoT（人工智能物联网）领域掀起了不小的波澜，也为开发者们提供了一个强大的AI代码生成器和开发平台。OpenVela项目源代码已托管至GitHub和Gitee，采用Apache2.0开源协议，这意味着全球开发者都可以参与其中，共同推动物联网技术的进步。……Vela操作系统基于开源实时操作系统Nu
智源社区AI周刊：Hinton预测破解大脑机制时间；Gary Marcus批判追捧深度学习风潮；谷歌发布Imagen... 智源社区机器学习人工智能深度学习编程语言大数据
汇聚每周必看AI观点、研究和各类资源，不错过一条重要资讯！欢迎扫码订阅，获取邮件推送。观点“我们会在未来的五年内破解这些（人脑的）程序......现有的一切人工智能，都是建立在与大脑高层次上所做的事情完全不同的基础上......假设有数十亿的参数，这些神经元间的权重在大量训练实例的基础上去调整，会发生奇妙的事情。大脑是如此，深度学习也是如此。但问题在于，如何获得调整参数的梯度......目前我的信
深度探索 DeepSeek-R1：国产大模型的AGI雏形与创新进展微凉的衣柜科技头条 agi 人工智能
随着人工智能技术的飞速发展，国内外企业纷纷发布了一系列创新的大模型，推动了AGI（通用人工智能）领域的探索。近期，DeepSeek-R1这一模型的发布引起了广泛关注，它不仅标志着国产大模型在智能化上的一次重大突破，还提出了全新的训练方法，解决了过去依赖大量人类数据的问题。本篇文章将详细介绍DeepSeek-R1的核心优势、技术创新以及实际应用案例，揭示它在AGI领域的潜力。1.DeepSeek-R
AI界的拼多多-中国人工智能初创公司DeepSeek如何与硅谷巨头竞争 xidianjiapei001 AI-人工智能与大模型人工智能 AI DeepSeek 大模型
这家公司打造出了一款成本更低且颇具竞争力的聊天机器人，其使用的高端计算机芯片数量少于谷歌和OpenAI等美国巨头企业，这凸显出芯片出口管制的局限性。圣诞节次日，一家名为DeepSeek的中国小型初创公司推出了一款新的人工智能系统，其性能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。仅此一点就堪称一个里程碑。但这个名为DeepSeek-V3系统的研发团队称，他们迈出了更大的一步。在一篇解释该技
学习AI职场应用技能的意义 Mieux718 学习人工智能
在智能化浪潮下，“人工智能+”通识必修课的普及，其核心并非在于培养人工智能领域的专家，而是旨在构建全民AI素养的基石。学习AI是可以让学生借助其技术力量，为各自的专业领域插上创新的翅膀。除了高校外，越来越多的企业也开始关注AI对企业业务的帮助，职场中掌握AI也变得越来越重要。随着人工智能技术的发展，许多行业都在引入相关技术和应用，人工智能应用场景已深度融入办公流程、项目管理、项目运营、客户服务等工
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，