诗雨时

python深度学习入门-神经网络的学习

深度学习入门-神经网络的学习

博主微信公众号（左）、Python+智能大数据+AI学习交流群（右）：欢迎关注和加群，大家一起学习交流，共同进步！

摘要

1、从数据中学习

1.1 数据驱动

1.2 训练数据和测试数据

2、损失函数

2.1 均方误差

2.2 交叉熵误差

2.3 mini-batch 学习

2.4 mini-batch 版交叉熵误差的实现

2.5 为何要设定损失函数

3、数值微分

3.1 导数

3.2 数值微分的例子

3.3 偏导数

4、梯度

4.1 梯度法

4.2 神经网络的梯度

5、学习算法的实现

5.1 实现手写数字识别的神经网络

摘要

机器学习中使用的数据集分为训练数据和测试数据。
神经网络中用训练数据进行学习，并用测试数据评价学习到的模型的泛化能力。
神经网络的学习以损失函数为指标，更新权重参数，以使损失函数的值减小。
利用某个给定的微小值的差分求导数的过程，称为数值微分。
利用数值微分，可以计算权重参数的梯度。
数值微分虽然浪费时间，但是实现起来很简单。

1、从数据中学习

神经网络的特征：从数据中学习。

从数据中学习：可以由数据自动决定权重参数的值。

1.1 数据驱动

如何实现手写数字 “5” 的识别？

图 3-1 手写数字5的例子图 3-2 从人工设计规则转变为由机器从数据中学习

方案一：人工想到的算法。

方案二：先从图像中提取特征量，再用机器学习技术学习这些特征的模式。

特征量：可以从输入数据（输入图像）中准确地提取本质数据（重要的数据）的转换器。

图像的特征量通常表示为向量的形式。在计算机视觉领域，常用的特征量包括 SIFT、SURF 和 HOG 等。使用这些特征量将图像转换为向量，然后对转换后的向量使用机器学习中的 SVM、KNN 等分类器进行学习。

注意：将图像转换为向量时使用的特征量仍是由人设计的（针对不同的问题人工考虑设计合适的特征量）。对于不同的问题，必须使用合适的特征量（必须设计专门的特征量），才能得到好的结果。比如，为了区分狗的脸部，人们需要考虑与用于识别数字 5 的特征量不同的其他特征量。

方案三：神经网络直接学习图像本身。

神经网络的优点：对所有的问题都可以用相同的流程来解决（与待处理的问题无关，神经网络可以将数据直接作为原始数据，进行 “端到端” 的学习）。比如，不管要求解的问题是识别 5，还是识别狗，抑或是识别人脸，神经网络都是通过不断地学习所提供的数据，尝试发现待求解的问题的模式。

端到端机器学习（end-to-end machine learning）：从一端到另一端，从原始数据（输入）中获得目标结果（输出）。

1.2 训练数据和测试数据

机器学习中，一般将数据分为训练数据（监督数据）和测试数据两部分来进行学习和实验等。首先，使用训练数据进行学习，寻找最优的参数；然后，使用测试数据评价训练得到的模型的实际能力。

为什么需要将数据分为训练数据和测试数据？答：因为我们追求的是模型的泛化能力。为了正确评价模型的泛化能力，就必须划分训练数据和测试数据。

泛化能力：处理未被观察过的数据（不包含在训练数据中的数据）的能力。获得泛化能力是机器学习的最终目标。比如，在识别手写数字的问题中，泛化能力可能会被用在自动读取明信片的邮政编码的系统上。

过拟合（voer fitting）：可以顺利的处理某个数据集，但无法处理其他数据集的情况（只对某个数据集过度拟合的状态）。

2、损失函数

神经网络的学习通过某个指标表示现在的状态，然后，以这个指标为基准，寻找最优权重参数。

损失函数（loss function）：神经网络的学习中所用的指标称为损失函数（loss function）（表示神经网络性能的 “恶劣程度” 的指标，即当前的神经网络对监督数据在多大程度上不拟合，在多大程度上不一致）。这个损失函数可以使用任意函数，但一般用均方误差、交叉熵等。

2.1 均方误差

均方误差（mean squared error）如下式所示。

$E=\frac{1}{2}\sum _{k}(y_{k}-t_{k})^{2} \ \ \ \ \ \ \ \ (3.1)$

$y_{k}$ ：神经网络的输出； $t_{k}$ ：训练数据的标签值（one-hot 表示）；：数据的维度。

ont-hot 表示：将正确解标签表示为 1，其他标签表示为 0 的表示方法称为 one-hot 表示。

示例：手写数字识别

数组元素的索引从第一个开始一次对应数字 "0" "1" "2" "3" "4" "5" "6" "7" "8" "9"。这里，神经网络的的输出 y是 softmax 函数的输出。

"0" 的概率是0.1； "1" 的概率是0.05； "2" 的概率是0.6； "3" 的概率是0.0；

"4" 的概率是0.05； "5" 的概率是0.1； "6" 的概率是0.0； "7" 的概率是0.1；

"8" 的概率是0.0； "9" 的概率是0.0；

将正确解标签设为 1，其他均设为 0。这里标签 "2" 为 1，表示正确解是 "2"。

>>> y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
>>> t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

示例代码：均方误差会计算神经网络的输出和正确解训练数据的各个元素之间的平方，再求总和。

"""
均方误差
"""
import numpy as np


def mean_squared_error(y, x):
    """
    均方误差
    :param y: 神经网络输出
    :param x: 训练数据
    :return:
    """
    return 0.5 * np.sum((y - x) ** 2)


# 设 "2" 为正确解
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
# 例1："2" 的概率最高的情况(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
loss = mean_squared_error(np.array(y), np.array(t))
print(f"loss1: {loss}")

# 例2："7" 的概率最高的情况(0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
loss = mean_squared_error(np.array(y), np.array(t))
print(f"loss2: {loss}")

loss1: 0.09750000000000003
loss2: 0.5975

例 1 中：正确解是 "2"，神经网络的输出的最大值是 "2"。损失函数的值较小，和训练数据之间的误差较小。

例 2 中：正确解是 "2"，神经网络的输出的最大值是 "7"。损失函数的值较大，和训练数据之间的误差较大。

2.2 交叉熵误差

（1）交叉熵误差（cross entropy error）如下式所示。

$E=-\sum _{k}t_{k}\ logy_{k} \ \ \ \ \ \ \ \ (3.2)$

$y_{k}$ ：神经网络的输出；

$t_{k}$ ：训练数据的标签值（只有正确解标签的索引为1，其他均为 0 (one-hot 表示)）；

：数据的维度

：以为底数的自然对数（ $log_{e}$ ）。

比如，假设正确解标签是 "2"，与之对应的神经网络的输出是 0.6，则交叉熵误差是；若 "2" 对应的神经网络的输出是 0.1，则交叉熵误差是。

注意：交叉熵误差的值是由正确解标签所对应的输出结果决定的。

（2）自然对数的图像如图 3-3 所示。

"""
自然对数图像
"""

import numpy as np
from matplotlib import pyplot as plt

x = np.arange(-5, 5, 0.01)
y = np.log(x)

plt.plot(x, y)  # 绘制图像
plt.title("function y=log(x)", fontsize=24)  # 设置title
plt.xlabel("X", fontsize=14)    # 给横轴添加标签
plt.ylabel("Y", fontsize=14)    # 给纵轴添加标签
plt.tick_params(axis="both", labelsize=14)   # 设置刻度标记的大小
plt.show()  # 显示图像

图 3-3 自然对数 y=log(x) 的图像

如图 3-3 所示，x=1 时，y 为 0；随着 x 向 0 靠近，y 逐渐变小。因此，得出如下结论：

a、正确解标签对应的输出越大，式 (3.2) 的值越接近 0；

b、当输出为 1 时，交叉熵误差为 0；

c、如果正确解标签对应的输出较小，则式 (3.2) 的值较大。

（3）代码实现交叉熵误差：

"""
交叉熵误差
"""
import numpy as np


def cross_entropy_error(y, x):
    delta = 1e-7
    return -np.sum(x * np.log(y + delta))


# 设 "2" 为正确解
x = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
# 例1："2" 的概率最高的情况(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
loss = cross_entropy_error(np.array(y), np.array(x))
print(f"loss1: {loss}")

# 例2："7" 的概率最高的情况(0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
loss = cross_entropy_error(np.array(y), np.array(x))
print(f"loss2: {loss}")

loss1: 0.510825457099338
loss2: 2.302584092994546

例 1 中：正确解是 "2"，神经网络的输出为 0.6，交叉熵误差大约为 0.51。交叉熵误差的值较小，和训练数据之间的误差较小。

例 2 中：正确解是 "2"，神经网络的输出为 0.1，交叉熵误差大约为 2.30。交叉熵误差的值较大，和训练数据之间的误差较大。

2.3 mini-batch 学习

机器学习使用训练数据进行学习。使用训练数据进行学习，严格来说，就是针对训练数据计算损失函数的值，找出使该值尽可能小的参数。因此，计算损失函数时必须将所有的训练数据作为对象。也就是说，如果训练数据有 100 个的话，我们就要把这 100 个损失函数的总和作为学习的指标。

（1）假设数据有 N 个，以交叉熵损失函数为例，求所有训练数据的损失函数的总和，可以写成下面的式 (3.3)。

$E=-\frac{1}{N}\sum _{n}\sum _{k}t_{nk}\ logy_{nk} \ \ \ \ \ \ \ \ (3.3)$

$t_{nk}$ ：第 n 个数据的第 k 个元素的标签值（只有正确解标签的索引为1，其他均为 0 (one-hot 表示)）；

$y_{nk}$ ：神经网络的输出；

：数据个数；

：数据的维度；

：以为底数的自然对数（ $log_{e}$ ）。

为什么要除以 N 呢？

答：通过除以 N，可以求单个数据的 “平均损失函数”。通过这样的平均化，可以获得和训练数据的数量无关的统一指标。比如，即便训练数据有 1000 个或 10000 个，也可以求得单个数据的平均损失函数。

（2）mini-batch 学习

mini-batch 学习：从训练数据中选出一批数据（称为 mini-batch，小批量），然后针对每个 mini-batch 进行学习。这样的学习方式称为 mini-batch 学习。比如，从 60000 个训练数据中随机选择 100 个，再用这 100 个数据进行学习。

为什么要使用 mini-batch 学习方式？

答：以 MNIST 数据集为例，训练数据有 60000个，如果以全部数据为对象求损失函数的和，则计算过程需要花费较长的时间。再者，如果遇到大数据，数据量会有几百万、几千万之多，这种情况下以全部数据为对象计算损失函数是不现实的。因此，我们从全部数据中选出一部分，作为全部数据的 “近似”。

（3）从训练数据中随机选择指定个数的数据代码实现

"""
从训练数据中随机选择指定个数的数据
"""

import os, sys
import numpy as np

sys.path.append(os.pardir)
from dataset.mnist import load_mnist

# 数据加载
# normalize=True：将图像的像素值正规化为0.0~1.0的值
# one_hot_label=True：得到one-hot表示（仅正确解标签为1，其余为0的数据结构）
(x_train, y_train), (x_test, y_test) = load_mnist(normalize=True, one_hot_label=True)

print(f"x_train shape: {x_train.shape}")    # (60000, 784)
print(f"y_train shape: {y_train.shape}")    # (60000, 10)

# 从训练集中随机抽取10个样本
train_size = x_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)   # 从指定的数字中随机选择想要的数字
x_batch = x_train[batch_mask]
y_batch = y_train[batch_mask]

print(f"x_batch shape: {x_batch.shape}")    # (10, 784)
print(f"y_batch shape: {y_batch.shape}")    # (10, 10)

2.4 mini-batch 版交叉熵误差的实现

"""
mini-batch 版交叉熵误差
"""
import numpy as np


def cross_entropy_error(y, t):
    """
    mini-batch 版交叉熵误差，可以同时处理单个数据和批量数据
    :param y: 神经网络输出
    :param t: 训练数据标签值(one-hot形式)
    :return: 交叉熵误差
    """
    delta = 1e-7
    # y的维度为1维时，即求单个数据的交叉熵误差时，需要改变数据的形状
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    batch_size = y.shape[0]
    # 除以batch_size：用 bach 的个数进行正规化
    return -np.sum(t * np.log(y + delta)) / batch_size


def cross_entropy_error_label(y, t):
    """
    mini-batch 版交叉熵误差，可以同时处理单个数据和批量数据
    :param y: 神经网络输出
    :param t: 训练数据标签值(标签形式)
    :return: 交叉熵误差
    """
    delta = 1e-7
    # y的维度为1维时，即求单个数据的交叉熵误差时，需要改变数据的形状
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    batch_size = y.shape[0]
    # 除以batch_size：用 bach 的个数进行正规化
    return -np.sum(np.log(y[np.arange(batch_size), t] + delta)) / batch_size


# 设 "2" 为正确解
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
# 例1："2" 的概率最高的情况(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
loss = cross_entropy_error(np.array(y), np.array(t))
print(f"loss1: {loss}")

# 例2："7" 的概率最高的情况(0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
loss = cross_entropy_error(np.array(y), np.array(t))
print(f"loss2: {loss}")

# 例3：t为标签形式
t = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
loss = cross_entropy_error_label(np.array(y), np.array(t))
print(f"loss3: {loss}")

loss1: 0.510825457099338
loss2: 2.302584092994546
loss3: 77.88242088702825

2.5 为何要设定损失函数

（1）在神经网络的学习中，寻找最优参数（权重和偏置）时，要寻找使得损失函数的值尽可能小的参数。为了找到使损失函数的值尽可能小的地方，需要计算权重参数的损失函数的导数（梯度），然后以这个导数为指引，逐步更新参数的值。

对该权重参数的损失函数求导：表示的是 “如果稍微改变这个权重参数的值，损失函数的值会如何变化”。

a、如果导数的值为负，通过使该权重参数向正方向改变，可以减小损失函数的值；

b、如果导数的值为正，通过使该权重参数向负方向改变，可以减小损失函数的值；

c、当导数为 0 时，无论权重参数向哪个方向变化，损失函数的值都不会改变。

（2）为什么要导入损失函数，而不使用识别精度作为指标呢？

答：因为如果以识别精度作为指标，则参数的导数在绝大多数地方都会变为0。

（3）为什么用识别精度作为指标时，参数的导数在绝大多数地方都会变为0？

答：识别精度对微小的参数变化基本上没有什么反应，即便有反应，它的值也是不连续地、突然地变化。

举个例子：

a、假设神经网络正确识别出了 100 个训练数据样本中的 32 个样本，此时识别精度为 32%；

b、如果以识别精度为指标，即使稍微改变权重参数的值，识别精度也仍将保持在 32%，不会发生变化（仅仅微调参数，是无法改善识别精度的）；

c、即便识别精度有多改善，它的值也不会像 32.0.123...% 这样连续变化，而是变为 33%、34% 这样的不连续的、离散的值；

d、而如果把损失函数作为指标，则当前损失函数的值可以表示为 0.92543... 这样的值。并且，如果稍微改变一下参数的值，对应的损失函数也会像 0.93432... 这样发生连续性的变化。

（4）阶跃函数和 sigmoid 函数：阶跃函数的斜率在绝大多数地方都为 0，sigmoid 函数的斜率（切线）不为0。

图 3-4 阶跃函数及其导数图像

图 3-5 sigmoid函数及其导数图像

3、数值微分

梯度法使用梯度的信息决定前进的方向。

3.1 导数

（1）导数：表示某个瞬间的变化量。它可以定义成下面的式子（函数的导数）。

$\frac{df(x)}{dx}=\lim_{h\rightarrow 0}\frac{f(x+h)-f(x)}{h} \ \ \ \ \ \ \ \(3.4)$

$\frac{df(x)}{dx}$ ：关于的导数，即相对于的变化程度。

式 (3.4) 表示的导数的含义是：的 “微小变化” 将导数函数的值在多大程度上发生变化。其中，表示微小变化的无限接近 0，表示为 $\lim_{h \to 0}$ 。

python代码实现函数的导数：

>>> def numerical_diff(f, x):
...     h = 10e-50
...     return (f(x+h) - f(x)) / h

函数 numerical_diff(f, x) 的名称来源于数值微分的英文 numerical differentiation。这个函数有两个参数，即 “函数f” 和 “传给函数 f 的参数 x”。

（2）式 (3.4) 中函数的导数公式缺陷：

a、在上面的实现中，因为想把尽可能小的值赋给（可以的话，想让无限接近 0），所以使用了 10e-50 这个微小值。但是，这样反而产生了舍入误差（rounding error）。

b、函数真实的导数对应的是函数在处的斜率（称为切线），但式 (3.4) 中计算的导数对应的是和之间的斜率。因此，函数真实的导数和式 (3.4) 中计算得到的导数的值在严格意义上并不一致。

舍入误差：因省略小数的精细部分的数值（比如，小数点后第 8 位以后的数值）而造成最终的计算结果上的误差。比如，在 Python 中，舍入误差可如下表示。

>>> import numpy as np
>>> np.float32(1e-50)
0.0

如上所示，如果用 float32 类型（32位的浮点数）来表示 le-50，就会变成 0.0，无法正确表示出来。也就是说，使用过小的值会造成计算机出现计算上的问题。

（3）数值微分（数值梯度）

关于式 (3.4) 中函数的导数公式，做如下两点改进：

a、将微小值改为 $10^{-4}$ ，使用 $10^{-4}$ 就可以得到正确的结果；

b、将计算函数在和之间的差分改为计算函数在和之间的差分。

中心差分：以为中心计算它左右两边的差分的计算方法称为中心差分（而和之间的差分称为前向差分）。

>>> def numerical_diff(f, x):
...     h = 1e-4    # 0.0001
...     return (f(x+h) - f(x-h)) / (2*h)

（4）数值微分（numerical differentiation）与解析性（analytic）

数值微分（numerical differentiation）：利用微小的差分求导数的过程，称为数值微分（numerical differentiation）。

解析性（analytic）：基于数学式的推导求导数的过程，用 “解析性”（analytic）一词，称为 “解析性求解” 或者 “解析性求导”。

比如， $y=x^{2}$ 的导数，可以通过 $\frac{dy}{dx}=2x$ 解析性地求解出来。因此，当时，的导数为 4。

注：解析性求导得到的导数是不含误差的 “真的导数”。

3.2 数值微分的例子

（1）使用上述的数值微分对简单函数进行求导。函数如下式所示（2次函数）。

$y=0.01x^{2} + 0.1x \ \ \ \ \ \ \ \ (3.5)$

（2）用 Python 实现式 (3.5)，如下所示。

def quadratic_function(x):
    """
    函数
    :param x:
    :return:
    """
    return 0.01 * x ** 2 + 0.1 * x

（3）计算函数在 x=5 和 x = 10 处的导数

"""
数值微分
"""
import numpy as np
from matplotlib import pyplot as plt


def numerical_diff(f, x):
    """
    求导数
    :param f:
    :param x:
    :return:
    """
    h = 1e-4    # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)


def quadratic_function(x):
    """
    函数
    :param x:
    :return:
    """
    return 0.01 * x ** 2 + 0.1 * x


print(numerical_diff(quadratic_function, 5))
print(numerical_diff(quadratic_function, 10))

0.1999999999990898
0.2999999999986347

这里计算的导数是相对于的变化量，对应函数的斜率。

$f(x)=0.01x^{2} + 0.1x$ 的解析解是 $\frac{df(x)}{dx}=0.02x+0.1$ 。时， $\frac{df(x)}{dx}=0.2$ ；时， $\frac{df(x)}{dx}=0.3$ 。

和上面的结果相比，虽然严格意义上它们并不一致，但误差非常小。实际上，误差小到基本上可以认为它们是相等的。

（4）绘制函数和切线图像

"""
数值微分
"""
import numpy as np
from matplotlib import pyplot as plt


def numerical_diff(f, x):
    """
    求导数
    :param f:
    :param x:
    :return:
    """
    h = 1e-4    # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)


def quadratic_function(x):
    """
    函数
    :param x:
    :return:
    """
    return 0.01 * x ** 2 + 0.1 * x


def tangent_line(f, x):
    """
    切线
    :param f: 函数
    :param x: 参数
    :return:
    """
    d = numerical_diff(f, x)
    y = f(x) - d*x
    return lambda t: d*t + y


x = np.arange(0.0, 20.0, 0.1)   # 以0.1为单位，从0到20的数组x
y = quadratic_function(x)
plt.xlabel("x")
plt.ylabel("f(x)")

# tf = tangent_line(quadratic_function, 5)
tf = tangent_line(quadratic_function, 10)
y2 = tf(x)

plt.plot(x, y, label="function: 0.01 * x ** 2 + 0.1 * x")
plt.plot(x, y2, label="tangent line")
plt.legend(loc='best')
plt.show()

图 3-6 x=5 处的切线

图 3-7 x=10 处的切线

3.3 偏导数

（1）实现函数 $f(x_{0}, x_{1}) = x_{0}^{2} \ + \ x_{1}^{2}$

"""
偏导数
"""
import numpy as np
from matplotlib import pyplot as plt


def numerical_diff(f, x):
    """
    求导数
    :param f:
    :param x:
    :return:
    """
    h = 1e-4    # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)


def quadratic_function(x):
    """
    函数
    :param x:
    :return:
    """
    return x[0]**2 + x[1]**2
    # return np.sum(x**2)


x0, x1 = np.mgrid[-5:5:1, -5:5:1]
y = quadratic_function(np.array([x0, x1]))

# 三维图形
ax = plt.subplot(111, projection="3d")
ax.set_title("f(x0, x1) = x0**2 + x1**2")
ax.plot_surface(x0, x1, y, rstride=2, cstride=1, cmap=plt.cm.Spectral)

# 设置坐标轴标签
ax.set_xlabel("x0")
ax.set_ylabel("x1")
ax.set_zlabel("f(x)")
plt.show()

图 3-8 f(x0, x1)=x0**2 + x1**2 的图像

（2）偏导数

$f(x_{0}, x_{1}) = x_{0}^{2} \ + \ x_{1}^{2} \ \ \ \ \ \ \ \ (3.6)$

式 (3.6) 中有两个变量，所以有必要区分对哪个变量求导数，即对 $x_{0}$ 和 $x_{1}$ 两个变量中的哪一个求导。我们把这里讨论的有多个变量的函数的导数称为偏导数。用数学式表示的话，可以写成 $\frac{\partial f}{\partial x_{0}}$ 、 $\frac{\partial f}{\partial x_{1}}$ 。

怎么求偏导数？

答：a、偏导数和单变量的导数一样，都是求某个地方的斜率；

b、偏导数需要将多个变量中的某一个变量定为目标变量，并将其他变量固定为某个值。

问题1：求 $x_{0}=3$ ， $x_{1}=4$ 时，关于 $x_{0}$ 的偏导数 $\frac{\partial f}{\partial x_{0}}$ 。

解题方案：定义一个固定 $x_{1}=4$ 的函数，然后对只有变量 $x_{0}$ 的函数应用求数值微分的函数。

解析求导： $\frac{\partial f}{\partial x_{0}}=2x_{0}=2*3=6$

问题2：求 $x_{0}=3$ ， $x_{1}=4$ 时，关于 $x_{1}$ 的偏导数 $\frac{\partial f}{\partial x_{1}}$ 。

解题方案：定义一个固定 $x_{0}=3$ 的函数，然后对只有变量 $x_{1}$ 的函数应用求数值微分的函数。

解析求导： $\frac{\partial f}{\partial x_{1}}=2x_{1}=2*4=8$

"""
偏导数
"""
import numpy as np


def numerical_diff(f, x):
    """
    求导数
    :param f:
    :param x:
    :return:
    """
    h = 1e-4    # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)


def function_temp0(x0):
    return x0 * x0 + 4.0 ** 2.0


def function_temp1(x1):
    return 3.0 ** 2.0 + x1 * x1


print(numerical_diff(function_temp0, 3.0))  # 6.00000000000378
print(numerical_diff(function_temp1, 4.0))  # 7.999999999999119

4、梯度

同时计算函数 $f(x_{0}, x_{1}) = x_{0}^{2} \ + \ x_{1}^{2}$ 中 $x_{0}$ 和 $x_{1}$ 的偏导数。比如，我们来考虑 $x_{0}=3$ ， $x_{1}=4$ 时 $(x_{0}, x_{1})$ 的偏导数 $(\frac{\partial f}{\partial x_{0}}, \frac{\partial f}{\partial x_{1}})$ 。

像 $(\frac{\partial f}{\partial x_{0}}, \frac{\partial f}{\partial x_{1}})$ 这样的由全部变量的偏导数汇总而成的向量称为梯度（gradient）。

梯度指示的方向：各点处的函数值减小最多的方向。

Python 代码实现函数 $f(x_{0}, x_{1}) = x_{0}^{2} \ + \ x_{1}^{2}$ 的梯度：

"""
函数梯度实现
"""
import numpy as np
from matplotlib import pyplot as plt


def numerical_gradient_no_batch(f, x):
    h = 1e-4    # 0.0001
    grad = np.zeros_like(x)     # 生成和x形状相同的全0数组

    for idx in range(x.size):
        tmp_val = x[idx]

        x[idx] = tmp_val + h
        fxh1 = f(x)     # f(x+h)的计算

        x[idx] = tmp_val - h
        fxh2 = f(x)     # f(x-h) 的计算

        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val    # 还原值

    return grad


def numerical_gradient(f, X):
    if X.ndim == 1:
        return numerical_gradient_no_batch(f, X)
    else:
        grad = np.zeros_like(X)     # 生成和x形状相同的全0数组

        for idx, x in enumerate(X):
            grad[idx] = numerical_gradient_no_batch(f, x)

        return grad


def function(x):
    if x.ndim == 1:
        return np.sum(x**2)
    else:
        return np.sum(x**2, axis=1)


if __name__ == '__main__':
    print(numerical_gradient(function, np.array([3.0, 4.0])))   # [6. 8.]
    print(numerical_gradient(function, np.array([0.0, 2.0])))   # [0. 4.]
    print(numerical_gradient(function, np.array([3.0, 0.0])))   # [6. 0.]
    x0 = np.arange(-2, 2.5, 0.25)
    x1 = np.arange(-2, 2.5, 0.25)
    X, Y = np.meshgrid(x0, x1)  # 生成网格坐标矩阵

    X = X.flatten()
    Y = Y.flatten()

    grad = numerical_gradient(function, np.array([X, Y]))

    plt.figure()
    plt.quiver(X, Y, -grad[0], -grad[1], angles="xy", color="#666666")
    plt.xlim([-2, 2])
    plt.ylim([-2, 2])
    plt.xlabel('x0')
    plt.ylabel('x1')
    plt.grid()
    plt.legend()
    plt.draw()
    plt.show()

图 3-9 f(x0, x1)=x0**2 + x1**2 的梯度

4.1 梯度法

（1）相关定义

梯度：梯度表示的是各点处的函数值减小最多的方向。

梯度法（gradient method）：通过不断地沿梯度方向前进，逐渐减小函数值的过程就是梯度法（gradient method）。在梯度法中，函数的取值从当前位置沿着梯度方向前进一定距离，然后在新的地方重新求梯度，再沿着新梯度方向前进，如此反复，不断地沿梯度方向前进。

极小值：局部极小值，也就是限定在某个范围内的最小值。

鞍点（saddle point）：从某个方向上看是极大值，从另一个方向上看则是极小值的点。

梯度下降法：寻找最小值的梯度法称为梯度下降法（gradient descent method）。

梯度上升法：寻找最大值的梯度法称为梯度上升法（gradient ascent method）。

超参数：像学习率这样的参数称为超参数。（神经网络的权重参数是通过训练数据和学习算法自动获得的，学习率这样的超参数则是人工设定的。一般来说，超参数需要尝试多个值，以便找到一种可以使学习顺利进行的设定）

注意：

a、函数的极小值、最小值、鞍点（saddle point）的地方，梯度为 0；

b、虽然梯度是要寻找梯度为 0 的地方，但是那个地方不一定就是最小值（也有可能是极小时或者鞍点）；

c、当函数很复杂且呈扁平状时，学习可能会进入一个（几乎）平坦的地区，陷入被称为 “学习高原” 的无法前进的停滞期；

d、通过反转损失函数的符号，求最小值的问题和求最大值的问题会变成相同的问题，因此 “下降” 还是 “上升” 的差异本质上并不重要。

（2）用数学公式表示梯度法，如式 (3.7) 所示

$x_{0}=x_{0}-\eta \frac{\partial f}{\partial x_{0}}$

$x_{1}=x_{1}-\eta \frac{\partial f}{\partial x_{1}} \ \ \ \ \ \ \ \(3.7)$

$\eta$ ：更新量，在神经网络的学习中，称为学习率（learning rate）。学习率决定在一次学习中，应该学习多少，以及在多大程度上更新参数。

注意：学习率需要事先确定为某个值，比如 0.01 或 0.001。一般而言，这个值过大或过小，都无法抵达一个 “好的位置”。在神经网络的学习中，一般会一遍改变学习率的值，一边确认学习是否正确进行了。

（3）用 Python 实现梯度下降法

问题：请用梯度法求 $f(x_{0}+x_{1})=x_{0}^{2}+x_{1}^{2}$ 的最小值。

最终的结果是 [-0.03458765 0.04611686]，非常接近于 [0, 0]。实际上，真的最小值就是 [0, 0]，所以说通过梯度法我们基本得到了正确结果。

如图 3-10 所示，可以发现原点处是最低的地方，函数的取值一点点在向其靠近。

"""
梯度法
"""
import numpy as np
from matplotlib import pyplot as plt


def numerical_gradient_no_batch(f, x):
    h = 1e-4    # 0.0001
    grad = np.zeros_like(x)     # 生成和x形状相同的全0数组

    for idx in range(x.size):
        tmp_val = x[idx]

        x[idx] = tmp_val + h
        fxh1 = f(x)     # f(x+h)的计算

        x[idx] = tmp_val - h
        fxh2 = f(x)     # f(x-h) 的计算

        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val    # 还原值

    return grad


def numerical_gradient(f, X):
    if X.ndim == 1:
        return numerical_gradient_no_batch(f, X)
    else:
        grad = np.zeros_like(X)     # 生成和x形状相同的全0数组

        for idx, x in enumerate(X):
            grad[idx] = numerical_gradient_no_batch(f, x)

        return grad


def function(x):
    if x.ndim == 1:
        return np.sum(x**2)
    else:
        return np.sum(x**2, axis=1)


def gradient_descent(f, init_x, lr=0.01, step_num=1000):
    """
    梯度下降法
    :param f: 要进行最优化的函数
    :param init_x: 初始值
    :param lr: 学习率（learning rate）
    :param step_num: 重复次数
    :return:
    """
    x = init_x
    x_history = []

    # 重复step_num次
    for i in range(step_num):
        x_history.append(x.copy())
        # 求函数的梯度
        grad = numerical_gradient(f, x)
        # 更新参数值
        x -= lr * grad

    return x, np.array(x_history)


init_x = np.array([-3.0, 4.0])
lr = 0.1
step_num = 20
print(f"init_x: {init_x}")  # init_x: [-3.  4.]
x, x_history = gradient_descent(function, init_x, lr=lr, step_num=step_num)
print(f"x: {x}")    # x: [-0.03458765  0.04611686]

# 画图
plt.plot([-5, 5], [0, 0], "--b")
plt.plot([0, 0], [-5, 5], "--b")
plt.plot(x_history[:, 0], x_history[:, 1], "o")

plt.xlim(-3.5, 3.5)
plt.ylim(-4.5, 4.5)
plt.xlabel("X0")
plt.ylabel("X1")
plt.show()

图 3-10 f(x0, x1)=x0**2 + x1**2 的梯度法的更新过程：虚线是函数的等高线

（4）学习率过大或者过小都无法得到好的结果，实验验证

学习率过大，会发散成一个很大的值；学习率过小，基本上没怎么更新就结束了。

"""
梯度法中学习率过大/过小实验验证
"""
import numpy as np
from matplotlib import pyplot as plt


def numerical_gradient_no_batch(f, x):
    h = 1e-4    # 0.0001
    grad = np.zeros_like(x)     # 生成和x形状相同的全0数组

    for idx in range(x.size):
        tmp_val = x[idx]

        x[idx] = tmp_val + h
        fxh1 = f(x)     # f(x+h)的计算

        x[idx] = tmp_val - h
        fxh2 = f(x)     # f(x-h) 的计算

        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val    # 还原值

    return grad


def numerical_gradient(f, X):
    if X.ndim == 1:
        return numerical_gradient_no_batch(f, X)
    else:
        grad = np.zeros_like(X)     # 生成和x形状相同的全0数组

        for idx, x in enumerate(X):
            grad[idx] = numerical_gradient_no_batch(f, x)

        return grad


def function(x):
    if x.ndim == 1:
        return np.sum(x**2)
    else:
        return np.sum(x**2, axis=1)


def gradient_descent(f, init_x, lr=0.01, step_num=1000):
    """
    梯度下降法
    :param f: 要进行最优化的函数
    :param init_x: 初始值
    :param lr: 学习率（learning rate）
    :param step_num: 重复次数
    :return:
    """
    x = init_x

    # 重复step_num次
    for i in range(step_num):
        # 求函数的梯度
        grad = numerical_gradient(f, x)
        # 更新参数值
        x -= lr * grad

    return x


# 学习率过大的例子：lr=10.0
init_x = np.array([-3.0, 4.0])  # [-3, 4]
lr = 10.0
step_num = 20
x1 = gradient_descent(function, init_x, lr=lr, step_num=step_num)
print(f"x: {x1}")    # x: [-2.58983747e+13 -1.29524862e+12]

# 学习率过小的例子：lr=le-10
init_x = np.array([-3.0, 4.0])  # [-3, 4]
lr = 1e-10
step_num = 20
x2 = gradient_descent(function, init_x, lr=lr, step_num=step_num)
print(f"x: {x2}")    # [-2.99999999  3.99999998]

4.2 神经网络的梯度

这里所说的梯度是指：损失函数关于权重参数的梯度。

$W=\begin{pmatrix} w_{11} & w_{12} & w_{13}\\ w_{21} & w_{22} & w_{23} \end{pmatrix}$ $\frac{\partial L}{\partial W}=\begin{pmatrix} \frac{\partial L}{\partial w_{11}} & \frac{\partial L}{\partial w_{12}} & \frac{\partial L}{\partial w_{13}} \\ \frac{\partial L}{\partial w_{21}} & \frac{\partial L}{\partial w_{22}} & \frac{\partial L}{\partial w_{23}} \end{pmatrix}\ \ \ \ \ \ \ \ (3.8)$

：形状为 2 x 3 的权重参数。

：损失函数。

$\frac{\partial L}{\partial W}$ ：形状为 2 x 3 的损失函数的梯度。

$\frac{\partial L}{\partial w_{11}}$ ：当 $w_{11}$ 稍微变化时，损失函数会发生多大变化。

"""
神经网络的梯度
"""

import numpy as np


def numerical_gradient(f, x):
    """
    求梯度
    :param f: 函数
    :param x: 传给函数f的参数
    :return:
    """
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)

    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)  # f(x+h)

        x[idx] = tmp_val - h
        fxh2 = f(x)  # f(x-h)
        grad[idx] = (fxh1 - fxh2) / (2 * h)

        x[idx] = tmp_val  # 还原值
        it.iternext()

    return grad


def softmax(x):
    """
    softmax 激活函数
    :param x:
    :return:
    """
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T

    x = x - np.max(x)   # 溢出对策
    return np.exp(x) / np.sum(np.exp(x))


def cross_entropy_error(y, t):
    """
    交叉熵误差
    :param y: 神经网络输出
    :param t: 训练数据标签值(one-hot形式)
    :return: 交叉熵误差
    """
    # y的维度为1维时，即求单个数据的交叉熵误差时，需要改变数据的形状
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    # 监督数据是one-hot-vector的情况下，转换为正确解标签的索引
    if t.size == y.size:
        t = t.argmax(axis=1)

    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size


class simpleNet(object):
    def __init__(self):
        # 用高斯分布进行初始化（形状为2x3的权重参数）
        self.w = np.random.randn(2, 3)

    def predict(self, x):
        """
        预测
        :param x:
        :return:
        """
        return np.dot(x, self.w)

    def loss(self, x, t):
        """
        求损失函数的值
        :param x: 输入数据
        :param t: 正确解标签
        :return:
        """
        # 预测
        z = self.predict(x)
        # softmax激活函数
        y = softmax(z)
        # 求交叉熵误差损失函数
        loss = cross_entropy_error(y, t)
        return loss


x = np.array([0.6, 0.9])
net = simpleNet()
# 正确解标签
t = np.array([0, 0, 1])
# 求损失函数的值
loss = net.loss(x, t)

# loss损失函数
f = lambda w: net.loss(x, t)
# 求损失函数的梯度
dw = numerical_gradient(f, net.w)
print(dw)

[[ 0.02542538  0.28858445 -0.31400983]
 [ 0.03813807  0.43287668 -0.47101475]]

结果发现， $\frac{\partial L}{\partial W}$ 中： $w_{23}$ 应向正方向更新； $w_{11}$ 应向负方向更新。 $w_{23}$ 更新的程度比 $w_{11}$ 的大。

（1） $\frac{\partial L}{\partial w_{11}}$ 的值大约是 0.2，这表示如果将 $w_{11}$ 增加，那么损失函数的值将增加 0.2h。

（2） $\frac{\partial L}{\partial w_{23}}$ 的值大约是 -0.5，这表示如果将 $w_{23}$ 增加，那么损失函数的值将减小 0.5h。

5、学习算法的实现

神经网络的学习步如下所示。

前提

神经网络存在合适的权重和偏置，调整权重和偏置以便拟合训练数据的过程称为 “学习”。神经网络的学习分成下面 4 个步骤。

步骤 1 (mini-batch)

从训练数据中随机选出一部分数据，这部分数据称为 mini-batch。我们的目标是减小 mini-batch 的损失函数的值。

步骤 2 (计算梯度)

为了减小 mini-batch 的损失函数的值，需要求出各个权重参数的梯度。梯度表示损失函数的值减小最多的方向。

步骤 3 (更新参数)

将权重参数沿梯度方向进行微小更新。

步骤 4 (重复)

重复步骤 1、步骤 2、步骤 3。

神经网络的学习按照上面 4 个步骤进行。这个方法通过梯度下降法更新参数，不过因为这里使用的数据是随机选择的 mini-batch 数据，所以又称为随机梯度下降法（stochastic gradient descent）。“随机” 指的是 “随机选择的” 的意思，因此，随机梯度下降法是 “对随机选择的数据进行的梯度下降法”。

5.1 实现手写数字识别的神经网络

"""
手写数字识别神经网络
"""

import os
import sys
import numpy as np
from matplotlib import pyplot as plt

sys.path.append(os.pardir)
from dataset.mnist import load_mnist


class Function(object):
    def sigmoid(self, x):
        """sigmoid"""
        return 1 / (1 + np.exp(-x))

    def sigmoid_grad(self, x):
        return (1.0 - self.sigmoid(x)) * self.sigmoid(x)

    def softmax(self, x):
        """softmax"""
        if x.ndim == 2:
            x = x.T
            x = x - np.max(x, axis=0)
            y = np.exp(x) / np.sum(np.exp(x), axis=0)
            return y.T

        x = x - np.max(x)   # 溢出对策
        return np.exp(x) / np.sum(np.exp(x))

    def cross_entropy_error(self, y, t):
        """交叉熵误差"""
        if y.ndim == 1:
            t = t.reshape(1, t.size)
            y = y.reshape(1, y.size)

        # 监督数据是one-hot-vector的情况下，转换为正确解标签的索引
        if t.size == y.size:
            t = t.argmax(axis=1)

        batch_size = y.shape[0]
        return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

    def numerical_gradient(self, f, x):
        """
        计算梯度
        :param f: 函数
        :param x: 传给函数f的参数
        :return:
        """
        h = 1e-4  # 0.0001
        grad = np.zeros_like(x)

        it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
        while not it.finished:
            idx = it.multi_index
            tmp_val = x[idx]
            x[idx] = float(tmp_val) + h
            fxh1 = f(x)  # f(x+h)

            x[idx] = tmp_val - h
            fxh2 = f(x)  # f(x-h)
            grad[idx] = (fxh1 - fxh2) / (2 * h)

            x[idx] = tmp_val  # 还原值
            it.iternext()

        return grad


class TwoLayerNet(object):
    """2层神经网络（隐藏层为1层）"""
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        """
        初始化
        :param input_size: 输入层的神经元数
        :param hidden_size: 隐藏层的神经元数
        :param output_size: 输出层的神经元数
        """
        # 初始化权重（权重使用符合高斯分布的随机数进行初始化，偏置使用0进行初始化）
        # 保存神经网络的参数的字典变量（实例变量）
        self.params = {}
        # 第1层的权重
        self.params["w1"] = weight_init_std * np.random.randn(input_size, hidden_size)
        # 第1层的偏置
        self.params["b1"] = np.zeros(hidden_size)
        # 第2层的权重
        self.params["w2"] = weight_init_std * np.random.randn(hidden_size, output_size)
        # 第2层的偏置
        self.params["b2"] = np.zeros(output_size)
        # 函数类
        self.f = Function()

    def predict(self, x):
        """
        进行识别（推理）
        :param x: 图像数据
        :return:
        """
        w1, w2 = self.params["w1"], self.params["w2"]
        b1, b2 = self.params["b1"], self.params["b2"]

        a1 = np.dot(x, w1) + b1
        z1 = self.f.sigmoid(a1)
        a2 = np.dot(z1, w2) + b2
        y = self.f.softmax(a2)

        return y

    def loss(self, x, t):
        """
        计算损失函数的值
        :param x: 图像数据
        :param t: 正确解标签
        :return:
        """
        y = self.predict(x)
        return self.f.cross_entropy_error(y, t)

    def accuracy(self, x, t):
        """
        计算识别精度
        :param x: 图像数据
        :param t: 正确解标签
        :return:
        """
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)

        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy

    def gradient(self, x, t):
        w1, w2 = self.params["w1"], self.params["w2"]
        b1, b2 = self.params["b1"], self.params["b2"]
        grads = {}

        batch_num = x.shape[0]

        # forward
        a1 = np.dot(x, w1) + b1
        z1 = self.f.sigmoid(a1)
        a2 = np.dot(z1, w2) + b2
        y = self.f.softmax(a2)

        # backward
        dy = (y - t) / batch_num
        grads["w2"] = np.dot(z1.T, dy)
        grads["b2"] = np.sum(dy, axis=0)

        da1 = np.dot(dy, w2.T)
        dz1 = self.f.sigmoid_grad(a1) * da1
        grads["w1"] = np.dot(x.T, dz1)
        grads["b1"] = np.sum(dz1, axis=0)

        return grads

    def numerical_gradient(self, x, t):
        """
        计算权重参数的梯度
        :param x: 图像数据
        :param t: 正确解标签
        :return:
        """
        loss_w = lambda w: self.loss(x, t)

        # 保存梯度的字典变量
        grads = {}
        # 第1层权重的梯度
        grads["w1"] = self.f.numerical_gradient(loss_w, self.params["w1"])
        # 第1层偏置的梯度
        grads["b1"] = self.f.numerical_gradient(loss_w, self.params["b1"])
        # 第2层权重的梯度
        grads["w2"] = self.f.numerical_gradient(loss_w, self.params["w2"])
        # 第2层偏置的梯度
        grads["b2"] = self.f.numerical_gradient(loss_w, self.params["b2"])

        return grads


class MiniBatch(object):
    """mini-batch学习"""
    def run(self):
        (x_train, y_train), (x_test, y_test) = load_mnist(normalize=True, one_hot_label=True)

        train_loss_list = []
        train_acc_list = []
        test_acc_list = []

        # 超参数
        iters_num = 10000
        train_size = x_train.shape[0]
        batch_size = 100
        learning_rate = 0.1
        # 平均每个epoch的重复次数
        iter_per_epoch = max(train_size / batch_size, 1)
        network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

        for i in range(iters_num):
            # 获取mini-batch，每次从60000个训练数据中随机取出100个数据
            batch_mask = np.random.choice(train_size, batch_size)
            x_batch = x_train[batch_mask]
            y_batch = y_train[batch_mask]

            # 计算梯度
            # grad = network.numerical_gradient(x_batch, y_batch)
            grad = network.gradient(x_batch, y_batch)

            # 更新参数
            for key in ("w1", "b1", "w2", "b2"):
                network.params[key] -= learning_rate * grad[key]

            # 记录学习过程
            loss = network.loss(x_batch, y_batch)
            train_loss_list.append(loss)

            # 计算每个epoch的识别精度
            if i % iter_per_epoch == 0:
                train_acc = network.accuracy(x_train, y_train)
                test_acc = network.accuracy(x_test, y_test)
                train_acc_list.append(train_acc)
                test_acc_list.append(test_acc)
                print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))

        # 绘制loss图形
        x = np.arange(len(train_loss_list))
        plt.plot(x, train_loss_list, label="loss")
        plt.xlabel("iteration")
        plt.ylabel("loss")
        plt.ylim(0, 1.0)
        plt.legend(loc="lower right")
        plt.show()

        # 绘制acc图形
        x = np.arange(len(train_acc_list))
        plt.plot(x, train_acc_list, label="train acc")
        plt.plot(x, test_acc_list, label="test acc", linestyle="--")
        plt.xlabel("epochs")
        plt.ylabel("accuracy")
        plt.ylim(0, 1.0)
        plt.legend(loc="lower right")
        plt.show()


if __name__ == "__main__":
    mini_batch = MiniBatch()
    mini_batch.run()

图 4-11 损失函数的推移

图 4-12 训练数据和测试数据的识别精度的推移（横向的单位是epoch）

你可能感兴趣的:(人工智能（深度学习入门）)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

python深度学习入门-神经网络的学习

摘要

1、从数据中学习

1.1 数据驱动

1.2 训练数据和测试数据

2、 损失函数

2.1 均方误差

2.2 交叉熵误差

2.3 mini-batch 学习

2.4 mini-batch 版交叉熵误差的实现

2.5 为何要设定损失函数

3、数值微分

3.1 导数

3.2 数值微分的例子

3.3 偏导数

4、梯度

4.1 梯度法

4.2 神经网络的梯度

5、学习算法的实现

5.1 实现手写数字识别的神经网络

你可能感兴趣的:(人工智能（深度学习入门）)

2、损失函数