笼子里的薛定谔

NNDL 实验四线性分类

第3章线性分类

3.1 基于Logistic回归的二分类任务

3.1.1 数据集构建

构建一个简单的分类任务，并构建训练集、验证集和测试集。
本任务的数据来自带噪音的两个弯月形状函数，每个弯月对一个类别。我们采集1000条样本，每个样本包含2个特征。

import math
import copy
import torch
def make_moons(n_samples=1000, shuffle=True, noise=None):
    n_samples_out = n_samples // 2
    n_samples_in = n_samples - n_samples_out

    # 采集第1类数据，特征为(x,y)
    # 使用'torch.linspace'在0到pi上均匀取n_samples_out个值
    # 使用'torch.cos'计算上述取值的余弦值作为特征1，使用'torch.sin'计算上述取值的正弦值作为特征2
    outer_circ_x = torch.cos(torch.linspace(0, math.pi, n_samples_out))
    outer_circ_y = torch.sin(torch.linspace(0, math.pi, n_samples_out))

    inner_circ_x = 1 - torch.cos(torch.linspace(0, math.pi, n_samples_in))
    inner_circ_y = 0.5 - torch.sin(torch.linspace(0, math.pi, n_samples_in))

    print('outer_circ_x.shape:', outer_circ_x.shape, 'outer_circ_y.shape:', outer_circ_y.shape)
    print('inner_circ_x.shape:', inner_circ_x.shape, 'inner_circ_y.shape:', inner_circ_y.shape)

    # 使用'torch.concat'将两类数据的特征1和特征2分别延维度0拼接在一起，得到全部特征1和特征2
    # 使用'torch.stack'将两类特征延维度1堆叠在一起
    X = torch.stack(
        [torch.cat([outer_circ_x, inner_circ_x]),
         torch.cat([outer_circ_y, inner_circ_y])],
        axis=1
    )

    print('after concat shape:', torch.cat([outer_circ_x, inner_circ_x]).shape)
    print('X shape:', X.shape)

    # 使用'torch. zeros'将第一类数据的标签全部设置为0
    # 使用'torch. ones'将第一类数据的标签全部设置为1
    y = torch.cat(
        [torch.zeros([n_samples_out]), torch.ones([n_samples_in])]
    )

    print('y shape:', y.shape)

    # 如果shuffle为True，将所有数据打乱
    if shuffle:
        # 使用'torch.randperm'生成一个数值在0到X.shape[0]，随机排列的一维Tensor做索引值，用于打乱数据
        idx = torch.randperm(X.shape[0])
        X = X[idx]
        y = y[idx]

    # 如果noise不为None，则给特征值加入噪声
    if noise is not None:
        # 使用'torch.normal'生成符合正态分布的随机Tensor作为噪声，并加到原始特征上
        X += torch.normal(mean=0.0, std=noise, size=X.shape)

    return X, y

随机采集1000个样本，并进行可视化。

# 采样1000个样本
n_samples = 1000
X, y = make_moons(n_samples=n_samples, shuffle=True, noise=0.5)
# 可视化生产的数据集，不同颜色代表不同类别

import matplotlib.pyplot as plt
plt.figure(figsize=(5,5))
plt.scatter(x=X[:, 0].tolist(), y=X[:, 1].tolist(), marker='*', c=y.tolist())
plt.xlim(-3,4)
plt.ylim(-3,4)
plt.savefig('linear-dataset-vis.pdf')
plt.show()

运行结果

将1000条样本数据拆分成训练集、验证集和测试集，其中训练集640条、验证集160条、测试集200条。

num_train = 640  #训练集
num_dev = 160  #验证集
num_test = 200 #测试集
X_train, y_train = X[:num_train], y[:num_train]
X_dev, y_dev = X[num_train:num_train + num_dev], y[num_train:num_train + num_dev]
X_test, y_test = X[num_train + num_dev:], y[num_train + num_dev:]

y_train = y_train.reshape([-1,1])
y_dev = y_dev.reshape([-1,1])
y_test = y_test.reshape([-1,1])

# 打印X_train和y_train的维度
print("X_train shape: ", X_train.shape, "y_train shape: ", y_train.shape)

# 打印前5个数据的标签
print (y_train[:5])

运行结果

3.1.2 模型构建

# 定义Logistic函数
def logistic(x):
    return 1 / (1 + torch.exp(-x))

# 在[-10,10]的范围内生成一系列的输入值，用于绘制函数曲线
x = torch.linspace(-10, 10, 10000)
plt.figure()
plt.plot(x.tolist(), logistic(x).tolist(), color="#e4007f", label="Logistic Function")
# 设置坐标轴
ax = plt.gca()
# 取消右侧和上侧坐标轴
ax.spines['top'].set_color('none')
ax.spines['right'].set_color('none')
# 设置默认的x轴和y轴方向
ax.xaxis.set_ticks_position('bottom') 
ax.yaxis.set_ticks_position('left')
# 设置坐标原点为(0,0)
ax.spines['left'].set_position(('data',0))
ax.spines['bottom'].set_position(('data',0))
# 添加图例
plt.legend()
plt.savefig('linear-logistic.pdf')
plt.show()

运行结果

Logistic回归算子：

from nndl import op.Op
op=op.Op
class model_LR(op):
    def __init__(self, input_dim):
        super(model_LR, self).__init__()
        self.params = {}
        # 将线性层的权重参数全部初始化为0
        self.params['w'] = torch.zeros([input_dim, 1])
        # self.params['w'] = torch.normal(mean=0, std=0.01, shape=[input_dim, 1])
        # 将线性层的偏置参数初始化为0
        self.params['b'] = torch.zeros([1])

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):
        # 线性计算
        score = torch.matmul(inputs, self.params['w']) + self.params['b']
        # Logistic 函数
        outputs = logistic(score)
        return outputs

op.Op的代码如下：

class Op(object):
    def __init__(self):
        pass

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):
        raise NotImplementedError

    def backward(self, inputs):
        raise NotImplementedError

测试

# 固定随机种子，保持每次运行结果一致
torch.seed()
# 随机生成3条长度为4的数据
inputs = torchrandn(shape=[3,4])
print('Input is:', inputs)
# 实例化模型
model = model_LR(4)
outputs = model(inputs)
print('Output is:', outputs)

运行结果

问题1：Logistic回归在不同的书籍中，有许多其他的称呼，具体有哪些？你认为哪个称呼最好

《机器学习》：对数几率回归
《统计学习方法》：逻辑斯蒂回归
《数学建模》：二元的叫二分类logit回归模型，多元的叫多分类Logistic回归分析。也被叫做虫口模型，因为它在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率。刚刚过去的数模国赛还使用了一下，但因为自变量和因变量的关系一点也不显著，被迫放弃
剩余的查了一下，貌似都喜欢logistic回归的叫法，包括我在入门时候，一直也是听的logistic回归

我个人更喜欢《数学建模》的叫法，但是也适应回归叫法，因为本身就是分类模型，所以我更喜欢它带分类字眼，但是SPSS把logistic模型归到回归模型里面不归到分类模型还挺迷惑的。

问题2：什么是激活函数？为什么要用激活函数？常见激活函数有哪些

1.定义：
百度定义：激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。

激活函数（Activation functions）对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。

它的两个特性：

在人工神经网络上运行的函数，既然是一个函数，就能够普通的函数一样使用。
把非线性特性引入网络中，简单说就是激活函数有“掰弯”的能力。能够增强我们关注的特征，减弱不关注的特征。

比如线性函数：f(x)=x+1

添加一个绝对值的激活函数：|fx|=|x+1|

如果把x表示特征，y=x+1表示神经网络的一个处理层，y越大表示特征越明显；

显然，添加绝对值激活函数后，x越小和越大的特征，越被强化。
2.为什么要用激活函数:

神经网络中，如果不加入激活函数，那么每一层的输入输出都是函数均是线性的，网络的逼近能力有限，于是就引入非线性函数作为激活函数，使网络的表达能力更强。

激活函数在上一层隐藏层的输出和下一层隐藏层输入之前。经过激活函数之后，上一层隐藏层的输出就被“掰弯”了，使得网络结构的表示能力大大增强。

3.常见激活函数有哪些

(1).sigmoid函数
图像：

特点：它能够把输入的连续实值变换为0和1之间的输出。如果是非常大的负数，那么输出就是0；如果是非常大的正数，输出就是1。可以用来做二分类。
缺点：

在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失，其中梯度爆炸发生的概率非常小，而梯度消失发生的概率比较大。具体表现为：如果我们初始化神经网络的权值为 [0,1]之间的随机值，由反向传播算法的数学推导可知，梯度从后向前传播时，每传递一层梯度值都会减小为原来的0.25倍，如果神经网络隐层特别多，那么梯度在穿过多层后将变得非常小接近于0，即出现梯度消失现象；当网络权值初始化为 (1,+∞)区间内的值，则会出现梯度爆炸情况。
计算中含有幂运算，求解时比较耗时。对于规模比较大的深度网络，会增加训练时间。
Sigmoid 的 output 不是0均值（即zero-centered）。会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。产生的一个结果就是：如x>0,f(x)>0, 那么对w求局部梯度则都为正，这样在反向传播的过程中w要么都往正方向更新，要么都往负方向更新，导致有一种捆绑的效果，使得收敛缓慢。

sigmoid是我最熟悉的函数了，因为是上学期机器学习的重点，BP反向传播推导了无数次，他的导数性质也很好用。

(2).tanh函数

图像:

特点：

解决了在正区间梯度消失的问题
计算速度非常快，只需要判断输入是否大于0
收敛速度远快于sigmoid和tanh

缺点：

输出不是非0均值(zero-centered)
某些神经元（如小于0的特征）可能永远不会被激活，导致相应的参数永远不能被更新。

(3) relu函数

图像：
优点：

1）解决了gradient vanishing问题 (在正区间)
2）计算速度非常快，只需要判断输入是否大于0
3）收敛速度远快于sigmoid和tanh

注意问题：

1）ReLU的输出不是zero-centered
2）Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

尽管存在这两个问题，ReLU目前仍是最常用的activation function，在搭建人工神经网络的时候推荐优先尝试！

(4)Leaky Relu函数
图像：
解决了Dead Relu Promble。
理论上来讲，Leaky ReLU有ReLU的所有优点，外加不会有Dead ReLU问题，但是在实际操作当中，并没有完全证明Leaky ReLU总是好于ReLU。

(5)softmax函数(这个多说点，因为很重要)
Softmax 是用于多类分类问题的激活函数，在多类分类问题中，超过两个类标签则需要类成员关系。对于长度为 K 的任意实向量，Softmax 可以将其压缩为长度为 K，值在（0，1）范围内，并且向量中元素的总和为 1 的实向量，公式如下：

图像：

例如：

Softmax从字面上来说，可以分成soft和max两个部分。max顾名思义就是最大值的意思。Softmax的核心在于soft，而soft有软的含义，与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素，实质上都是求的hardmax。
hardmax最大的特点就是只选出其中一个最大的值，即非黑即白。但是往往在实际中这种方式是不合情理的，比如对于文本分类来说，一篇文章或多或少包含着各种主题信息，我们更期望得到文章对于每个可能的文本类别的概率值（置信度），可以简单理解成属于对应类别的可信度。所以此时用到了soft的概念，Softmax的含义就在于不再唯一的确定某一个最大值，而是为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性。
Softmax 确保较小的值具有较小的概率，并且不会直接丢弃。我们可以认为它是 argmax 函数的概率版本或「soft」版本。
Softmax 函数的分母结合了原始输出值的所有因子，这意味着 Softmax 函数获得的各种概率彼此相关。
Softmax激活函数的缺点：

在零点不可微。
负输入的梯度为零，这意味着对于该区域的激活，权重不会在反向传播期间更新，因此会产生永不激活的死亡神经元。

更多详细见解请见：

https://blog.csdn.net/tyhj_sf/article/details/79932893?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164570203816780357215346%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=164570203816780357215346&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_ecpm_v1~rank_v31_ecpm-1-79932893.pc_search_result_cache&utm_term=%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0&spm=1018.2226.3001.4187

2.https://blog.csdn.net/hy592070616/article/details/120618490

4.损失函数在pytorch中的定义：
基本的用法如下：
torch.nn.ReLU()
torch.nn.LeakyReLU()
torch.nn.Sigmoid()
torch.nn.Tanh()
torch.nn.Softmax()

更多的还是需要参考pytorch官方文档，学pytorch不会查文档可不行，链接如下:

https://pytorch.org/docs/stable/torch.html

3.1.3 损失函数

交叉熵损失函数

# 实现交叉熵损失函数
class BinaryCrossEntropyLoss(op.Op):
    def __init__(self):
        self.predicts = None
        self.labels = None
        self.num = None

    def __call__(self, predicts, labels):
        return self.forward(predicts, labels)

    def forward(self, predicts, labels):
        self.predicts = predicts
        self.labels = labels
        self.num = self.predicts.shape[0]
        loss = -1. / self.num * (torch.matmul(self.labels.t(), torch.log(self.predicts)) + torch.matmul((1-self.labels.t()), torch.log(1-self.predicts)))
        loss = torch.squeeze(loss, axis=1)
        return loss

测试

# 生成一组长度为3，值为1的标签数据
labels = torch.ones([3,1])
# 计算风险函数
bce_loss = BinaryCrossEntropyLoss()
print(bce_loss(outputs, labels))

运行结果

3.1.4 模型优化

不同于线性回归中直接使用最小二乘法即可进行模型参数的求解，Logistic回归需要使用优化算法对模型参数进行有限次地迭代来获取更优的模型，从而尽可能地降低风险函数的值。
在机器学习任务中，最简单、常用的优化算法是梯度下降法。

使用梯度下降法进行模型优化，首先需要初始化参数W和 b，然后不断地计算它们的梯度，并沿梯度的反方向更新参数。
代码实现如下：

class model_SR(op):
    def __init__(self, input_dim, output_dim):
        super(model_SR, self).__init__()
        self.params = {}
        # 将线性层的权重参数全部初始化为0
        self.params['W'] = torch.zeros([input_dim, output_dim])
        # self.params['W'] = torch.normal(mean=0, std=0.01, shape=[input_dim, output_dim])
        # 将线性层的偏置参数初始化为0
        self.params['b'] = torch.zeros([output_dim])
        # 存放参数的梯度
        self.grads = {}
        self.X = None
        self.outputs = None
        self.output_dim = output_dim

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):
        self.X = inputs
        # 线性计算
        score = torch.matmul(self.X, self.params['W']) + self.params['b']
        # Softmax 函数
        self.outputs = softmax(score)
        return self.outputs

    def backward(self, labels):
        N =labels.shape[0]
        labels = torch.nn.functional.one_hot(labels.to(torch.int64), self.output_dim)
        self.grads['W'] = -1 / N * torch.matmul(self.X.t(), (labels-self.outputs))
        self.grads['b'] = -1 / N * torch.matmul(torch.ones([N]), (labels-self.outputs))

在计算参数的梯度之后，我们按照下面公式更新参数：

其中α 为学习率。
代码实现如下：

from abc import abstractmethod

# 优化器基类
class Optimizer(object):
    def __init__(self, init_lr, model):
        """
        优化器类初始化
        """
        # 初始化学习率，用于参数更新的计算
        self.init_lr = init_lr
        # 指定优化器需要优化的模型
        self.model = model

    @abstractmethod
    def step(self):
        """
        定义每次迭代如何更新参数
        """
        pass
class SimpleBatchGD(Optimizer):
    def __init__(self, init_lr, model):
        super(SimpleBatchGD, self).__init__(init_lr=init_lr, model=model)

    def step(self):
        # 参数更新
        # 遍历所有参数，按照公式(3.8)和(3.9)更新参数
        if isinstance(self.model.params, dict):
            for key in self.model.params.keys():
                self.model.params[key] = self.model.params[key] - self.init_lr * self.model.grads[key]

3.1.5 评价指标

在分类任务中，通常使用准确率（Accuracy）作为评价指标。如果模型预测的类别与真实类别一致，则说明模型预测正确。准确率即正确预测的数量与总的预测数量的比值：

def accuracy(preds, labels):
    # 判断是二分类任务还是多分类任务，preds.shape[1]=1时为二分类任务，preds.shape[1]>1时为多分类任务
    if preds.shape[1] == 1:
        # 二分类时，判断每个概率值是否大于0.5，当大于0.5时，类别为1，否则类别为0
        # 使用'torch.cast'将preds的数据类型转换为float32类型
        print(preds.dtype)
        # preds = torch.can_cast((preds>=0.5),torch.float32)
    else:
        # 多分类时，使用'torch.argmax'计算最大元素索引作为类别
       preds = torch.argmax(preds,dim=1).int()


    return torch.mean((preds == labels).float())

preds = torch.as_tensor([[0.],[1.],[1.],[0.]])
labels = torch.as_tensor([[1.],[1.],[0.],[0.]])
print("accuracy is:", accuracy(preds, labels))

运行结果：

3.1.6 完善Runner类

基于RunnerV1，本章的RunnerV2类在训练过程中使用梯度下降法进行网络优化，模型训练过程中计算在训练集和验证集上的损失及评估指标并打印，训练过程中保存最优模型。

class RunnerV2(object):
    def __init__(self, model, optimizer, metric, loss_fn):
        self.model = model
        self.optimizer = optimizer
        self.loss_fn = loss_fn
        self.metric = metric
        # 记录训练过程中的评价指标变化情况
        self.train_scores = []
        self.dev_scores = []
        # 记录训练过程中的损失函数变化情况
        self.train_loss = []
        self.dev_loss = []

    def train(self, train_set, dev_set, **kwargs):
        # 传入训练轮数，如果没有传入值则默认为0
        num_epochs = kwargs.get("num_epochs", 0)
        # 传入log打印频率，如果没有传入值则默认为100
        log_epochs = kwargs.get("log_epochs", 100)
        # 传入模型保存路径，如果没有传入值则默认为"best_model.pdparams"
        save_path = kwargs.get("save_path", "best_model.pdparams")
        # 梯度打印函数，如果没有传入则默认为"None"
        print_grads = kwargs.get("print_grads", None)
        # 记录全局最优指标
        best_score = 0
        # 进行num_epochs轮训练
        for epoch in range(num_epochs):
            X, y = train_set
            # 获取模型预测
            logits = self.model(X)
            # 计算交叉熵损失
            trn_loss = self.loss_fn(logits, y).item()
            self.train_loss.append(trn_loss)
            # 计算评价指标
            trn_score = self.metric(logits, y).item()
            self.train_scores.append(trn_score)
            # 计算参数梯度
            self.model.backward(y)
            if print_grads is not None:
                # 打印每一层的梯度
                print_grads(self.model)
            # 更新模型参数
            self.optimizer.step()
            dev_score, dev_loss = self.evaluate(dev_set)
            # 如果当前指标为最优指标，保存该模型
            if dev_score > best_score:
                self.save_model(save_path)
                print(f"best accuracy performence has been updated: {best_score:.5f} --> {dev_score:.5f}")
                best_score = dev_score
            if epoch % log_epochs == 0:
                print(f"[Train] epoch: {epoch}, loss: {trn_loss}, score: {trn_score}")
                print(f"[Dev] epoch: {epoch}, loss: {dev_loss}, score: {dev_score}")

    def evaluate(self, data_set):
        X, y = data_set
        # 计算模型输出
        logits = self.model(X)
        # 计算损失函数
        loss = self.loss_fn(logits, y).item()
        self.dev_loss.append(loss)
        # 计算评价指标
        score = self.metric(logits, y).item()
        self.dev_scores.append(score)
        return score, loss

    def predict(self, X):
        return self.model(X)

    def save_model(self, save_path):
        torch.save(self.model.params, save_path)

    def load_model(self, model_path):
        self.model.params = torch.load(model_path)

运行结果

3.1.7 模型训练

# 固定随机种子，保持每次运行结果一致
torch.seed()
# 特征维度
input_dim = 2
# 学习率
lr = 0.001

# 实例化模型
model = model_LR(input_dim=input_dim)
# 指定优化器
optimizer = SimpleBatchGD(init_lr=lr, model=model)
# 指定损失函数
loss_fn = BinaryCrossEntropyLoss()
# 指定评价方式
metric = accuracy

# 实例化RunnerV2类，并传入训练配置
runner = RunnerV2(model, optimizer, metric, loss_fn)

runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=500, log_epochs=50, save_path="best_model.pdparams")

运行结果

# 可视化观察训练集与验证集的指标变化情况
def plot(runner,fig_name):
    plt.figure(figsize=(10,5))
    plt.subplot(1,2,1)
    epochs = [i for i in range(len(runner.train_scores))]
    # 绘制训练损失变化曲线
    plt.plot(epochs, runner.train_loss, color='#e4007f', label="Train loss")
    # 绘制评价损失变化曲线
    plt.plot(epochs, runner.dev_loss, color='#f19ec2', linestyle='--', label="Dev loss")
    # 绘制坐标轴和图例
    plt.ylabel("loss", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='upper right', fontsize='x-large')
    plt.subplot(1,2,2)
    # 绘制训练准确率变化曲线
    plt.plot(epochs, runner.train_scores, color='#e4007f', label="Train accuracy")
    # 绘制评价准确率变化曲线
    plt.plot(epochs, runner.dev_scores, color='#f19ec2', linestyle='--', label="Dev accuracy")
    # 绘制坐标轴和图例
    plt.ylabel("score", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='lower right', fontsize='x-large')
    plt.tight_layout()
    plt.savefig(fig_name)
    plt.show()

plot(runner,fig_name='linear-acc.pdf')

运行结果

3.1.8 模型评价

score, loss = runner.evaluate([X_test, y_test])
print("[Test] score/loss: {:.4f}/{:.4f}".format(score, loss))

没搞epoch前：

搞500轮epoch后：

直接拉到10000轮epoch后：

很明显上面都是欠拟合的状态，将lr调小两个级数，结果如下：：
继续调小一个级数lr，保证模型学习到更多的特征

注：这个时候观察到虽然score有微小上升，但是loss也随着增加，可以收手了

可视化拟合结果：

def decision_boundary(w, b, x1):
    w1, w2 = w
    x2 = (- w1 * x1 - b) / w2
    return x2
plt.figure(figsize=(5,5))
# 绘制原始数据
plt.scatter(X[:, 0].tolist(), X[:, 1].tolist(), marker='*', c=y.tolist())

w = model.params['w']
b = model.params['b']
x1 = torch.linspace(-2, 3, 1000)
x2 = decision_boundary(w, b, x1)
# 绘制决策边界
plt.plot(x1.tolist(), x2.tolist(), color="red")
plt.show()

运行结果

注：这里关于过拟合和欠拟合放上一张我很喜欢的笔记图:

3.2 基于Softmax回归的多分类任务

Logistic回归可以有效地解决二分类问题，但在分类任务中，还有一类多分类问题，即类别数C

大于2 的分类问题。Softmax回归就是Logistic回归在多分类问题上的推广。

使用Softmax回归模型对一个简单的数据集进行多分类实验。

3.2.1 数据集构建

我们首先构建一个简单的多分类任务，并构建训练集、验证集和测试集。
本任务的数据来自3个不同的簇，每个簇对一个类别。我们采集1000条样本，每个样本包含2个特征。

import numpy as np
import torch
import matplotlib.pyplot as plt

def make_multiclass_classification(n_samples=100, n_features=2, n_classes=3, shuffle=True, noise=0.1):
    # 计算每个类别的样本数量
    n_samples_per_class = [int(n_samples / n_classes) for k in range(n_classes)]
    for i in range(n_samples - sum(n_samples_per_class)):
        n_samples_per_class[i % n_classes] += 1
    # 将特征和标签初始化为0
    X = torch.zeros([n_samples, n_features])
    y = torch.zeros(n_samples, dtype=torch.int32)
    # 随机生成3个簇中心作为类别中心
    centroids = torch.randperm(2 ** n_features)[:n_classes]
    centroids_bin = np.unpackbits(centroids.numpy().astype('uint8')).reshape((-1, 8))[:, -n_features:]
    centroids = torch.as_tensor(centroids_bin, dtype=torch.float32)
    # 控制簇中心的分离程度
    centroids = 1.5 * centroids - 1
    # 随机生成特征值
    X[:, :n_features] = torch.randn([n_samples, n_features])

    stop = 0
    # 将每个类的特征值控制在簇中心附近
    for k, centroid in enumerate(centroids):
        start, stop = stop, stop + n_samples_per_class[k]
        # 指定标签值
        y[start:stop] = k % n_classes
        X_k = X[start:stop, :n_features]
        # 控制每个类别特征值的分散程度
        A = 2 * torch.rand([n_features, n_features]) - 1
        X_k[...] = torch.matmul(X_k, A)
        X_k += centroid
        X[start:stop, :n_features] = X_k

    # 如果noise不为None，则给特征加入噪声
    if noise > 0.0:
        # 生成noise掩膜，用来指定给那些样本加入噪声
        noise_mask = torch.rand([n_samples]) < noise
        for i in range(len(noise_mask)):
            if noise_mask[i]:
                # 给加噪声的样本随机赋标签值
                y[i] = torch.randint(n_classes, size=[1],dtype=torch.int32)
    # 如果shuffle为True，将所有数据打乱
    if shuffle:
        idx = torch.randperm(X.shape[0])
        X = X[idx]
        y = y[idx]

    return X, y

# 采样1000个样本
n_samples = 1000
X, y = make_multiclass_classification(n_samples=n_samples, n_features=2, n_classes=3, noise=0.2)

# 可视化生产的数据集，不同颜色代表不同类别
plt.figure(figsize=(5,5))
plt.scatter(x=X[:, 0].tolist(), y=X[:, 1].tolist(), marker='*', c=y.tolist())
plt.savefig('linear-dataset-vis2.pdf')
plt.show()

运行结果

将实验数据拆分成训练集、验证集和测试集。其中训练集640条、验证集160条、测试集200条。

num_train = 640
num_dev = 160
num_test = 200

X_train, y_train = X[:num_train], y[:num_train]
X_dev, y_dev = X[num_train:num_train + num_dev], y[num_train:num_train + num_dev]
X_test, y_test = X[num_train + num_dev:], y[num_train + num_dev:]

# 打印X_train和y_train的维度
print("X_train shape: ", X_train.shape, "y_train shape: ", y_train.shape)
# 打印X_train和y_train的维度
print("X_train shape: ", X_train.shape, "y_train shape: ", y_train.shape)
# 打印前5个数据的标签
print(y_train[:5])

运行结果

3.2.2 模型构建

在Softmax回归中，对类别进行预测的方式是预测输入属于每个类别的条件概率。与Logistic 回归不同的是，Softmax回归的输出值个数等于类别数C，而每个类别的概率值则通过Softmax函数进行求解。

3.2.2.1 Softmax函数

Softmax函数可以将多个标量映射为一个概率分布。对于一个K维向量，x=[x1,⋯,xK]，Softmax的计算公式为:
实现代码：

# x为tensor
def softmax(X):
    """
    输入：
        - X：shape=[N, C]，N为向量数量，C为向量维度
    """
    x_max = torch.max(X, axis=1, keepdim=True)#N,1
    x_exp = torch.exp(X - x_max.values)
    partition = torch.sum(x_exp, axis=1, keepdim=True)#N,1
    return x_exp / partition

# 观察softmax的计算方式
X = torch.as_tensor([[0.1, 0.2, 0.3, 0.4],[1,2,3,4]])
predict = softmax(X)
# print(predict)

运行结果

3.2.2.2 Softmax回归算子

class model_SR(op.Op):
    def __init__(self, input_dim, output_dim):
        super(model_SR, self).__init__()
        self.params = {}
        # 将线性层的权重参数全部初始化为0
        self.params['W'] = torch.zeros([input_dim, output_dim])
        # self.params['W'] = torch.normal(mean=0, std=0.01, shape=[input_dim, output_dim])
        # 将线性层的偏置参数初始化为0
        self.params['b'] = torch.zeros([output_dim])
        self.outputs = None

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):
        # 线性计算
        score = torch.matmul(inputs, self.params['W']) + self.params['b']
        # Softmax 函数
        self.outputs = softmax(score)
        return self.outputs

# 随机生成1条长度为4的数据
inputs = torch.randn([1,4])
print('Input is:', inputs)
# 实例化模型，这里令输入长度为4，输出类别数为3
model = model_SR(input_dim=4, output_dim=3)
outputs = model(inputs)
print('Output is:', outputs)

运行结果

3.2.3 损失函数

class MultiCrossEntropyLoss(op):
    def __init__(self):
        self.predicts = None
        self.labels = None
        self.num = None

    def __call__(self, predicts, labels):
        return self.forward(predicts, labels)

    def forward(self, predicts, labels):
        self.predicts = predicts
        self.labels = labels
        self.num = self.predicts.shape[0]
        loss = 0
        for i in range(0, self.num):
            index = self.labels[i]
            loss -= torch.log(self.predicts[i][index])
        return loss / self.num

# 测试一下
# 假设真实标签为第1类
labels = torch.as_tensor([0])
# 计算风险函数
mce_loss = MultiCrossEntropyLoss()
print(mce_loss(outputs, labels))

运行结果

3.2.4 模型优化

3.2.4.1 梯度计算


class model_SR(op):
    def __init__(self, input_dim, output_dim):
        super(model_SR, self).__init__()
        self.params = {}
        # 将线性层的权重参数全部初始化为0
        self.params['W'] = torch.zeros([input_dim, output_dim])
        # self.params['W'] = torch.normal(mean=0, std=0.01, shape=[input_dim, output_dim])
        # 将线性层的偏置参数初始化为0
        self.params['b'] = torch.zeros([output_dim])
        # 存放参数的梯度
        self.grads = {}
        self.X = None
        self.outputs = None
        self.output_dim = output_dim

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):
        self.X = inputs
        # 线性计算
        score = torch.matmul(self.X, self.params['W']) + self.params['b']
        # Softmax 函数
        self.outputs = softmax(score)
        return self.outputs

    def backward(self, labels):
        """
        输入：
            - labels：真实标签，shape=[N, 1]，其中N为样本数量
        """
        # 计算偏导数
        N =labels.shape[0]
        labels = torch.nn.functional.one_hot(labels, self.output_dim)
        self.grads['W'] = -1 / N * torch.matmul(self.X.t(), (labels-self.outputs))
        self.grads['b'] = -1 / N * torch.matmul(torch.ones([N]), (labels-self.outputs))

3.2.4.2 参数更新

在计算参数的梯度之后，我们使用3.1.4.2中实现的梯度下降法进行参数更新。

3.2.5 模型训练

实例化RunnerV2类，并传入训练配置。使用训练集和验证集进行模型训练，共训练500个epoch。每隔50个epoch打印训练集上的指标。代码实现如下：

# 特征维度
input_dim = 2
# 类别数
output_dim = 3
# 学习率
lr = 0.1

# 实例化模型
model = model_SR(input_dim=input_dim, output_dim=output_dim)
# 指定优化器
optimizer = SimpleBatchGD(init_lr=lr, model=model)
# 指定损失函数
loss_fn = MultiCrossEntropyLoss()
# 指定评价方式
metric = accuracy
# 实例化RunnerV2类
runner = RunnerV2(model, optimizer, metric, loss_fn)

# 模型训练
runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=500, log_eopchs=50, eval_epochs=1, save_path="best_model.pdparams")

# 可视化观察训练集与验证集的准确率变化情况
plot(runner,fig_name='linear-acc2.pdf')

lr=0.1,num_epochs=500,log_epochs=50
lr=0.1,num_epochs=1000,log_epochs=50
注：可以看出，loss升高，score也降低，说明拉大epochs使得模型达到了过拟合
lr=0.001,num_epochs=1000,log_epochs=50
注：score虽然上升，但loss下降，可以收手了

运行结果

3.2.6 模型评价

score, loss = runner.evaluate([X_test, y_test])
print("[Test] score/loss: {:.4f}/{:.4f}".format(score, loss))

lr=0.1,num_epochs=500,log_epochs=50模型预测结果
lr=0.001,num_epochs=1000,log_epochs=50模型预测结果
注：可以看出在上述的训练集虽然score上升了，但是在测试集上的score下降，
loss上升，很明显原模型在上述超参数下为过拟合状态。

3.3 实践：基于Softmax回归完成鸢尾花分类任务

因为设计到数据处理，Jupyte比较方便，所以下面均在Jupyter平台上实现

3.3.1 数据处理

3.3.1.1 数据清洗

缺失值分析

from sklearn.datasets import load_iris
import pandas
import numpy as np

iris_features = np.array(load_iris().data, dtype=np.float32)
iris_labels = np.array(load_iris().target, dtype=np.int32)
print(pandas.isna(iris_features).sum())
print(pandas.isna(iris_labels).sum())

运行结果

异常值处理

import matplotlib.pyplot as plt #可视化工具

# 箱线图查看异常值分布
def boxplot(features):
    feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']

    # 连续画几个图片
    plt.figure(figsize=(5, 5), dpi=200)
    # 子图调整
    plt.subplots_adjust(wspace=0.6)
    # 每个特征画一个箱线图
    for i in range(4):
        plt.subplot(2, 2, i+1)
        # 画箱线图
        plt.boxplot(features[:, i], 
                    showmeans=True, 
                    whiskerprops={"color":"#E20079", "linewidth":0.4, 'linestyle':"--"},
                    flierprops={"markersize":0.4},
                    meanprops={"markersize":1})
        # 图名
        plt.title(feature_names[i], fontdict={"size":5}, pad=2)
        # y方向刻度
        plt.yticks(fontsize=4, rotation=90)
        plt.tick_params(pad=0.5)
        # x方向刻度
        plt.xticks([])
    plt.savefig('ml-vis.pdf')
    plt.show()

boxplot(iris_features)

运行结果

3.3.1.2 数据读取

在本实验中，将80%的数据用于模型训练，10%的数据用于模型验证，10%的数据用于模型测试。代码实现如下：

import copy
import torch
# 加载数据集
def load_data(shuffle=True):

    # 加载原始数据
    X = np.array(load_iris().data, dtype=np.float32)
    y = np.array(load_iris().target, dtype=np.int32)

    X = torch.as_tensor(X)
    y = torch.as_tensor(y)

    # 数据归一化
    X_min = torch.min(X, axis=0)
    X_max = torch.max(X, axis=0)
    X = (X-X_min.values) / (X_max.values-X_min.values)

    # 如果shuffle为True，随机打乱数据
    if shuffle:
        idx = torch.randperm(X.shape[0])
        X = X[idx]
        y = y[idx]
    return X, y



num_train = 120
num_dev = 15
num_test = 15

X, y = load_data(shuffle=True)
print("X shape: ", X.shape, "y shape: ", y.shape)
X_train, y_train = X[:num_train], y[:num_train]
X_dev, y_dev = X[num_train:num_train + num_dev], y[num_train:num_train + num_dev]
X_test, y_test = X[num_train + num_dev:], y[num_train + num_dev:]
# 打印X_train和y_train的维度
print("X_train shape: ", X_train.shape, "y_train shape: ", y_train.shape)
# 打印前5个数据的标签
print(y_train[:5])

运行结果

3.3.2 模型构建

from nndl import model_SR

# 输入维度
input_dim = 4
# 类别数
output_dim = 3
# 实例化模型
model = op.model_SR(input_dim=input_dim, output_dim=output_dim)

注： model_SR代码如下，我一般都是分为两类：

class Op(object):
    def __init__(self):
        pass

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):
        raise NotImplementedError

    def backward(self, inputs):
        raise NotImplementedError
op=Op
class model_SR(op):
    def __init__(self, input_dim, output_dim):
        super(model_SR, self).__init__()
        self.params = {}
        # 将线性层的权重参数全部初始化为0
        self.params['W'] = torch.zeros([input_dim, output_dim])
        # self.params['W'] = torch.normal(mean=0, std=0.01, shape=[input_dim, output_dim])
        # 将线性层的偏置参数初始化为0
        self.params['b'] = torch.zeros([output_dim])
        self.outputs = None

    def __call__(self, inputs):
        return self.forward(inputs)

    def forward(self, inputs):

        # 线性计算
        score = torch.matmul(inputs, self.params['W']) + self.params['b']
        # Softmax 函数
        self.outputs = softmax(score)
        return self.outputs

3.3.3 模型训练

from nndl import op, metric, opitimizer, RunnerV2

# 学习率
lr = 0.2

# 梯度下降法
optimizer = opitimizer.SimpleBatchGD(init_lr=lr, model=model)
# 交叉熵损失
loss_fn = op.MultiCrossEntropyLoss()
# 准确率
metric = metric.accuracy

# 实例化RunnerV2
runner = RunnerV2(model, optimizer, metric, loss_fn)

# 启动训练
runner.train([X_train, y_train], [X_dev, y_dev], num_epochs=200, log_epochs=10, save_path="best_model.pdparams")

lr=0.2, num_epochs=200, log_epochs=10

lr=0.3, num_epochs=200, log_epochs=10
lr=0.3, num_epochs=1000, log_epochs=10
注: 据我观察：epoch打到450轮左右，loss和score就已经变成微小变化

lr=0.001, num_epochs=1000, log_epochs=10
注: 可以注意到，lr调小2个级数后，loss暴增，score也降了下来，很明显达到了过拟合状态。

可视化观察训练集与验证集的准确率变化情况。

def plot(runner,fig_name):
    plt.figure(figsize=(10,5))
    plt.subplot(1,2,1)
    epochs = [i for i in range(len(runner.train_scores))]
    # 绘制训练损失变化曲线
    plt.plot(epochs, runner.train_loss, color='#e4007f', label="Train loss")
    # 绘制评价损失变化曲线
    plt.plot(epochs, runner.dev_loss, color='#f19ec2', linestyle='--', label="Dev loss")
    # 绘制坐标轴和图例
    plt.ylabel("loss", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='upper right', fontsize='x-large')
    plt.subplot(1,2,2)
    # 绘制训练准确率变化曲线
    plt.plot(epochs, runner.train_scores, color='#e4007f', label="Train accuracy")
    # 绘制评价准确率变化曲线
    plt.plot(epochs, runner.dev_scores, color='#f19ec2', linestyle='--', label="Dev accuracy")
    # 绘制坐标轴和图例
    plt.ylabel("score", fontsize='large')
    plt.xlabel("epoch", fontsize='large')
    plt.legend(loc='lower right', fontsize='x-large')
    plt.tight_layout()
    plt.savefig(fig_name)
    plt.show()
plot(runner,fig_name='linear-acc3.pdf')
plt.show()

运行结果

3.3.4 模型评价

使用测试数据对在训练过程中保存的最佳模型进行评价，观察模型在测试集上的准确率情况。代码实现如下：

# 加载最优模型
runner.load_model('best_model.pdparams')
# 模型评价
score, loss = runner.evaluate([X_test, y_test])
print("[Test] score/loss: {:.4f}/{:.4f}".format(score, loss))

运行结果
注:肯定有调的更好的，我调的超参数太粗糙了，比如在lr=0.2, num_epochs=200, log_epochs=10时score就达到了0.8，但是loss相比于其他太高了。

3.3.5 模型预测

# 预测测试集数据
logits = runner.predict(X_test)
# 观察其中一条样本的预测结果
pred = torch.argmax(logits[0]).numpy()
# 获取该样本概率最大的类别
label = y_test[0].numpy()
# 输出真实类别与预测类别
print("The true category is {} and the predicted category is {}".format(label, pred))

运行结果

3.4 感知机及KNN训练Iris

我看《神经网络与深度学习》里有涉及到感知器应用到多分类，但实际上我最熟悉的是上学期机器学习的KNN，对比应用到Iris数据集一下。
代码如下：

from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
import numpy as np
import matplotlib.pyplot as plt
import mglearn
from sklearn.neighbors import KNeighborsClassifier

def show(X_train, y_train, y_train_pred, X_test, y_test, y_test_pred):
    f = plt.figure('train set', figsize=(10, 5))
    plt.subplot(121)
    plt.title('train set ture')
    mglearn.discrete_scatter(X_train[:, 2], X_train[:, 3], y_train)
    plt.subplot(122)
    plt.title('train set predict')
    mglearn.discrete_scatter(X_train[:, 2], X_train[:, 3], y_train_pred)

    f = plt.figure('test set', figsize=(10, 5))
    plt.subplot(121)
    plt.title('test set ture')
    mglearn.discrete_scatter(X_test[:, 2], X_test[:, 3], y_test)
    plt.subplot(122)
    plt.title('test set predict')
    mglearn.discrete_scatter(X_test[:, 2], X_test[:, 3], y_test_pred)

# get data
iris = load_iris()
X, y = iris.data, iris.target
print('Shape', X.shape, y.shape)	# 输出结果Shape (150, 4) (150,)
RANDOM_STATE = 2	# 为了使用相同的数据好比对，选择相同的随机种子


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_STATE)
mlp = MLPClassifier(hidden_layer_sizes=(10, 10), max_iter=10000)

mlp.fit(X_train, y_train)
y_train_pred = mlp.predict(X_train)
y_test_pred = mlp.predict(X_test)
print('全连接多层感知器:train score:', accuracy_score(y_train, y_train_pred))
print('全连接多层感知器:test score:', accuracy_score(y_test, y_test_pred))

show(X_train, y_train, y_train_pred, X_test, y_test, y_test_pred)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=RANDOM_STATE)
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_train_pred2 = knn.predict(X_train)
y_test_pred2 = knn.predict(X_test)
print('K近邻train score:', accuracy_score(y_train, y_train_pred))
print('K近邻test score:', accuracy_score(y_test, y_test_pred))

# show(X_train, y_train, y_train_pred, X_test, y_test, y_test_pred)

运行结果
调用包装好的机器学习库确实是准确率很高，可能也与Iris数据集量太小有关。

总结
1.这次主要就是学习一下多分类问题+调参+激活函数，在写这些函数时候很多BUG，因为以前都是一行代码调用，然后去调用就成了。

2.调参观察模型效果还是挺重要的，在实验第一个小节时候，在缩小lr 2~3个级数时候，可以发现score有质的飞跃，我一般都是参考我这个笔记图：

3.对比真的是能看出差距，自己手写函数实现的Iris分类模型只有0.75的score，但是调用Sklearn库能够达到1，世界的参差。

参考博客

https://blog.csdn.net/henku449141932/article/details/107661531
https://blog.csdn.net/weixin_46319994/article/details/123121234
https://blog.csdn.net/weixin_37989267/article/details/126054078

你可能感兴趣的:(DL实验,深度学习,机器学习,人工智能)

Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
C#实现24种数据校验算法的综合指南及工具包.zip 语嫣凝冰
本文还有配套的精品资源，点击获取简介：在数据通信和网络编程中，数据的完整性和准确性是至关重要的。C#作为一种流行的开发语言，提供了强大的工具来实现各类数据校验算法。本压缩包包含了一个名为“WindowsFormsApp”的C#应用程序，用于展示和实验24种数据校验方法，涵盖从简单到复杂的各种算法。这包括CRC校验、MD5、SHA系列、Adler32、Checksum、ParityBit、LRC、H
深入理解TransmittableThreadLocal：原理、使用与避坑指南智慧源点后端 java 开发语言
一、ThreadLocal与InheritableThreadLocal回顾在介绍TransmittableThreadLocal之前，我们先回顾一下Java中的ThreadLocal和InheritableThreadLocal。1.ThreadLocalThreadLocal提供了线程局部变量，每个线程都可以通过get/set访问自己独立的变量副本。ThreadLocalthreadLocal
返程小记无比芜杂的心
“初七我需要去其他城市处理问题，武汉这边的实验室老师操作、判读后期需要你去跟进指导下，有没有问题？”同事在初五发来这样的信息。“没问题，初七我就回武汉。”我果断的回答。工作即是我生命，哪里有需要我就去，虽然我是革命的一块瓦，搬到哪里哪里垮。初七要上班，初六我就要到才行。初六那天天空下着小雨，很冷，路旁的小树枝挂着冰凌，特别好看。但是转念一想，结冰是出行的大障碍，会不会错过约定？我按着以往的步调走，
全球软件技术峰会 2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴向日葵也有悲伤运维架构推荐算法数据结构大数据数据库架构
全球软件技术峰会2025：聚焦大模型开发、智能运维与架构创新，共赴技术实战盛宴在软件定义未来的时代，人工智能与数字化技术正以颠覆性力量重塑全球产业格局。2025年8月15-16日，以"全球专家、卓越智慧"为宗旨的全球软件技术峰会将盛大启幕，特邀全球近50位来自微软、谷歌、亚马逊、字节跳动等企业的技术领袖及一线实战专家，围绕大模型智能应用开发、AI与ML智能运维、软件开发智能化、架构设计与演进四大核
AI产品经理面试宝典第42天：学习方法与产品流程解析 TGITCIC AI产品经理一线大厂面试题产品经理 AI面试大模型面试 AI产品经理面试大模型产品经理面试 AI产品大模型产品
具体问答：学习产品及AI知识的方法问：请谈谈您是如何学习产品及AI知识的，以及您认为哪些资源对您帮助最大答：我的学习体系包含三个维度：分层知识架构、实践验证闭环、资源筛选机制。在知识获取阶段，采用「理论-案例-工具」三级学习法：通过《人工智能：一种现代的方法》构建AI基础框架，用TensorFlow官方文档掌握工程实现，结合《启示录》《俞军产品方法论》理解产品逻辑。实践环节采用「项目反哺」模式，例
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
【C#】C# 事件两次 -= 会怎么样？
在C#中，事件（event）的+=和-=运算符用于添加和移除事件处理器（delegate）。以下是两次-=和+=的具体行为：两次-=（移除）示例代码：MyEvent-=Handler;MyEvent-=Handler;行为：第一次-=：如果Handler存在于事件列表中，它会被移除一次。第二次-=：如果此时Handler已不在事件中，则不会抛异常，也不会有任何效果。✅是安全的，即使事件处理器已经不
45.sentinel自定义异常卷土重来… 微服务 sentinel java 微服务架构
上文提到BlockedbySentinel(flowlimits)限流异常，这样返给用户就不太友好，所以需要自定义异常。默认情况下，发生限流、降级、授权拦截时，都会抛出异常到调用方。如果要自定义异常时的返回结果，需要实现BlockExceptionHandler接口：BlockException有很多子类：packagecom.xkj.org.sentinel;importcom.alibaba.
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
北京可以做亲子鉴定的中心机构地址（附30家鉴定中心医院机构地址）国医基因黄主任
北京哪里可以做亲子鉴定？北京市丰台区丰科路6号院1号楼的北京国医基因可以做亲子鉴定。本文汇总30家可以做亲子鉴定的北京亲子鉴定中心，一起来看看吧！北京可以做亲子鉴定的中心机构地址（附30家鉴定中心医院机构地址）北京可以做亲子鉴定的机构：1、在必须具备相关资质的认证许可的亲子鉴定机构可以做；2、在亲子鉴定中心法医人员必须具备资质认证持证上岗的亲子鉴定机构可以做；3、在必须要有独立的实验室，机构设备仪
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
python请求有关ja3指纹问题王太歌 python 爬虫开发语言
遇见一个网站采集，无论怎样都返回空数据(实际上是有数据的)，但是抓包下来又确实是那样的，请教了一些人推测是指纹验证，拜读了网上其他大佬的博客文章后实验了一下，发现确实是这个问题！第一次知道tcp还有这个东西，让我大受震撼，值此搬运一下。参考链接及来源：Python爬虫进阶必备|JA3指纹在爬虫中的应用与定向突破python爬虫requests、httpx、aiohttp、scrapy突破ja3指纹
【路由交换技术】Eth-Trunk链路聚合综合实验这里是苏同学路由交换技术网络华为网络协议运维
一、实验目的1、掌握使用手动模式配置链路聚合的方法2、掌握使用静态LACP模式配置链路聚合的方法3、掌握控制静态LACP模式下控制活动链路的方法4、掌握静态LACP的部分特性的配置二、实验环境华为eNSP模拟器，拓扑如下：三、实验介绍随着网络规模不断扩大，用户对骨干链路的带宽和可靠性提出越来越高的要求。在传统技术中，常用更换高速率的接口板或更换支持高速率接口板的设备的方式来增加带宽，但这种方案需要
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
Redis中什么是看门狗机制 sevevty-seven redis
在Redis中，“看门狗机制”（WatchdogMechanism）不是Redis的核心机制之一，但它在一些场景中起到了重要作用，尤其是在使用Redlock分布式锁实现或在RedisEnterprise等高级用法中。一、看门狗机制的通用含义看门狗机制，本质上是一个自动续约或自动重置超时时间的机制，用于防止某些资源（如锁）在没有显式释放的情况下过早失效。二、在Redis中的典型应用场景1.Redis
freertos任务调度关键函数理解 dddddppppp123 c语言
voidxPortPendSVHandler(void){/*Thisisanakedfunction.*/__asmvolatile(//保存当前任务上下文"mrsr0,psp\n"//读取进程栈指针(PSP)到r0"isb\n"//指令同步屏障,确保前面的指令执行完毕"\n""ldrr3,pxCurrentTCBConst\n"/*GetthelocationofthecurrentTCB.*
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
警惕!北恒私募高级班周一丰，马建军不正规。不让出金,不能提现,大家远离骗局! 昌龙律法
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，若你也不幸被骗遇到此类平
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
计算机发展史：人工智能时代的智能变革与无限可能 jdlxx_dongfangxing 计算机发展史计算机发展史
在计算机发展的漫长进程中，人工智能时代的到来无疑是最具革命性的篇章之一。它使计算机从单纯的数据处理工具，进化为能够模拟、延伸和拓展人类智能的强大系统，对科学研究、经济发展、社会生活乃至人类文明的走向，都产生了深远且不可逆转的影响。从早期对智能机器的设想，到如今人工智能技术在全球范围内的广泛应用，这一领域经历了无数次理论突破、技术迭代与实践探索，正以前所未有的速度重塑着我们的世界。人工智能的起源与早
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

NNDL 实验四 线性分类

第3章 线性分类

3.1 基于Logistic回归的二分类任务

3.1.1 数据集构建

3.1.2 模型构建

3.1.3 损失函数

3.1.4 模型优化

3.1.5 评价指标

3.1.6 完善Runner类

3.1.7 模型训练

3.1.8 模型评价

3.2 基于Softmax回归的多分类任务

3.2.1 数据集构建

3.2.2 模型构建

3.2.2.1 Softmax函数

3.2.2.2 Softmax回归算子

3.2.3 损失函数

3.2.4 模型优化

3.2.4.1 梯度计算

3.2.4.2 参数更新

3.2.5 模型训练

3.2.6 模型评价

3.3 实践：基于Softmax回归完成鸢尾花分类任务

3.3.1 数据处理

3.3.1.1 数据清洗

3.3.1.2 数据读取

3.3.2 模型构建

3.3.3 模型训练

3.3.4 模型评价

3.3.5 模型预测

3.4 感知机及KNN训练Iris

你可能感兴趣的:(DL实验,深度学习,机器学习,人工智能)

NNDL 实验四线性分类

第3章线性分类