2201_75503249

MindSpore笔记：训练手写数字识别

前言

万物皆需前言。

如果该文章无法阅读懂，没关系，后面有较为明了的解释文章。

如果还没装mindspore，请点击：here

先来硬的！！

那么，学习一个新东西，要先来硬的。一门语言是Hello World，那么深度学习是MNIST！

什么是MNIST？

这时一个共6万多张数字的手写数字数据集，今天我们就使用它来训练一个会识别数字的人工智能。

在此之前，我们需要了解机器学习的计算方式，我们可以回顾一下直线方程：

$y = k x + b$

我们知道了x但不知道y。需要求k与b。

那么我们也可以这么写：

$y=k_1x_2+k_2x_2+...+k_ix_i+b$

（图丑勿说）

或者：

$y = f (g (x))$

我这里不多述了。大家可以上网找一下博文。

《深度学习与MindSpore实践》中提到过前向网络，这里不复制了。

建议大家也复习一下《高等数学》，挺有用的。

进入正题…之前

我们需要再下一个库，方便我们下载数据集：

pip install download -i https://pypi.douban.com/simple/

以后用到pip安装时就不多说pypi源了，方便大家直接下载。

# 从开源数据集下载
from download import download

# 定义url地址
url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/datasets/MNIST_Data.zip"

# 下载并解压
path = download(url, "./", kind="zip", replace=True)

我们还需要一个解析该文件的库，mindspore提供了这个功能：

from mindspore.dataset import MnistDataset

然后：

from mindspore.dataset import MnistDataset

train_dataset = MnistDataset('MNIST_Data/train')
test_dataset = MnistDataset('MNIST_Data/test')

就可以获得数据集对象了。

分析数据

这个数据集里有什么？我们可以看见吗？

type(train_dataset)

mindspore.dataset.engine.datasets_vision.MnistDataset

我们可以发现，这是一个 MnistDataset 的类型，我们可以看一下里面的行数:

train_dataset.get_col_names()

['image', 'label']

可见有一个图片与标签。但是这些图片可能不是我们想要的，我们需要预处理一下。

预处理

预处理可以使用MindSpore提供的api。

from mindspore.dataset import vision, transforms

为了方便我们理解，可以把这个处理封装成函数：

import mindspore

def datapipe(dataset, batch_size):
    image_transforms = [
        vision.Rescale(1.0 / 255.0, 0),
        vision.Normalize(mean=(0.1307,), std=(0.3081,)),
        vision.HWC2CHW()
    ]
    label_transform = transforms.TypeCast(mindspore.int32)

    dataset = dataset.map(image_transforms, 'image')
    dataset = dataset.map(label_transform, 'label')
    dataset = dataset.batch(batch_size)
    return dataset

先看，datapipe中传入了数据集与 batch大小。 batch 指的是一组数据的大小，为什么这么说呢？

在训练网络时，我们不可能一下子训练完，这是要花很大的代价的，就把数据集一个一个分割，就可以很快的训练完。

其中 image_transforms 是图像转化的操作，label_transform 是标签转化的操作。

先看 image_transforms ，其中有 Rescale(rescale, shift)：

基于给定的缩放和平移因子调整图像的像素大小。输出图像的像素大小为：$ output = image * rescale + shift $。

这里呢，就是要将0~255的rgb压缩为0~1之间，为下文铺垫。

Normalize(mean, std, is_hwc=True)：

根据均值和标准差对输入图像进行归一化。

此处理将使用以下公式对输入图像进行归一化：图像的每个通道将根据mean和std(max-min)进行调整，计算公式为 $output_{c} = (input_{c} - \frac{mean_{c}}{max_{c}-min_{c}})$ ，其中 $c$ 代表通道索引。

上文中压缩至0~1，是为了在这里归一后压缩至-0.5~0.5，计算机喜欢这样的数据。

0.1307和0.3081是mnist数据集的均值和标准差，因为mnist数据值都是灰度图，所以图像的通道数只有一个，因此均值和标准差各一个。所以说，这个是自己算的。

HWC2CHW()

将输入图像的shape从转换为。如果输入图像的shape为，图像将保持不变。

一个图片其实是一个三维数组，长宽是二维，哪什么是第三维呢？

对了，是颜色。三色rgb是三个维度。上文中的C是通道（维度，也就是1，彩色图片是3）数，H是高度，W是宽度。下面这句话引用自知乎【pytorch】transforms.ToTorch要把(H,W,C)的矩阵转为(C,H,W)？，虽然是讲pytorch的，但是也很有帮助：

pytorch选择设计成chw而不是hwc（毕竟传统的读图片的函数opencv的cv2.imread或者sklearn的imread都是读成hwc的格式的）这点确实比较令初学者困惑。个人感觉是因为pytorch做矩阵加减乘除以及卷积等运算是需要调用cuda和cudnn的函数的，由于cuda和cudnn涉及到图片操作的都是和卷积相关的，而内部做卷积运算的加速设计成chw在操作上会比hwc处理起来更容易，更快；而这些接口都设成成chw格式了，故而pytorch为了方便起见也设计成chw格式了。因为pytorch很多函数都是设计成假设你的输入是（c，h，w）的格式，当然你如果不嫌麻烦的话可以每次要用这些函数的时候转成chw格式，但我想这会比你输入的时候就转成chw要麻烦很多。

Mindspore大概也如此。

好了，图片处理讲完了，现在讲 label_transform：

TypeCast(data_type)

将输入的Tensor转换为指定的数据类型。

没有为什么，mindspore.int32好算呗。

不过这里就要引用 mindspore 了。所以 import mindspore。

后面进行map变换并指定变换的是哪一个——前面输出过了，image与label。

最后 batch 一下分组。

全部代码：

from mindspore.dataset import vision, transforms

import mindspore

def datapipe(dataset, batch_size):
    image_transforms = [
        vision.Rescale(1.0 / 255.0, 0),
        vision.Normalize(mean=(0.1307,), std=(0.3081,)),
        vision.HWC2CHW()
    ]
    label_transform = transforms.TypeCast(mindspore.int32)

    dataset = dataset.map(image_transforms, 'image')
    dataset = dataset.map(label_transform, 'label')
    dataset = dataset.batch(batch_size)
    return dataset

# map转换和批处理数据集
train_dataset = datapipe(train_dataset, 64)
test_dataset = datapipe(test_dataset, 64)

看看数据集

使用 create_tuple_iterator 或 create_dict_iterator 对数据集进行迭代。这里我说明 create_dict_iterator ：创建字典迭代：

for data in test_dataset.create_dict_iterator():
    print(f"Shape of image [N, C, H, W]: {data['image'].shape} {data['image'].dtype}")
    print(f"Shape of label: {data['label'].shape} {data['label'].dtype}")
    break

Shape of image [N, C, H, W]: (64, 1, 28, 28) Float32
Shape of label: (64,) Int32

当然我们也可以使用next获取：

dit = next(test_dataset.create_dict_iterator())
print(f"Shape of image [N, C, H, W]: {dit['image'].shape} {dit['image'].dtype}")
print(f"Shape of label: {dit['label'].shape} {dit['label'].dtype}")

同时，我们也输出一下我们的图片。

我们需要安装一个库：

pip3 install -i https://pypi.doubanio.com/simple/ matplotlib

先把数据集转换为numpy类型。

import numpy
image = dit['image'].asnumpy()

转换后再用plt库显示图片：

import matplotlib.pyplot as plt
plt.imshow(image[0][0]) # 显示图片第0张第0维

补充，显示图像前可以运行以下命令：

%matplotlib notebook

注意，是在notebook里运行，不是在cmd里运行。

在开头加上可以在jupyter notebook行内形成交互式的图表。

%matplotlib inline

开头加上可以显示图像，但无交互功能。

再查看label，输出：

label[0]

可以发现和上面图片一致，无误。

定义模型

代码：

from mindspore import nn
# 定义模型
class Network(nn.Cell):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()
        self.dense_relu_sequential = nn.SequentialCell(
            nn.Dense(28*28, 512),
            nn.ReLU(),
            nn.Dense(512, 512),
            nn.ReLU(),
            nn.Dense(512, 10)
        )

    def construct(self, x):
        x = self.flatten(x)
        logits = self.dense_relu_sequential(x)
        return logits

nn是mindspore的网络构建库。我们先调用 super().__init__() 调用自己的父类的初始化方法。再看其中的 self.flatten，这是一个“展开”层（降维函数），用一个形象的比喻——二向箔。由我最上面的图：

可见边边都是 $x_1$ 、 $x_2$ 、 …… 、 $x_n$ 的一维“数组”，那么我们的“二维”图片就要通过“二向箔”转换为 “一维”。

self.dense_relu_sequential 中定义了一系列的Dense层与Relu层。

Dense——全连接层：

全连接？什么意思？

懂了吧，还是这张图。这种就是全连接层。

第一个全连接层是 nn.Dense(28*28, 512) 将28*28的图片转换为512长的隐藏层。

ReLU——激活函数：

在大脑中，我们的神经会受一些数据影响，也会不理一些数据。ReLU模拟了这种情况。当传入的数据小于0，则返回0，否则返回自身。即：

$R e LU (x) = ma x (x, 0)$

在最后，Dense(512, 10) 把图像转换为10个维度，分别是 $0, 1, 2, 3, 4, 5, 6, 7, 8, 9$ 的概率。

nn.SequentialCell：

构造Cell顺序容器。

SequentialCell将按照传入List的顺序依次将Cell添加。

现在我们用 model 调用我们的函数，并输出：

model = Network()
model

Network<
  (flatten): Flatten<>
  (dense_relu_sequential): SequentialCell<
    (0): Dense
    (1): ReLU<>
    (2): Dense
    (3): ReLU<>
    (4): Dense
    >
  >

我们可以看到我们模型的内容。

训练模型

终于到这个时刻了！

# 定义损失函数和优化器
loss_fn = nn.CrossEntropyLoss()
optimizer = nn.SGD(model.trainable_params(), 1e-2)

我们需要知道损失函数是什么：

每次训练肯定有误差，而我们需要知道误差在哪里。这里提供几个损失函数：（以下定义预测值为 $y$ ，真实值为 $\tilde{y}$ ）

均方误差损失函数（MSE）

$\mathcal{L}=(\tilde{y}-y)^2$

均方根误差损失函数（RMSE）

$\mathcal{L}=\sqrt{(\tilde{y}-y)^2}$

平均绝对误差损失函数（MAE）

$\mathcal{L}=\lvert\tilde{y}-y\rvert$

好了，我们这里使用的是多分类交叉熵损失函数。

loss_fn = nn.CrossEntropyLoss()

SGD是随机梯度下降：

梯度下降的一个直观的解释：比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

对于MSE，我们的函数为：

$\mathcal{J(\theta)}=\frac{1}{m} \sum_{i=1}^{m} (\theta x_i-y_i)^2$

我们的高等数学这时就起作用了。我们知道

$\frac{dL}{dw} = \frac{dL}{dy}\frac{dy}{dw}$

这是我们的链式法则，求导后，我们知道：

$\frac{dy}{dw} = \frac{d(wx+b)}{dw} = x$

$\frac{dL}{dy} = \frac{d(\tilde{y}-y)^2}{dy} = (\tilde{y}-y)$

得

$\frac{dL}{dw} = x(\tilde{y}-y)$

这样就可以求了。

随机梯度下降算法的原理如下：

$w_{t+1}=w_{t}-\eta \frac{1}{n} \sum_{x \in \mathcal{B}} \nabla l\left(x, w_{t}\right)$

公式中， $n$ 是批量大小（batch size）， $η$ 是学习率（learning rate）。另外， $w_{t}$ 为训练轮次 $t$ 中的权重参数， $\nabla l$ 为损失函数的导数。除了梯度本身，这两个因子直接决定了模型的权重更新，从优化本身来看，它们是影响模型性能收敛最重要的参数。

model.trainable_params()是模型每一层的参数

optimizer = nn.SGD(model.trainable_params(), 1e-2)

官网教程：

在模型训练中，一个完整的训练过程（step）需要实现以下三步：

正向计算：模型预测结果（logits），并与正确标签（label）求预测损失（loss）。

反向传播：利用自动微分机制，自动求模型参数（parameters）对于loss的梯度（gradients）。

参数优化：将梯度更新到参数上。

MindSpore使用函数式自动微分机制，因此针对上述步骤需要实现：

正向计算函数定义。

通过函数变换获得梯度计算函数。

训练函数定义，执行正向计算、反向传播和参数优化。

以及官网的代码：

from mindspore import ops
def train(model, dataset, loss_fn, optimizer):
    # 前向传播
    def forward_fn(data, label):
        logits = model(data)
        loss = loss_fn(logits, label)
        return loss, logits

    # 生成求导函数
    grad_fn = ops.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)

    # 进行一次训练
    def train_step(data, label):
        (loss, _), grads = grad_fn(data, label)
        loss = ops.depend(loss, optimizer(grads))
        return loss

    size = dataset.get_dataset_size()
    model.set_train()
    for batch, (data, label) in enumerate(dataset.create_tuple_iterator()):
        loss = train_step(data, label)

        if batch % 100 == 0:
            loss, current = loss.asnumpy(), batch
            print(f"loss: {loss:>7f}  [{current:>3d}/{size:>3d}]")

我们通过前向函数 forward_fn 得到模型结果。

grad_fn梯度函数。这里需要讲一讲。

value_and_grad(fn, grad_position=0, weights=None, has_aux=False)

生成求导函数，用于计算给定函数的正向计算结果和梯度。

函数求导包含以下三种场景：

对输入求导，此时 grad_position 非None，而 weights 是None;

对网络变量求导，此时 grad_position 是None，而 weights 非None;

同时对输入和网络变量求导，此时 grad_position 和 weights 都非None。

可见这里是对网络变量求导。因为计算完成后才能return，防止return无意义结果，需要用loss = ops.depend(loss, optimizer(grads))处理顺序关系。

grad 和 value_and_grad 提供 has_aux 参数，当其设置为 True 时，可以自动实现前文手动添加 stop_gradient 的功能，满足返回辅助数据的同时不影响梯度计算的效果。

系列预告: stop_gradient 是什么？

注意做单元测试时，需要给Cell打训练或推理的标签，PyTorch 训练 .train()，推理.eval()，MindSpore训练.set_train()，推理.set_train(False)

enumerate 是python关键字，enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。

for i, element in enumerate(seq):
	print(i, element)

0 one
1 two
2 three

除训练外，我们定义测试函数，用来评估模型的性能。

def test(model, dataset, loss_fn):
    num_batches = dataset.get_dataset_size()
    model.set_train(False)
    total, test_loss, correct = 0, 0, 0
    for data, label in dataset.create_tuple_iterator():
        pred = model(data)
        total += len(data)
        test_loss += loss_fn(pred, label).asnumpy()
        correct += (pred.argmax(1) == label).asnumpy().sum()
    test_loss /= num_batches
    correct /= total
    print(f"Test: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

训练

训练过程需多次迭代数据集，一次完整的迭代称为一轮（epoch）。在每一轮，遍历训练集进行训练，结束后使用测试集进行预测。

epochs = 3
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train(model, train_dataset, loss_fn, optimizer)
    test(model, test_dataset, loss_fn)
print("Done!")

运行后：

Epoch 1
-------------------------------
loss: 2.302499  [  0/938]
loss: 2.287828  [100/938]
loss: 2.260857  [200/938]
loss: 2.124385  [300/938]
loss: 1.817491  [400/938]
loss: 1.361336  [500/938]
loss: 0.904153  [600/938]
loss: 0.659850  [700/938]
loss: 0.810218  [800/938]
loss: 0.471213  [900/938]
Test: 
 Accuracy: 85.3%, Avg loss: 0.515648 

Epoch 2
-------------------------------
loss: 0.477927  [  0/938]
loss: 0.609416  [100/938]
loss: 0.373210  [200/938]
loss: 0.396753  [300/938]
loss: 0.342351  [400/938]
loss: 0.666409  [500/938]
loss: 0.307072  [600/938]
loss: 0.434895  [700/938]
loss: 0.498040  [800/938]
loss: 0.235593  [900/938]
Test: 
 Accuracy: 90.2%, Avg loss: 0.333401 

Epoch 3
-------------------------------
loss: 0.325658  [  0/938]
loss: 0.238063  [100/938]
loss: 0.211704  [200/938]
loss: 0.379786  [300/938]
loss: 0.323287  [400/938]
loss: 0.435941  [500/938]
loss: 0.577042  [600/938]
loss: 0.426509  [700/938]
loss: 0.215510  [800/938]
loss: 0.403007  [900/938]
Test: 
 Accuracy: 91.9%, Avg loss: 0.277796 

Done!

可见准确度越来越高，损失越来越低。

保存模型

模型训练完成后，需要将其参数进行保存。

# 保存模型
mindspore.save_checkpoint(model, "model.ckpt")
print("Saved Model to model.ckpt")

Saved Model to model.ckpt

加载模型

加载保存的权重分为两步：

重新实例化模型对象，构造模型。

加载模型参数，并将其加载至模型上。

# 定义模型
model = Network()
# 加载模型
param_dict = mindspore.load_checkpoint("model.ckpt")
param_not_load = mindspore.load_param_into_net(model, param_dict)
print(param_not_load)

[]

param_not_load是未被加载的参数列表，为空时代表所有参数均加载成功。

加载后的模型可以直接用于预测推理。

model.set_train(False)
for data, label in test_dataset:
    pred = model(data)
    predicted = pred.argmax(1)
    print(f'Predicted: "{predicted[:10]}", Actual: "{label[:10]}"')
    break

Predicted: "Tensor(shape=[10], dtype=Int32, value= [3, 9, 6, 1, 6, 7, 4, 5, 2, 2])

总之，多打，多练，多查。

完

你可能感兴趣的:(python,人工智能)

40岁重启人生学python，今天搞明白了，啥是循环结构？飞哥知行录中年人 python 经验分享开发语言
今天学习了循环结构，其实说心里话，不是太明白，尤其是老师讲了那些高深的理论之后，就更加糊涂了。后来还是借助deepseek，它说：循环结构就是让计算机重复执行某段代码，直到满足特定条件（比如吃饱了就停止吃饭）。吃饱了就停止吃饭，多么简单的一句话，我一下就明白了，忽然觉得那些讲课喜欢高深理论的人，他们真的好可悲。总是抱着概念和教条的东西，不知道你们是怎么听明白的。循环结构的三种常见类型是`for循环
python基于django/flask网上书城系统Django-SpringBoot-php-Node.js-flask QQ_1963288475 python django flask spring boot php laravel node.js
目录技术栈介绍具体实现截图![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7b88ca45e7124106a000075acaf2f4e8.png)系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研
使用python反射，实现pytest读取yaml并发送请求南部余额 python python pytest
pytest+yamlyaml-feature:用户模块story:登录title:添加用户request:method:POSTurl:/system/user/listheaders:nullparams:nullvalidate:nullread_yaml_alldefread_yaml_all(path):withopen(path,'r',encoding='utf-8')asf:val
Github2025-03-10 开源项目周报 Top13 老孙正经胡说开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2025-03-10统计)共有13个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7TypeScript项目2JavaScript项目2C++项目1JupyterNotebook项目1Vue项目1文档项目1Rust项目1Svelte项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个For
Python的Numpy数组np.array()基本用法详解（二）苏雨流丰 Python30Days python 开发语言 numpy array
本节主要讲授array获取元素、转置、重塑等方法"""@Date:2022-01-21@Author:苏雨流丰@lang:Python@summary:访问、获取np.array的元素"""导入numpy包importnumpyasnp初始化工作np_34_list=[[1,3,5,7],[2,4,6,8],[1,2,5,6]]np_44_list=[[1,3,5,7],[2,4,6,8],[1,
python-git- GitHub 45度看我 github
python之git-GitHub一：github原文链接二：WhatisGitHub1>创建仓库2>创建分支3>提交修改4>发起PullRequest三：理解GitHub流四：创建你的GitHub主页1>setting-->“Commitchanges”按钮五：典型的项目1>社区（TheCommunity）2>文档（TheDocs）3>Issue创建一个问题单4>PullRequest六：Git
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南 Nifc666 语言模型人工智能自然语言处理 whisper langchain gpt 开源软件
LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员
PyTorch中，将`DataLoader`加载的数据高效传输到GPU 大霸王龙 pytorch 人工智能 python
一、数据加载到GPU的核心步骤数据预处理与张量转换若原始数据为NumPy数组或Python列表，需先转换为PyTorch张量：X_tensor=torch.from_numpy(X).float()#转换为浮点张量y_tensor=torch.from_numpy(y).long()#分类任务常用长整型显式指定设备：通过.to(device)将数据移至GPU（需提前定义device对象）：devi
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
cmd运行python脚本找不到包_命令行执行python模块时提示包找不到的问题 weixin_39788960
庄稼人不是专职python开发的道友，虽然与python相识已多年，可惜相识不相知，只是偶尔借助pydev写一些简单的小工具。多年来，一直困惑于这样一个问题：同样的工程，同样的代码，使用pydev可以运行任意一个python脚本，而使用命令行运行却不行？命令行下(或者双击执行)总是提示“ImportError:Nomodulenamedxxx”？pydev究竟做了什么魔术呢？长话短说，以上面工程为
Python报错：moduleNotFoundError:No module named ‘exceptions‘ 南浔Pyer 报错解决 Python编程
报错如下：使用pipinstalldocx安装模块docx后，发现不能正常使用，并报错：fromexceptionsimportPendingDeprecationWarningModuleNotFoundError:Nomodulenamed'exceptions'解决方法卸载原来安装的docxpipuninstalldocx安装python-docx模块即可pipinstallpython-d
Python如何设置工作目录飞起来fly呀 Python python 开发语言
在Python编程中，正确设置工作目录是文件系统操作的关键步骤之一。工作目录影响到相对路径的解析，确保程序能正确访问所需的文件和资源。为方便大家理解和使用，这里详细介绍如何在Python中利用os模块设置工作目录，并以此实现更灵活的文件操作。使用os模块设置工作目录Python的os模块提供了操作系统相关的功能，包括目录和文件操作。你可以用这个模块来更改当前的工作目录，以匹配你项目的需要。1.设置
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
Python 3.14版本的彩蛋
使用3.14版本的Python创建一个虚拟环境，会看到在虚拟环境的bin目录中，不仅有python3、python3.14等常规文件，竟然还存在一个特殊的文件thon。/tmp/venv/bin$lltotal72...-rwxr-xr-x1useruser290BMar510:57pip3.14*lrwxr-xr-x1useruser10BMar510:57python@->python.exe
差异中寻找共识：浅析中美欧AIGC服务商的标识义务人工智能
2025年1月7日，西藏日喀则地震中一张被广泛传播的图片“被压在废墟下的小男孩”被证明是AI合成图片，[1]这随即引发了社会对于人工智能生成物（ArtificialIntelligenceGeneratedContent，以下简称“AIGC”）的广泛讨论。随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
智能体平台架构深度剖析：从底层到应用的全链路解析人工智能
在当今人工智能飞速发展的时代，智能体平台作为承载和驱动智能应用的关键基础设施，其架构设计至关重要。一个优秀的智能体平台架构，能够高效整合各类资源，实现智能体的灵活构建与稳定运行，为多样化的应用场景提供强大支持。稳固根基：基础资源层与并行平台层基础资源层是整个智能体平台的基石。其中，GPU和服务器构成了强大的计算硬件支撑，确保平台能够应对复杂的计算任务。而数据与OSS（对象存储服务）则如同智能体的“
美国首例AI训练数据版权案：从汤森路透诉罗斯案看AI训练数据的“合理使用” 人工智能
随着人工智能（AI）技术的快速发展和广泛应用，复杂的版权问题也随之而来。2025年2月11日，美国特拉华州联邦地区法院对汤森路透（ThomsonReuters）诉罗斯（Ross）案作出部分简易判决，认定被告罗斯公司未经授权使用受版权保护的作品训练AI法律检索工具的行为构成版权侵权，且不属于合理使用。[1]这是美国首个就AI训练数据作出实质性判决的案件。本文将重点分析其合理使用论述中对于“转换性目的
【Python】执行脚本的时，如何指定运行根目录，而不是指定脚本的父级目录 jwensh #Python python
author:jwensh&gptdate:2024.09.23python执行脚本的时，如何指定运行根目录，而不是指定脚本的父级目录prompt：python执行脚本的时候，如何指定他的运行根目录，而不是指定脚本的父级目录在执行Python脚本时，如果你想指定一个自定义的运行根目录，而不是默认的脚本所在目录，可以使用以下几种方式：1.通过os.chdir()修改当前工作目录在脚本中使用os.ch
python系列：解决：ModuleNotFoundError: No module named ‘exceptions’ 坦笑&&life #python python 开发语言
解决：ModuleNotFoundError:Nomodulenamed‘exceptions’解决：ModuleNotFoundError:Nomodulenamed‘exceptions’背景报错问题报错位置代码报错原因解决方法其他解决办法注意：此时有以下几种解决办法：1.升级代码或模块以支持Python3。2.如果你必须使用Python2，请确保你的代码或模块与Python2兼容。3.如果你
使用Python Flask构建Web应用程序代码快速拳 python flask 前端 Python
Flask是一个轻量级的PythonWeb框架，它提供了构建Web应用程序所需的基本功能。它简单易用，非常适合小型项目和原型开发。本文将介绍如何使用Flask构建一个简单的Web应用程序，并提供相应的源代码。首先，我们需要安装Flask。可以使用以下命令使用pip安装Flask：pipinstallflask一旦安装完成，我们就可以开始构建我们的Web应用程序了。首先，创建一个Python文件，命
2024年一文1800字从0到1使用Python Flask实战构建Web应用(1) 2401_84564025 程序员 python flask 前端
现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很多我们收集的技术文档和视频教程。如果你不想再体验自学时找不到资源，没人解答问题，坚持几天便放弃的感受可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛分享他们的经验，还会分享很多直播讲座和技术沙龙可以免费学习！划重点！开源的！！！qq群号：110685036第三部分：运行Flask应用在app.
【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结 roman_日积跬步-终至千里人工智能习题人工智能自然语言处理计算机视觉
文章目录七、Transformer架构1.替代LSTM的原因2.Transformer架构：编码器-解码器架构3.Transformer架构原理八、自然语言处理基础1.语言模型基本概念2.向量语义3.预训练语言模型的基本原理与方法4.DeepSeek基本原理九、计算机视觉七、Transformer架构1.替代LSTM的原因处理极长序列时，效率下降：虽然LSTM设计的初衷是解决长期依赖问题，即让模型
【python web】一文掌握 Flask 的基础用法数据知道 python 前端 flask
文章目录一、Flask介绍1.1安装Flask二、Flask的基本使用2.1创建第一个Flask应用2.2路由与视图函数2.3请求与响应2.4响应对象2.5模板渲染2.6模板继承2.7静态文件管理2.8Blueprint蓝图2.9错误处理三、Flask扩展与插件四、部署Flask应用五、总结Flask是一个轻量级的PythonWeb框架，因其简单易用、灵活性高而受到广泛欢迎。本文将全面介绍Flas
python绘制密度散点图龟速前进 anaconda 可视化 python
头大，外行人做个图咋这么难，趋势线还没有研究出来怎么加上去，哎importmatplotlib.pyplotaspltfromscipy.statsimportgaussian_kdefrommpl_toolkits.axes_grid1importmake_axes_locatableimportnumpyasnpimportpandasaspdfromdbfreadimportDBFdata=
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end