Liuyc-Code boy

pytorch主要组成模块之：动手完成简单的深度学习模型搭建

Pytorch学习第二部分：pytorch的主要组成模块

Let's go !
一、深度学习的基本流程
- 1.1 回顾机器学习
- 1.2 深度学习
二、基本配置
- 2.1 库/包
- 2.2 gpu配置
- 2.3 导入超参数
三、数据读入
- 3.1 设置数据变换
- 3.2 数据读取
- - 3.2.1 构建数据集
  - 3.2.2 加载数据
  - 3.2.3 简单的可视化
四、模型构建
- 4.1 帮助文档的使用
- 4.2 简单的CNN搭建
五、损失函数
六、设定优化器
七、训练与测试（验证）
- 7.1 训练模型
- 7.2 测试模型
- 7.3 输出结果
八、其他操作
- 8.1 查看gpu显存占用情况
- 8.2 模型保存
九、遇到的问题及解决措施
- 9.1 RuntimeError: Dataset not found. You can use download=True to download it
- 9.2 BrokenPipeError: [Errno 32] Broken pipe
- 9.3 RuntimeError: mat1 and mat2 shapes cannot be multiplied (256x1024 and 16384x512)

Let’s go !

这部分知识主要包括了深度学习的基本流程介绍、基本配置、数据读入、模型构建、模型初始化、损失函数、优化器、训练和评估几个部分，让我们开始学习。

一、深度学习的基本流程

1.1 回顾机器学习

回顾我们在完成一项机器学习任务时的步骤，首先需要对数据进行预处理，其中重要的步骤包括数据格式的统一和必要的数据变换，同时划分训练集和测试集。接下来选择模型，并设定损失函数和优化函数，以及对应的超参数（当然可以使用sklearn这样的机器学习库中模型自带的损失函数和优化器）。最后用模型去拟合训练集数据，并在验证集/测试集上计算模型表现。

1.2 深度学习

深度学习和机器学习在流程上类似，但在代码实现上有较大的差异。首先，由于深度学习所需的样本量很大，一次加载全部数据运行可能会超出内存容量而无法实现；同时还有批（batch）训练等提高模型表现的策略，需要每次训练读取固定数量的样本送入模型中训练，因此深度学习在数据加载上需要有专门的设计。

在模型实现上，深度学习和机器学习也有很大差异。由于深度神经网络层数往往较多，同时会有一些用于实现特定功能的层（如卷积层、池化层、批正则化层、LSTM层等），因此深度神经网络往往需要**“逐层”搭建**，或者预先定义好可以实现特定功能的模块，再把这些模块组装起来。这种“定制化”的模型构建方式能够充分保证模型的灵活性，也对代码实现提出了新的要求。

接下来是损失函数和优化器的设定。这部分和经典机器学习的实现是类似的。但由于模型设定的灵活性，因此损失函数和优化器要能够保证反向传播能够在用户自行定义的模型结构上实现。

上述步骤完成后就可以开始训练了。我们前面介绍了GPU的概念和GPU用于并行计算加速的功能，不过程序默认是在CPU上运行的，因此在代码实现中，需要把模型和数据“放到”GPU上去做运算，同时还需要保证损失函数和优化器能够在GPU上工作。如果使用多张GPU进行训练，还需要考虑模型和数据分配、整合的问题。此外，后续计算一些指标还需要把数据“放回”CPU。这里涉及到了一系列有关于GPU的配置和操作。

深度学习中训练和验证过程最大的特点在于读入数据是按批的，每次读入一个批次的数据，放入GPU中训练，然后将损失函数反向传播回网络最前面的层，同时使用优化器调整网络参数。这里会涉及到各个模块配合的问题。训练/验证后还需要根据设定好的指标计算模型表现。

经过以上步骤，一个深度学习任务就完成了。我们在详细讲解每个部分之前，先梳理了完成各个部分所需的功能，下面我们就去进一步了解一下PyTorch是如何实现各个部分的，以及PyTorch作为一个深度学习框架拥有的模块化特点。

二、基本配置

2.1 库/包

首先导入必须的包。对于一个PyTorch项目，我们需要导入一些Python常用的包来帮助我们快速实现功能。常见的包有os、numpy等，此外还需要调用PyTorch自身一些模块便于灵活使用，比如torch、torch.nn等等。

#这只是列举除了一部分包
import os
import numpy as np
import pandas as pd
import torch
import torchvision
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

2.2 gpu配置

关于gpu的配置

#配置GPU(我没有)
# 方案一：使用os.environ，这种情况如果使用GPU不需要设置
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1' 
##这个后面的0,1指的是第1块和第2块显卡，根据自己实际情况填写。
##方案一后续使用就是XXX.cuda()


# 方案二：使用“device”，后续对要使用GPU的变量用.to(device)即可
device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu") 
##这个就是把所有对与gpu的操作赋值到device上，如果没有gpu那么torch.cuda.is_available()为False就会执行else的cpu
##方案二后续使用就是XXX.to_device(device)

##XXX可以是一个tensor类型的变量。

2.3 导入超参数

导入一些超参数：
batch_size:一批的数据的量
lr:初始学习率（初始），每次参数更新的步长
num_workers:表示有多少个线程用来供你读取数据
max_epochs:训练次数（轮数）

batch_size = 256
num_workers = 0 #我这里线程数设置成0是因为我没有gpu使用的时cpu，所以线程数太多会报错，于是只定义了一个主线程
lr = 1e-4# 10^-4
epochs = 20#由于我是cpu所以后续发现很慢，所以这个地方如果时cpu的话少执行几轮也可以

三、数据读入

PyTorch数据读入是通过Dataset+DataLoader的方式完成的，Dataset定义好数据的格式和数据变换形式，DataLoader用iterative的方式不断读入批次数据。

我们可以定义自己的Dataset类来实现灵活的数据读取，定义的类需要继承PyTorch自身的Dataset类。

3.1 设置数据变换

我们输入的数据有时是来自使用torchvision自带的数据集，也有时是自己导入的数据集，当我们使用自己导入的数据集时就不免对数据进行变换，使得数据格式规范符合我们的需要，比如将数据都转成tensor类型。

#首先设置数据变换（一般对于自己像录入的数据需要自己来写录入方式，比如图片同意大小，或者数据格式全部转换为tensor等等）
from torchvision import transforms

image_size = 28
data_transform= transforms.Compose([
    transforms.ToPILImage(),  #这一步取决于后续的数据读取方式，如果使用内置数据集则不需要。
    transforms.Resize(image_size), #统一大小
    transforms.ToTensor() #数据变成tensor类型
])

3.2 数据读取

3.2.1 构建数据集

数据读取有两种方式：一种是使用torchvision自带的数据集，也有时是自己导入的数据集，接下来我们将根据深度学习进行图像分类的经典例子FashionMNIST进行后续的代码展示，两种方式分别是：
方式一：

## 读取方式一：使用torchvision自带的数据集，下载可能需要一段时间
#这个方式比较小众也不常使用
from torchvision import datasets

train_data = datasets.FashionMNIST(root='./', train=True, transform=data_transform, download=True)
test_data = datasets.FashionMNIST(root='./', train=False, transform=data_transform, download=True)

方式二：

#读取方式二：读入csv格式的数据，自行构建Dataset类
#csv数据下载连接：https://www.kaggle.com/zalando-research/fashionmnist
class FMDataset(Dataset):
    def __init__(self, df,transform=None):
       
        self.df = df
        self.transform = transform
        self.images = df.iloc[:, 1 :].values.astype(np.uint8)#unit8是一个专门的图像的格式
        self.labels = df.iloc[:, 0].values

    def __getitem__(self, index): #最重要的部分，直接决定函数的构建
        #通过index来控制我们要读取哪一行数据
        image = self.images[index].reshape(28,28,1)#reshap把它变成28*28*1
        label = int(self.labels[index])#label是我们的预测target
        if self.transform is not None:
            image = self.transform(image)
        else:
            image = torch.tensor(image/255., dtype=torch.float)
        label = torch.tensor(label, dtype=torch.long)
        return image, label

    def __len__(self):
        return len(self.images)
    
#实例化FMDataset类
train_df = pd.read_csv("./FashionMNIST/fashion-mnist_train.csv")
test_df = pd.read_csv("./FashionMNIST/fashion-mnist_test.csv")
train_data = FMDataset(train_df, data_transform)
test_data = FMDataset(test_df, data_transform)

注意：上面自己定义的FMDataset类有三个函数含义分别是：

init: 用于向类中传入外部参数，同时定义样本集。
getitem: 用于逐个读取样本集合中的元素，可以进行一定的变换，并将返回训练/验证所需的数据。
len: 用于返回数据集的样本数。
其中最重要的部分就是**getitem**部分，直接决定函数的构建。

查看读入的数据：
这个实验需要的数据集我放在这里如果需要可以自行下载
链接：https://pan.baidu.com/s/1zDsOybKJumkixhB1lqH8Yg
提取码：5688
–来自百度网盘超级会员V3的分享

3.2.2 加载数据

在构建训练和测试集完成后，需定义DataLoader类，以便在训练和测试时加载数据

参数：

train_data：表示来自哪个Dataset，也就是我们上面定义好的类

batch_size：表示每一批加载多少数据

shuffle：是说上面类里面的getitem就不是从0开始，可能是打乱的来取数据

num_workers：用多少个线程来读

drop_last：是否对应到最后一个数据，因为一般导入数据最后可能是导不满的

pin_memory：增加内存占用但是会让程序运行快（用空间换时间）

train_loader = torch.utils.data.DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=num_workers, drop_last=True)
test_loader = torch.utils.data.DataLoader(test_data, batch_size=batch_size, shuffle=False, num_workers=num_workers)

3.2.3 简单的可视化

读入数据之后，我们可以自己做一些数据可视化操作，只要用于验证训练和测试的时候加载的数据

import matplotlib.pyplot as plt
image, label = next(iter(train_loader))# iter是一种迭代类似for循环，但是iter只循环一次，next是让iter往下再执行一步
print(image.shape, label.size())# 打印一下形状看看
plt.imshow(image[0][0], cmap="gray")#image[0][0] 表示我们读取数据的第一个，也可以自己改成其他的。

这个图片因为每次都是随机生成的训练集所以每次执行都会发生变化

四、模型构建

由于任务比较简单，这里我们手搭一个CNN卷积神经网络，而不考虑当下各种模型的复杂结构。模型构建完成后，将模型放到GPU上训练（我没有GPU所以是在cpu上训练的）

4.1 帮助文档的使用

在Jupyter notebook中可以使用?+要查看的内容输出帮助文档进行学习。

#使用?弹出帮助文档查看具体信息
?nn.Conv2d

4.2 简单的CNN搭建

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        #初始化自己定义层，self.conv是自己定义的一个卷积层
        #Sequential是序贯模型，表示内部其实已经有顺序了，任何数据进入都需要按照下面的顺序
        self.conv = nn.Sequential(
            #1, 32, 5与nn.Conv2d的参数有关可以点开帮助文档查看
            #比如：第一个位置是输入的频道，因为现在是单通道灰度图片 所以是1，如果是RGB三通道就是3
            nn.Conv2d(1, 32, 5),
            nn.ReLU(),
            nn.MaxPool2d(2, stride=2),
            nn.Dropout(0.3),
            nn.Conv2d(32,64, 5),
            nn.ReLU(),
            nn.MaxPool2d(2, stride=2),
            nn.Dropout(0.3)
        )
        #这是自己定义的全连接层
        self.fc = nn.Sequential(
            nn.Linear(64*4*4, 512),#从64*4*4这么多神经元变成512大小
            nn.ReLU(),
            nn.Linear(512, 10)
            #再从512变成10，512是一个中间层设成什么其实都可以就是表现可能不同，但是10很关键因为当前有10类，所以是10
        )
        
    #顺序排列，x是输入的数据
    def forward(self, x):
        #先用.conv给他放到卷积层卷一遍
        x = self.conv(x)
        #再使用view()给他的tensor改一下尺寸，前面是-1表示自动根据后面的64*4*4配合生成行，主要是为了把数据拉平了为了后续全连接层操作
        x = x.view(-1, 64*4*4)
        #全连接层把刚刚64*4*4维的数据变成10维的用于输出
        x = self.fc(x)
        # x = nn.functional.normalize(x)
        return x
    
model = Net()#类实例化
#model = model.cuda()#gpu操作

五、损失函数

torch.nn提供了很多预定义的损失函数，也可以自己定义。

常用操作–backward()

设定损失函数

例如、使用torch.nn模块自带的CrossEntropy损失

Pytorch会自动把整数的label转为one-hot型，用于计算CE loss，这个也是仅限于CrossEntropy loss

这里需要确保label是从0开始的，同时模型不加softmax层（使用logits计算），这也说明pytorch训练中各个部分不是独立的，需要通盘考虑。

criterion = nn.CrossEntropyLoss()
# 修改权重 criterion = nn.CrossEntropyLoss(weight={1,1,1,1,3,1,1,1,1,1})
#比如这里就是假设我们对于四个参数效果不满意就给他权重加大，别人惩罚一次，4就惩罚三次。

查看相关帮助文档：

?nn.CrossEntropyLoss

六、设定优化器

这里我们使用Adam优化器

optimizer = optim.Adam(model.parameters(), lr=0.001)#lr是学习率，也就是每次学习的步长

七、训练与测试（验证）

各自封装成函数，方便后续调用

关注两者的主要区别：

模型状态设置
是否需要初始化优化器
是否需要将loss传回网络
是否需要每步更新optimizer

此外，对于测验或验证过程，可以计算分类准确率（acc）。

7.1 训练模型

def train(epoch):
    model.train()#进入训练模式
    train_loss = 0#初始化成0
    for data, label in train_loader:#每次得到一个data, label
        #data, label = data.cuda(), label.cuda() #因为之前model已经放到cuda了，所以data和label也要放到cuda，但我没有gpu...
        optimizer.zero_grad()#防止梯度累加，要清零
        output = model(data)#前向传播，得到输出output
        loss = criterion(output, label)#损失函数的计算，criterion在上面定义了，是一个求损失函数的
        loss.backward()#反向传播回去
        optimizer.step()#用优化器更新一下权重
        train_loss += loss.item()*data.size(0)#训练损失叠加
    train_loss = train_loss/len(train_loader.dataset)#train_loss = train_loss / dataset的数据长度
    print('Epoch:{} \tTraining Loss: {:.6f}'.format(epoch, train_loss))#输出第几个epoch，损失是多少

7.2 测试模型

与训练模型的四点不同：

1.模型定义的不同

2.优化器要不要做0初始化-- optimizer.zero_grad()

3.损失函数要不要回传-- loss.backward()

4.优化器要不要做每步的权重更新-- optimizer.step()

def val(epoch):
    model.eval()#模型模式与上面不同
    val_loss = 0
    gt_labels = []#真实label
    pred_labels = []#预测label
    with torch.no_grad():#表示不做梯度计算，如果不加这个会报memory的错误
        for data, label in test_loader:
            #data, label = data.cuda(),label.cuda() #因为之前model已经放到cuda了，所以data和label也要放到cuda，但我没有gpu...
            output = model(data)
            preds = torch.argmax(output, 1)#对输出的output求最大，找到他是哪一类
            gt_labels.append(label.cpu().data.numpy())#把所有真实的结果拼起来
            pred_labels.append(preds.cpu().data.numpy())#把所有预测的结果拼起来
            loss = criterion(output, label)
            val_loss += loss.item()*data.size(0)
    val_loss = val_loss/len(test_loader.dataset)
    gt_labels, pred_labels = np.concatenate(gt_labels),np.concatenate(pred_labels)
    acc = np.sum(gt_labels==pred_labels)/len(pred_labels)#准确率 = 真实=预测的数量 / 预测总数量
    print('Epoch:{} \tValidation Loss: {:.6}'.format(epoch, val_loss, acc))

7.3 输出结果

for epoch in range(1, epochs+1):
    train(epoch)
    val(epoch)

我这里用的cpu对于FashionMNIST数据集训练集给出的六万条数据，训练太慢，平均一分钟一条，所以我没有等到最初epochs设定的20轮就中止了。

八、其他操作

8.1 查看gpu显存占用情况

很有用：比如报显存错误可以查看是不是数据集一批传送的太大了或者说显卡被占满了。

gpu_info = !nvidia-smi -i 0
gpu_info = '\n'.join(gpu_info)
print(gpu_info)

8.2 模型保存

训练完成后，可以使用torch.save保存模型参数或者整个模型，也可以再训练中保存模型

这部分会在后面的pytorch学习笔记里展示

save_path = "./FahionModel.pkl"#我估计这是学长自己的路径
torch.save(model, save_path)

九、遇到的问题及解决措施

9.1 RuntimeError: Dataset not found. You can use download=True to download it

原因：使用torchvision自带的数据集，下载的时候没下载全只下载了一部分所以报错。

解决：重新下一遍就好了。

9.2 BrokenPipeError: [Errno 32] Broken pipe

原因：我使用的是cpu带不起来太多的线程数。
解决：将num_works改为0，表示只有一个主线程。

9.3 RuntimeError: mat1 and mat2 shapes cannot be multiplied (256x1024 and 16384x512)

原因：敲错了，导致两个地方的大小没有统一。

解决：将上面的改为6444大小即可。

以上就是我第二部分的学习总结，此外还有一些优化器的知识我后续会整理进来。

R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
【python深度学习】DAY 51 复习日抽风的雨610 【打卡】Python训练营 python 深度学习开发语言
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch实现DenseNet，先收藏了
classDenseNet(nn.Module):definit(self,init_channels=64,growth_rate=32,blocks=[6,12,24,16],num_classes=1000):super(DenseNet,self).init()bn_size=4drop_rate=0self.conv1=Conv1(in_planes=3,places=init_chan
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习架构
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st