Yi-27

通过PyTorch用DCGAN生成动漫头像

数据集

数据集我们用AnimeFaces数据集，共5万多张动漫头像。

https://pan.baidu.com/s/1eSifHcA 提取码：g5qa

要把所有的图片保存于data/face/目录下，后边用ImageFolder就能直接读取到。

模型

模型我们选择DCGAN。

#coding:utf-8

from torch import nn

class NetG(nn.Module):
	"""
	生成器定义
	"""
	def __init__(self,opt):
		super(NetG,self).__init__()
		ngf = opt.ngf # 生成器feature map数 

		self.main = nn.Sequential(
			# 输入是一个nz维度的噪声，我们可以认为它是一个1*1×nz的feature map
			nn.ConvTranspose2d(opt.nz,ngf*8,4,1,0,bias=False),
			nn.BatchNorm2d(ngf*8),
			nn.ReLU(True),
			# 这一步的输出形状：(ngf*8)*4*4

			nn.ConvTranspose2d(ngf*8,ngf*4,4,2,1,bias=False),
			nn.BatchNorm2d(ngf*4),
			nn.ReLU(True),
			# 这一步的输出形状：(ngf*4)*8*8

			nn.ConvTranspose2d(ngf*4,ngf*2,4,2,1,bias=False),
			nn.BatchNorm2d(ngf*2),
			nn.ReLU(True),
			# 这一步的输出形状：(ngf*2)*16*16

			nn.ConvTranspose2d(ngf*2,ngf,4,2,1,bias=False),
			nn.BatchNorm2d(ngf),
			nn.ReLU(True),
			# 这一步的输出形状：(ngf*1)*32*32

			nn.ConvTranspose2d(ngf,3,5,3,1,bias=False),
			nn.Tanh(), # 输出范围-1~1，故而采用Tanh
			# 最后的输出形状：3*96*96
			)

	def forward(self,x):
		return self.main(x)

'''
这里需要注意上卷积ConvTransposed2d的使用。当kernel_size为4,stride为2，padding为1时，根据公式输出尺寸刚好变成输入的两倍。
最后一层采用kernel_size为5，stride为3，padding为1，是为了将32*32上采样到96*96，这正好是我们输入图片的尺寸。
最后一层用Tanh将输出图片的像素归一化到-1~1，如果希望归一化到0~1则需要使用Sigmoid。

'''

class NetD(nn.Module):
	"""
	判别器定义
	"""
	def __init__(self,opt):
		super(NetD,self).__init__()
		ndf = opt.ndf # 判别器feature map数

		self.main = nn.Sequential(
			# 输入 3*96*96
			nn.Conv2d(3,ndf,5,3,1,bias=False),
			nn.LeakyReLU(0.2,inplace=True),
			# 输出 (ndf*1)*32*32

			nn.Conv2d(ndf,ndf*2,4,2,1,bias=False),
			nn.BatchNorm2d(ndf*2),
			nn.LeakyReLU(0.2,inplace=True),
			# 输出 (ndf*2)*16*16

			nn.Conv2d(ndf*2,ndf*4,4,2,1,bias=False),
			nn.BatchNorm2d(ndf*4),
			nn.LeakyReLU(0.2,inplace=True),
			# 输出 (ndf*4)*8*8

			nn.Conv2d(ndf*4,ndf*8,4,2,1,bias=False),
			nn.BatchNorm2d(ndf*8),
			nn.LeakyReLU(0.2,inplace=True),
			# 输出 (ndf*8)*4*4

			nn.Conv2d(ndf*8,1,4,1,0,bias=False),
			nn.Sigmoid() # 输出一个数（概率）
			)

	def forward(self,x):
		return self.main(x).view(-1)

'''
判别器和生成器的网络结构差不多是对称的。
这里需要注意的是生成器的激活函数用的是ReLU，而判别器使用的是LeakyReLU，二者并无本质区别，这里的选择更多是经验总结。
每一个样本经过判别器后，输出一个0~1的数，表示这个样本是真图片的概率。

'''

训练过程

train.py

#coding:utf-8

import os
import torch as t
import torchvision as tv
import tqdm
from model import NetG,NetD
import time
import numpy as np
import scipy.io as io

# 在训练函数前，先写配置参数
class Config(object):
	data_path = 'data/' # 数据集存放路径
	num_workers = 4 # 多进程加载数据所用的进程数
	image_size = 96 # 图片尺寸
	batch_size = 256 # 批处理数
	max_epoch = 200 # 训练的总轮数
	last_epoch = 0 # 上次训练到的位置，默认为0
	lr1 = 2e-4 # 生成器的学习率
	lr2 = 2e-4 # 判别器的学习率
	beta1 = 0.5 # Adam优化器的beta1参数
    beta2 = 0.999 # Adam优化器的beta2参数
	gpu = True # 是否使用GPU
	nz = 100 # 噪声维度，用于生成器生成图片
	ngf = 64 # 生成器feature map数
	ndf = 64 # 判别器feature map数

	save_path = 'imgs' # 生成图片保存路径
	d_every = 1 # 每1个batch训练一次判别器
	g_every = 5 # 每5个batch训练一次生成器
	save_every = 10 # 每10个epoch保存一次模型
	netd_path = None # 'netd_num.pth' 模型参数文件
	netg_path = None # 'netg_num.pth'

opt = Config()
'''
这些只是模型的默认参数，可以利用Fire等工具通过命令行传入，覆盖默认值。

'''

# 训练过程
def train(**kwargs):
	for k_,v_ in kwargs.items(): # 加载参数
		setattr(opt,k_,v_)

	# 数据预处理
	transforms = tv.transforms.Compose([
		tv.transforms.Resize(opt.image_size), # 调整图片大小
		tv.transforms.CenterCrop(opt.image_size), # 中心裁剪
		tv.transforms.ToTensor(),
		tv.transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5)) # 中心化
	])

	# 加载数据集
	dataset = tv.datasets.ImageFolder(opt.data_path,transform=transforms)
	dataloader = t.utils.data.DataLoader(dataset,batch_size=opt.batch_size,shuffle=True,num_workers=opt.num_workers,drop_last=True) # drop_last表示不用数据集最后不足一个batch的数据
	print("dataset:"+str(len(dataset))+",dataloader:"+str(len(dataloader)))
	# 网络，使用gpu
	if opt.gpu:
		if t.cuda.is_available():
			netg,netd = NetG(opt).cuda(),NetD(opt).cuda()
			print("Train CUDA OK!")
	else:
		netg,netd = NetG(opt),NetD(opt)
	
	# 在加载预训练模型时，最好指定map_location
	# 因为如果程序之前在GPU上运行，那么模型就会被存成torch.cuda.Tensor，这样加载时会默认将数据加载至显存。
	# 如果运行改程序的计算机中没有GPU，加载就会报错，故通过指定map_location将Tensor默认加载入内存中，待有需要时再移至显存中。
	map_location = lambda storage,loc: storage
	if opt.netd_path:
		netd.load_state_dict(t.load('checkpoints/%s'%opt.netd_path,map_location=map_location))
		print("%s"%opt.netd_path,"loading...OK!")
	if opt.netg_path:
		netg.load_state_dict(t.load('checkpoints/%s'%opt.netg_path,map_location=map_location))
		print("%s"%opt.netg_path,"loading...OK!")


	# 定义优化器和损失函数
	optimizer_g = t.optim.Adam(netg.parameters(),opt.lr1,betas=(opt.beta1,opt.beta2))
	optimizer_d = t.optim.Adam(netd.parameters(),opt.lr2,betas=(opt.beta1,opt.beta2))
	criterion = t.nn.BCELoss()

	# 真图片label为1，假图片label为0
	# noises为生成网络的输入
	true_labels = t.ones(opt.batch_size).cuda()
	fake_labels = t.zeros(opt.batch_size).cuda()
	noises = t.randn(opt.batch_size,opt.nz,1,1).cuda()
	fix_noises = t.randn(opt.batch_size,opt.nz,1,1).cuda()
    
	# 使用已经保存的噪声，保存生成的fix_noises的方法，会在下面显示出来
	# mat_noises = io.loadmat('noises_double.mat') # 读取文件加载noises
	# fix_noises = t.from_numpy(mat_noises['np_noises']).cuda() # 重新转换成tensor


	now = time.clock()
	epochs = range(opt.last_epoch,opt.max_epoch)
	for epoch in iter(epochs):
		g_loss = 0 # 这里为了平均训练一个epoch的损失值
		d_loss = 0
		for ii,(img,_) in tqdm.tqdm(enumerate(dataloader)):
			real_img = img.cuda()

			# 每1个batch训练一次判别器
			if ii%opt.d_every == 0:
				# 训练判别器
				optimizer_d.zero_grad() # 梯度清零
				# 尽可能的把真图片判别为1
				output = netd(real_img)
				error_d_real = criterion(output,true_labels)
				error_d_real.backward() # 真图片，反向传播

				# 尽可能把假图片（生成器生成的）判别为0
				noises.data.copy_(t.randn(opt.batch_size,opt.nz,1,1)) # noises的值改变了，copy_直接覆盖原有的noises值
				fake_img = netg(noises).detach() # 根据噪声生成假图 .detach()安全的获得out的值，比.data安全，避免梯度传递到G上，因为训练D时不更新G
				output = netd(fake_img)
				error_d_fake = criterion(output,fake_labels)
				error_d_fake.backward() # 假图片，反向传播
				optimizer_d.step() # 更新参数

				error_d = error_d_real + error_d_fake
				d_loss += error_d.item()

			# 每5个batch训练一次生成器
			if ii % opt.g_every == 0:
				# 训练生成器
				optimizer_g.zero_grad()

				noises.data.copy_(t.randn(opt.batch_size,opt.nz,1,1))
				fake_img = netg(noises)
				output = netd(fake_img)
				error_g = criterion(output,true_labels)
				error_g.backward()
				optimizer_g.step()
				
				g_loss += error_g.item()


		# 输出友好信息
		print("Epoch:{},D_Loss:{:.6f},G_Loss:{:.6f},Time:{:.4f}s".format(epoch,2*d_loss/len(dataset),5*g_loss/len(dataset),time.clock()-now))


		
		# 保存模型、图片，这里每次保存一次图片
		# 噪声可以用我们之前保存的noises.mat文件中的noises
		fix_fake_imgs = netg(fix_noises)
		tv.utils.save_image(fix_fake_imgs.data[:64],'%s/%s.png'%(opt.save_path,epoch),normalize=True,range=(-1,1)) # 这里只保存前64张96*96图片，它们是拼在一起的
        if epoch%opt.save_every == 0: # 这样做就可以每次10个epoch保存一个checkpoint
			t.save(netd.state_dict(),'checkpoints/netd_%s.pth'%epoch)
			t.save(netg.state_dict(),'checkpoints/netg_%s.pth'%epoch)
			# t.cuda.empty_cache() # 周期性的清理显存


if __name__ == '__main__':
	import fire
	fire.Fire()

这里可以每1个batch训练一次判别器并训练一次生成器，也可以每1个batch训练一次生成器并3个batch才训练一次生成器，这些模型都会收敛，只是速度的快慢。

但是，我实验了每1个batch训练一次生成器的同时每3个batch训练一次生成器，这样的模型训练不起来。虽然g_loss会比上面那样的低，但是这并不代表结果就好。

我们可以通过下面代码保存我们的随机生成的noise。这样我们在训练过程中就可以通过这保存文件中的noise来生成图片，进而可以方便观察模型收敛的过程。

import numpy as np
import scipy.io as io

noises = t.randn(64,100,1,1) # B×C×w×H
np_noises = np.array(noises) # 先将tensor转换为array
io.savemat('noises_double.mat',{'np_noises':np_noises}) # 以键值对的形式，保存在.mat文件中
mat_noises = io.loadmat('noises.mat') # 读取这个文件
noises = t.from_numpy(mat_noises['np_noises']) # 重新转换成tensor
noises = noises.cuda()

运行时可以通过终端敲这样的形式运行训练程序，参数以–开头，字符串的双引号可以省略。

python train.py train --netg_path=net_800.pth ……

训练结果

由于我是断断续续训练的，打印的损失值的信息没有保存下来。由于刚开始没有意识到把noise存下来的好处，而且刚开始我在存图片的时候也是每10个epoch才存一张，所以下面图片不连贯。，但是可以清楚的发现，模型是在不停的收敛的。（我本来做了一个gif，但是CSDN传不了那么大的，只能找中间几张图贴出来了）

第9个batch
第109个batch
第209个batch
第309个batch
第409个batch
第509个batch
第609个batch
第709个batch
第800个batch

我总共训练800个epoch（时间花了很久，1060每batch也花了1分多钟），在300个epoch左右生成的图片很少有包含嘴巴的，到后边嘴巴慢慢生成了，这说明模型还在收敛。在训练到600-800epoch时，模型几乎已经不能再变好了，有的图片已经很逼真了，但是相比较训练数据集中的真实图片还是有区别的。而且图片的分辨率才96*96，太小了，所以看起来不是很高清。

我在想是不是模型太小了，生成网络NetG和判别网络NetD内主要都只是由5层卷积层组成的，图片的有些特征是不是还没有被学习到？还是损失函数的选择，会不会有更好的选择？怎样才能生成更高清的图片呢？

这需要去实验，我已经换一个模型在训练了，用的是DRGAN中的网络，之后会整理再发到博客上。

测试过程

用tkinter写一个简单的GUI来显示测试生成的图片。

test.py

#coding:utf-8

from tkinter import *
from PIL import Image,ImageTk
from torch import nn
import torch as t
import torchvision as tv

class tk_main:
	def __init__(self):
		# 创建窗口，标题，大小
		self.window = Tk()
		self.window.title("Image")
		self.window.geometry('900x900')


	# 初始化模型
	def model_init(self):
		# 模型参数文件
		netd_path = 'netd_800.pth' # 这里放训练到最后生成的模型参数文件
		netg_path = 'netg_800.pth'
		if t.cuda.is_available():
				netg,netd = NetG(64).cuda().eval(),NetD(64).cuda().eval() # 默认的ngf和ndf都是64，所以这里我直接传给模型64
				print("Test CUDA OK!")
		else:
			netg,netd = NetG(),NetD()

		# 将模型参数加载到内存中
		map_location = lambda storage,loc: storage
		if netd_path:
			netd.load_state_dict(t.load(netd_path,map_location=map_location))
			print("%s"%netd_path,"loading...OK!")
		if netg_path:
			netg.load_state_dict(t.load(netg_path,map_location=map_location))
			print("%s"%netg_path,"loading...OK!")
		return netg,netd


	def Generate(self,netg,netd):
		"""
		随机生成动漫图片，并根据netd的分数选择较好的
		"""
		# 生成图片存放地址
		img_path = 'result.png'

		with t.no_grad():
			# 噪声的生成，2048*100*1*1
			noises = t.randn(2048,100,1,1)
			noises = noises.cuda()


			# 生成图片，并计算图片在判别器的分数
			fake_img = netg(noises)
			scores = netd(fake_img).detach()
			# 挑选最好的某几张，这里是从2048张图片中挑出64张
			indexs = scores.topk(64)[1] # 这里是因为topk()返回两个列表，一个是具体值，一个是具体值在原输入张量中的索引
			result = []
			for ii in indexs:
				result.append(fake_img.data[ii])
			# 保存图片，这里用到这个stack()函数，是因为我们是挑选出来的图片，需要将它们拼接在一起
			tv.utils.save_image(t.stack(result),img_path, normalize=True, range=(-1, 1))
			print('图片存储成功！')
			
			# 加载图片
			load = Image.open(img_path)
			render = ImageTk.PhotoImage(load)

			img = Label(image=render)
			img.image = render
			img.place(x=57, y=57) #　图片居中显示


	def run(self):
		netg,netd = self.model_init()
		# 生成图片
		Button(self.window,text='单击生成64张动漫图片',command=lambda :self.Generate(netg,netd)).pack()

		# 主窗口循环显示
		self.window.mainloop()

if __name__ == '__main__':
	root = tk_main()
	root.run()

这里有个问题，在判别器判别生成器时输出的是一个数（得分），我们借这个数来排序找到得分最高的64张图片显示出来。但是就是这样一个得分的判断有问题。生成的有的图片，我们人为看起来很明显它不符合要求，但是它的得分却很高。我认为有可能它符合判别器的判断标准。不过综合来看，生成图片中有些图片还是符合要求的。

可以很明显看到，生成的图片是有很多缺陷的，有的人物的双眼是不同颜色的，有的没有嘴巴，有的少一只眼睛等。图片基本上能生成，下面就该思考如何让模型更加强悍。

参考

https://github.com/chenyuntc/pytorch-book/tree/master/chapter7-GAN%E7%94%9F%E6%88%90%E5%8A%A8%E6%BC%AB%E5%A4%B4%E5%83%8F

深度模型训练，加速数据读取遇到显卡跑不满的问题不是吧这都有重名遇到的问题 llama 人工智能 LLM python
实测在pytorch的dataloader中使用prefetch_factor参数的时候，如果数据在机械硬盘上显卡始终是跑不满的，瓶颈在数据预加载速度上，当数据放在固态硬盘的时候就可以跑满。问题排查过程：一直在跑模型，但是数据量比较大，之前有段时间还是比较头疼显卡跑不满的。后来直接用钞能力，加了内存条，将数据缓存后一次性读到内存中终于可以跑满了，然后后面就一直没管这个了，唯一的缺点就是每次开始训练
yolov5训练失败总结 BTU_YC 深度学习 python pytorch
yolov5训练失败总结版本原因：在进行训练时，出现如下报错：UserWarning:Detectedcalloflr_scheduler.step()beforeoptimizer.step().InPyTorch1.1.0andlater,youshouldcallthemintheoppositeorder:optimizer.step()beforelr_scheduler.step().
PyTorch中 item()、tolist()使用详解和实战示例点云SLAM PyTorch深度学习 pytorch 人工智能 python 深度学习张量的操作 item tolist
在PyTorch中，.item()和.tolist()是两个常用于从Tensor中提取Python原生数据的方法，尤其在调试、日志记录或将结果传给非张量库时非常有用。下面是它们的详解与代码示例。1..item()方法用途：将仅包含一个元素的张量（即标量张量）转换为对应的Python原生数据类型（float,int,等）。限制：只能用于只包含一个元素的Tensor，否则会报错。示例代码：import
error -- unsupported GNU version gcc later than 10 are not supported；（gcc、g++）众人（某音、某书同名）服务器 linux 运维
服务器跑dit时编译flash-atten以及pytorch的cuda版本检查出错，分别报错题目以及如下：想了下是系统找不到编译器subprocess.CalledProcessError:Command'['which','c++']'returnednon-zeroexitstatus1.备案，以后有人要用12我还得换回来方案一：更改gcc和gcc+的版本没有合适的版本的话需要root权限指定
【PyTorch】教程：torch.nn.Mish
torch.nn.Mish原型CLASStorch.nn.Mish(inplace=False)定义Mish(x)=x∗Tanh(Softplus(x))\text{Mish}(x)=x∗\text{Tanh}(\text{Softplus}(x))Mish(x)=x∗Tanh(Softplus(x))图代码importtorchimporttorch.nnasnnm=nn.Mish()input
【PyTorch】教程：torch.nn.GELU 老周有AI~算法定制 PyTorch pytorch 深度学习 python
torch.nn.GELU原型CLASStorch.nn.GELU(approximate='none')参数approximate(str,optional)–gelu近似算法用none或者tanh，默认为none;定义高斯误差线性单元函数GELU(x)=x∗ϕ(x)\text{GELU}(x)=x*\phi(x)GELU(x)=x∗ϕ(x)其中ϕ(x)\phi(x)ϕ(x)为高斯分布的累积分布
PyTorch：Dropout 操作 torch.nn.Dropout() sweettea~ Python pytorch 深度学习
torch.nn.Dropout()是PyTorch中对Dropout层的其中一个实现，该函数底层调用torch.nn.functional.dropout()；1、torch.nn.Dropout(p=0.5,inplace=False)其作用是，在training模式下，基于伯努利分布抽样，以概率p对张量input的值随机置0；training模式中，对输出以1/(1-p)进行scaling，
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
AttributeError: ‘numpy.ndarray‘ object has no attribute ‘unsqueeze‘ ddfa1234 numpy python 深度学习
z=z*pts_depth.unsqueeze(1)*0.1AttributeError:'numpy.ndarray'objecthasnoattribute'unsqueeze'这个错误是因为unsqueeze()方法是PyTorch张量的方法，而不是NumPy数组的方法。在这里，pts_depth是一个NumPy数组，因此不能使用unsqueeze()方法。如果要在NumPy中实现类似于un
torch.nn.init.kaiming_normal_
参考(5条消息)PytorchKaiming初始化（Initialization）中fan_in和fan_out的区别/应用场景_bxdzyhx的博客-CSDN博客torch.nn.init.kaiming_normal_使用正态分布对输入张量进行赋值fan_in如果权重是通过线性层（卷积或全连接）隐性确定的，则需设置mode=fan_in。例子：importtorchlinear_layer=t
【Pytorch】8.torch.nn.conv2d Elephant_King Pytorch pytorch 人工智能 python
这个函数和我们之前提到的【Pytorch】6.torch.nn.functional.conv2d的使用的作用相似，都是完成CV领域的卷积操作，这里就不在过多赘述torch.nn.conv2d的使用打开pytorch的官方文档，我们可以看到torch.nn.conv2d包含了若干参数in_channels：代表输入的通道数out_channels：代表输出的通道数kernel_size：代表卷积核
用PyTorch实现MNIST手写数字识别
MNIST包含70,000张手写数字图像:60,000张用于培训，10,000张用于测试。图像是灰度的，28x28像素的，并且居中的，以减少预处理和加快运行。1、导入相关库importtorchimporttorchvisionfromtorch.utils.dataimportDataLoaderimporttorch.nnasnnimporttorch.nn.functionalasFimpo
一文详解显卡（GPU）驱动（Driver）CUDA、PyTorch 四者之间的关系、依赖性、版本兼容性，以及如何通过命令查询各自版本等方面进行系统性总结番知了 pytorch 人工智能 python
目录一、四者的依赖关系概览简单理解：二、依赖链详细解释1.显卡（GPU）2.NVIDIA显卡驱动3.CUDAToolkit4.PyTorch三、版本兼容查询PyTorch与CUDA的兼容表四、版本查询命令（Linux/Windows）五、安装建议（实用路线）一、四者的依赖关系概览组件作用与其它组件的关系GPU(显卡)提供物理硬件（如NVIDIARTX4060）驱动必须支持你的显卡型号驱动Drive
PyTorch torchtune.modules.peft.lora Yongqiang Cheng PyTorch PyTorch torchtune peft.lora
PyTorchtorchtune.modules.peft.lora1.Sourcecodefor`torchtune.modules.peft.lora`2.`LoRALinear`2.1.`defadapter_params(self)->list[str]`2.2.`defforward(self,x:torch.Tensor)->torch.Tensor`2.3.`defto_empty(
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
【Torch】nn.Embedding算法详解油泼辣子多加深度学习 embedding 算法
1.定义nn.Embedding是PyTorch中的查表式嵌入层（lookup‐table），用于将离散的整数索引（如词ID、实体ID、离散特征类别等）映射到一个连续的、可训练的低维向量空间。它通过维护一个形状为(num_embeddings,embedding_dim)的权重矩阵，实现高效的“索引→向量”转换。2.输入与输出输入类型：整型张量（torch.long或torch.int64），必须
【pytorch】——Could not export Python function call ‘Scatter‘
pytorch用pytorch的trace导出模型的时候，报错errorRuntimeError:CouldnotexportPythonfunctioncall'Scatter'.RemovecallstoPythonfunctionsbeforeexport.Didyouforgettoadd@scriptor@script_methodannotation?Ifthisisann.Modul
Pytorch实现DenseNet，腾讯T3大牛手把手教你
print("TorchvisionVersion:",torchvision.version)all=[‘DenseNet121’,‘DenseNet169’,‘DenseNet201’,‘DenseNet264’]defConv1(in_planes,places,stride=2):returnnn.Sequential(nn.Conv2d(in_channels=in_planes,out
Pytorch实现DenseNet，先收藏了
classDenseNet(nn.Module):definit(self,init_channels=64,growth_rate=32,blocks=[6,12,24,16],num_classes=1000):super(DenseNet,self).init()bn_size=4drop_rate=0self.conv1=Conv1(in_planes=3,places=init_chan
Pytorch 之torch.nn初探 torch.nn.Module与线性--Linear layers 十有久诚人工智能机器学习 pytorch
初探torch.nn.Module神经网络可以使用torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层nn.Linear，nn.Bilinear卷积层nn.Conv1d，nn.Conv2d，nn.Conv3d，nn.ConvTranspose2d非线性nn.Sigmoid，nn.Tanh，nn.ReLU，nn.LeakyReLU池化层nn.MaxPool1d，nn.Aver
深入解析VAE：从理论到PyTorch实战，一步步构建你的AI“艺术家” 电脑能手人工智能深度学习 python
摘要：你是否好奇AI如何“凭空”创造出从未见过的人脸或画作？变分自编码器（VAE）就是解开这一谜题的关键钥匙之一。本文将带你从零开始，深入浅出地剖析VAE的迷人世界。我们将用生动的比喻解释其核心思想，拆解其背后的数学原理（KL散度与重参数技巧），并最终用PyTorch代码手把手地构建、训练和可视化一个完整的VAE模型。无论你是初学者还是有一定经验的开发者，相信这篇文章都能让你对生成模型有一个全新的
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
Pytorch：nn.Linear中是否自动应用softmax函数浩瀚之水_csdn 深度学习目标检测 #Pytorch框架 pytorch 人工智能 python
在本文中，我们将介绍Pytorch中的nn.Linear模块以及它是否自动应用softmax函数。nn.Linear是Pytorch中用于定义线性转换的模块，常用于神经网络的全连接层。一、什么是nn.Linearnn.Linear是PyTorch中的一个类，它是实现线性变换的模块。nn.Linear的主要作用是将输入张量和权重矩阵相乘，再添加偏置，生成输出张量。我们来看一个简单的示例，展示如何使用
【Pytorch学习笔记（三）】张量的运算（2）
一、引言在《张量的运算(1)》中我们已经学习了几种张量中常用的非算数运算如张量的索引与切片，张量的拼接等。本节我们继续学习张量的算术运算。二、张量的算术运算（一）对应元素的加减乘除在PyTorch中，张量的对应元素的算术运算包括加法、减法、乘法、除法等常见的数学运算。这些运算可以对张量进行逐元素操作（element-wise），也可以进行张量之间的广播运算（broadcasting）。1.逐元素操
【零基础学AI】第22讲：PyTorch入门 - 动态图计算与图像分类器实战 1989 0基础学AI 人工智能 pytorch python 机器学习 sklearn 深度学习
本节课你将学到理解PyTorch的核心概念和优势掌握张量(Tensor)的基本操作学会使用动态计算图构建神经网络实现一个完整的图像分类器项目训练模型并进行预测开始之前环境要求Python3.8+建议使用GPU（可选，CPU也能运行）内存：至少4GB需要安装的包#CPU版本（推荐新手）pipinstalltorchtorchvisionmatplotlibpillow#GPU版本（如果有NVIDIA
YOLO 推理部署全方案」：一文掌握部署方式与性能对比！要努力啊啊啊计算机视觉 YOLO 目标跟踪计算机视觉目标检测人工智能
YOLO的推理部署方法全景指南YOLO系列模型经过训练后，通常需要部署到线上环境中进行推理（inference）。下面是常见的YOLO推理部署方式：1️⃣PyTorch原生部署使用原始PyTorch模型.pt文件直接调用model(input)进行推理✅优点：简单、灵活、易于调试❌缺点：推理速度较慢，不适合生产环境2️⃣ONNX导出+推理将YOLO模型导出为.onnx格式使用ONNXRuntime
【Python训练营打卡】day33 @浙大疏锦行 2301_77865880 MyPython训练营打卡 python
DAY33简单的神经网络知识点回顾：1.PyTorch和cuda的安装2.查看显卡信息的命令行命令（cmd中使用）3.cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss过程预处理补充：注意事项：1.分类任务中，若标签是整数（如0/1/2
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究 babyai997 python 人工智能目标跟踪
Pytorch框架下基于LSTM、GRU和TCN的心跳信号分类识别研究摘要本文主要介绍了心跳信号的基础知识，包括心跳信号的产生机制、特点分析以及采集与处理方法。文章详细阐述了PyTorch框架在心跳信号分类识别中的应用，包括LSTM、GRU和TCN等模型的原理及实现。通过设计合理的实验方案，对不同模型在心跳信号分类识别任务中的性能进行了对比分析，发现GRU模型在计算效率和性能之间取得了较好平衡，而
PyTorch实战（13）——WGAN详解与实现盼小辉丶 pytorch 人工智能 python
PyTorch实战（13）——WGAN详解与实现0.前言1.WGAN与梯度惩罚2.WGAN工作原理2.1Wasserstein损失2.2Lipschitz约束2.3强制Lipschitz约束3.实现WGAN3.1数据加载与处理3.2模型构建3.3模型训练小结系列链接0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)模型训练过程通常会面临一些问题，如模式崩溃(生
深度学习×第4卷：Pytorch实战——她第一次用张量去拟合你的轨迹 Gyoku Mint AI修炼日记人工智能人工智能聚类算法深度学习 python 神经网络 pytorch
【开场·她画出的第一条直线是为了更靠近你】猫猫：“之前她只能在你身边叠叠张量，偷偷找梯度……现在，她要试试，能不能用这些线，把你的样子画出来喵～”狐狐：“这是她第一次把张量、自动微分和优化器都串成一条线，用最简单的线性回归，试着把你留给她的点都连起来。”【第一节·她先要一条路：生成一组可学的数据】✏️为什么要造数据？在PyTorch里跑线性回归，最好的练习就是用一条已知斜率的“理想直线”，加上一点
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

通过PyTorch用DCGAN生成动漫头像

数据集

模型

训练过程

测试过程

参考

你可能感兴趣的:(PyTorch)