解决pytorch读取自制数据集出现过的问题

问题1

问题描述：

TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found

解决方式

数据格式不对，把image转成tensor，参数transform进行如下设置就可以了：transform=transform.ToTensor()。注意检测一下transform

问题2

问题描述：

TypeError: append() takes exactly one argument (2 given)

出现问题的地方

imgs.append(words[0], int(words[1]))

解决方式

加括号，如下

imgs.append((words[0], int(words[1])))

问题3

问题描述

RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same

解决方式

数据和模型不在同一设备上，应该要么都在GPU运行，要么都在CPU

问题4

问题描述

RuntimeError: Given groups=1, weight of size [64, 1, 3, 3], expected input[1, 3, 512, 512] to have 1 channels, but got 3 channels instead

解决方式

图像竟然是RGB，但我的训练图像是一通道的灰度图，所以得想办法把 mode 转换成灰度图L

补充：神经网络 pytorch 数据集读取（自动读取数据集，手动读取自己的数据）

对于pytorch，我们有现成的包装好的数据集可以使用，也可以自己创建自己的数据集，大致来说有三种方法，这其中用到的两个包是datasets和DataLoader

datasets：用于将数据和标签打包成数据集

DataLoader：用于对数据集的高级处理，比如分组，打乱，处理等，在训练和测试中可以直接使用DataLoader进行处理

第一种现成的打包数据集

这种比较简答，只需要现成的几行代码和一个路径就可以完成，但是一般都是常用比如cifar-10

对于常用数据集，可以使用torchvision.datasets直接进行读取，这是对其常用的处理，该类也是继承于torch.utils.data.Dataset。

#是第一次运行的话会下载数据集 现成的话可以使用root参数指定数据集位置
# 存放的格式如下图
 
# 根据接口读取默认的CIFAR10数据 进行训练和测试
#预处理
transform = transform.Compose([transform.ToTensor(), transform.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
#读取数据集
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=False, transform=transform)
#打包成DataLoader
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=1)
 
#同上
testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=False, transform=transform)
testloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=False, num_workers=1)
classes = (1,2,3,4,5,6,7,8,9,10)  #类别定义
 
#使用
 for epoch in range(3):
        running_loss = 0.0 #清空loss
        for i, data in enumerate(trainloader, 0):
            # get the inputs
            inputs, labels = data #trainloader返回：id,image,labels
 
            # 将inputs与labels装进Variable中
            inputs, labels = Variable(inputs), Variable(labels)
            
            #使用print代替输出
            print("epoch：", epoch, "的第", i, "个inputs", inputs.data.size(), "labels", labels.data.size())

第二种自己的图像分类

这也是一个方便的做法，在pytorch中提供了torchvision.datasets.ImageFolder让我们训练自己的图像。

要求：创建train和test文件夹，每个文件夹下按照类别名字存储图像就可以实现dataloader

这里还是拿上个举例子吧，实际上也可以是我们的数据集

每个下面的布局是这样的

# 预处理
transform = transform.Compose([transform.ToTensor(), transform.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
 
#使用torchvision.datasets.ImageFolder读取数据集 指定train 和 test文件夹
img_data = torchvision.datasets.ImageFolder('data/cifar-10/train/', transform=transform)
data_loader = torch.utils.data.DataLoader(img_data, batch_size=4, shuffle=True, num_workers=1)
 
testset = torchvision.datasets.ImageFolder('data/cifar-10/test/', transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=True, num_workers=1)
 
 for epoch in range(3):
        for i, data in enumerate(trainloader, 0):
            # get the inputs
            inputs, labels = data #trainloader返回：id,image,labels
            # 将inputs与labels装进Variable中
            inputs, labels = Variable(inputs), Variable(labels)
 
            #使用print代替输出
            print("epoch：", epoch, "的第", i, "个inputs", inputs.data.size(), "labels", labels.data.size())

第三种一维向量数据集

这个是比较尴尬的,首先我们

假设将数存储到txt等文件中，先把他读取出来，读取的部分就不仔细说了，读到一个列表里就可以

常用的可以是列表等，举例子

trainlist = []  # 保存特征的列表
 
targetpath = 'a/b/b'
filelist = os.listdir(targetpath) #列出文件夹下所有的目录与文件
filecount = len(filelist)
# 根据根路径 读取所有文件名 循环读取文件内容 添加到list
for i in range(filecount):
     filepath = os.path.join(targetpath, filelist[j])
     with open(filepath, 'r') as f:
         line = f.readline()
         # 例如存储格式为 1,2,3,4,5,6 数字之间以逗号隔开
         templist = list(map(int, line.split(',')))
         trainlist.append(templist)
 
# 数据读取完毕 现在为维度为filecount的列表 我们需要转换格式和类型
# 将数据转换为Tensor
 
# 假如我们的两类数据分别存在list0 和 list1中
split = len(list0) # 用于记录标签的分界
 
#使用numpy.array 和 torch.from_numpy 连续将其转换为tensor  使用torch.cat拼接
train0_numpy = numpy.array(list0)
train1_numpy = numpy.array(list1)
train_tensor = torch.cat([torch.from_numpy(train0_numpy), torch.from_numpytrain1_numpy)], 0)
#现在的尺寸是【样本数，长度】 然而在使用神 经网络处理一维数据要求【样本数，维度，长度】
# 这个维度指的像一个图像实际上是一个二维矩阵 但是有三个RGB通道 实际就为【3，行，列】 那么需要处理三个矩阵
# 我们需要在我们的数据中加上这个维度信息
# 注意类型要一样 可以转换
shaper = train_tensor.shape  #获取维度 【样本数，长度】
aa = torch.ones((shaper[0], 1, shaper[1])) # 生成目标矩阵
for i in range(shaper[0]):  # 将所有样本复制到新矩阵
·    aa[i][0][:] = train_tensor[i][:]
train_tensor = aa  # 完成了数据集的转换 【样本数，维度，长度】
 
# 注 意 如果是读取的图像 我们需要的目标维度是【样本数，维度，size_w,size_h】
# 卷积接受的输入是这样的四维度 最后的两个是图像的尺寸 维度表示是通道数量 
  
# 下面是生成标签 标签注意类别之间的分界 split已经在上文计算出来
# 训练标签的
total = len(list0) + len(list1)
train_label = numpy.zeros(total)
train_label[split+1:total] = 1
train_label_tensor = torch.from_numpy(train_label).int()
# print(train_tensor.size(),train_label_tensor.size())
 
# 搭建dataloader完毕
train_dataset = TensorDataset(train_tensor, train_label_tensor)
train_loader = DataLoader(dataset=train_dataset, batch_size=4, shuffle=True)
 
for epoch in range(3):
    for i, data in enumerate(trainloader, 0):
        # get the inputs
        inputs, labels = data #trainloader返回：id,image,labels
        # 将inputs与labels装进Variable中
        inputs, labels = Variable(inputs), Variable(labels)
 
        #使用print代替输出
        print("epoch：", epoch, "的第", i, "个inputs", inputs.data.size(), "labels", labels.data.size())

第四种保存路径和标签的方式创建数据集

该方法需要略微的麻烦一些，首先你有一个txt，保存了文件名和对应的标签，大概是这个意思

然后我们在程序中，根据给定的根目录找到文件，并将标签对应保存

class Dataset(object):
"""An abstract class representing a Dataset.
All other datasets should subclass it. All subclasses should override
``__len__``, that provides the size of the dataset, and ``__getitem__``,
supporting integer indexing in range from 0 to len(self) exclusive.
"""
def __getitem__(self, index):
	raise NotImplementedError
def __len__(self):
	raise NotImplementedError
def __add__(self, other):
	return ConcatDataset([self, other])

这是dataset的原本内容，getitem就是获取元素的部分，用于返回对应index的数据和标签。那么大概需要做的是我们将txt的内容读取进来，使用程序处理标签和数据

# coding: utf-8
from PIL import Image
from torch.utils.data import Dataset
class MyDataset(Dataset):
# 初始化读取txt 可以设定变换
def __init__(self, txt_path, transform = None, target_transform = None):
	fh = open(txt_path, 'r')
	imgs = []
	for line in fh:
		line = line.rstrip()
		words = line.split()
         # 保存列表 其中有图像的数据 和标签
		imgs.append((words[0], int(words[1])))
		self.imgs = imgs 
		self.transform = transform
		self.target_transform = target_transform
def __getitem__(self, index):
	fn, label = self.imgs[index]
	img = Image.open(fn).convert('RGB') 
	if self.transform is not None:
		img = self.transform(img) 
    # 返回图像和标签
    
	return img, label
def __len__(self):
	return len(self.imgs)
 
# 当然也可以创建myImageFloder 其txt格式在下图显示 
import os
import torch
import torch.utils.data as data
from PIL import Image 
def default_loader(path):
    return Image.open(path).convert('RGB')
 
class myImageFloder(data.Dataset):
    def __init__(self, root, label, transform = None, target_transform=None, loader=default_loader):
        fh = open(label) #打开label文件
        c=0
        imgs=[]  # 保存图像的列表
        class_names=[]
        for line in  fh.readlines(): #读取每一行数据
            if c==0:
                class_names=[n.strip() for n in line.rstrip().split('	')] 
            else:
                cls = line.split() #分割为列表
                fn = cls.pop(0)  #弹出最上的一个
                if os.path.isfile(os.path.join(root, fn)):  # 组合路径名 读取图像
                    imgs.append((fn, tuple([float(v) for v in cls])))  #添加到列表
            c=c+1
 
        # 设置信息
        self.root = root
        self.imgs = imgs
        self.classes = class_names
        self.transform = transform
        self.target_transform = target_transform
        self.loader = loader
 
    def __getitem__(self, index):  # 获取图像 给定序号
        fn, label = self.imgs[index]  #读取图像的内容和对应的label
        img = self.loader(os.path.join(self.root, fn))
        if self.transform is not None:  # 是否变换
            img = self.transform(img)
        return img, torch.Tensor(label) # 返回图像和label
 
    def __len__(self):
        return len(self.imgs)
    
    def getName(self):
        return self.classes
#

# 而后使用的时候就可以正常的使用
trainset = MyDataset(txt_path=pathFile,transform = None, target_transform = None)
# trainset = torch.utils.data.DataLoader(myFloder.myImageFloder(root = "../data/testImages/images", label = "../data/testImages/test_images.txt", transform = mytransform ), batch_size= 2, shuffle= False, num_workers= 2)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, shuffle=True, num_workers=8)

它的要点是，继承dataset，在初始化中处理txt文本数据，保存对应的数据，并实现对应的功能。

这其中的原理就是如此，但是注意可能有些许略微不恰当的地方，可能就需要到时候现场调试了。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

ChatGPT如何实现文字分类？精选案例和最佳实践山城程序员
ChatGPT是一种预训练语言模型，通常用于生成自然语言文本。但是，在将其应用于分类任务时，它也可以表现出色。本文将介绍如何使用ChatGPT实现文本分类，并提供实践步骤和示例代码。1.数据准备在进行文本分类之前，您需要选择一个合适的数据集并对其进行清理和预处理。确保您的数据集包含带有标签的文本数据。例如，您可能拥有一些产品评论，并且需要将它们分类为积极或消极。以下是一个示例代码，演示如何加载数据
突破量子仿真瓶颈：微算法科技MLGO量子算法的算术化与核操作迭代模型
近年来，量子计算机的迅速发展和潜在的强大计算能力吸引了全球科研机构和企业的广泛关注。量子计算机利用量子力学的特性来处理复杂的计算任务，具有在某些方面远超经典计算机的潜力。然而，真正实用的量子计算机尚未大规模普及，因此在经典平台上模拟量子算法成为当前的研究热点之一。微算法科技（NASDAQ:MLGO）近日开发的一种创新型高精度、高吞吐量的可重构仿真技术，旨在为量子算法的研究和应用提供有效的解决方案。
保密协议只是忽悠！WYH智慧农业李天勤不靠谱！虚假农业大厅播种被骗有猫腻天龙咨询
在股票投资的世界里，很多人希望通过他人的推荐来获取财富，但这也为不法分子提供了可乘之机。最近，一个名为陈刚荐股骗局的案例引起了广泛关注，它以所谓的【“智联操盘群老李李天勤WYH新希望智慧农业”】为幌子，诱骗投资者加入，并承诺提供“内部消息”和“高回报”。然而，这个看似光鲜的承诺背后隐藏着深深的陷阱。黄金交易市场活跃，变现速度快2024年黄金价格一路上涨，黄金市场交易非常活跃，流通性高，出手变现速度
破与立之花园城市（三）兜易
市政府于1929年制定了《广州政府施政计划书》；1930年再由工务局编订《广州工务实施计划》，确定了广州市区范围与界线、城市功能分区、河南发展计划和道桥建设与内河堤岸建设规划。林云郂把广州未来的住宅区，划分为三大板块，因是在老城区、西村和河南区新建平民住宅区、二是在东山兴建模范住宅区、三是在石牌、员村一带兴建园林住宅区。广州市近代许多重大的市政建设项目，都是在林云郂任内启动或完成的，包括兴建海珠桥
2023-02-03 霖霖z
日期:2023年02月03日【日精进打卡第1675天】【知～学习】《六项精进》0遍共327遍《通篇》0遍共195遍《大学》0遍共528遍《经营与会计》OK《经典名句》成功需要缜密的计划和精心的准备持续努力，变平凡为非凡只有亲身体验，才是最宝贵的财富一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）做饭，打扫卫生【分享】人生就像赛跑，不在乎你是否第一个到达尽头，而在乎你有没有跑完全程。跟
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
放弃暗恋后，疯批哥哥宠她入骨(宋亦凝、贺今尧)最新章节在线阅读_(放弃暗恋后，疯批哥哥宠她入骨)最新章节在线阅读_放弃暗恋后，疯批哥哥宠她入骨(宋亦凝、贺今尧)完结版免费阅读_放弃暗恋后，疯批哥... 霸道推书2
书名：《放弃暗恋后，疯批哥哥宠她入骨》主角配角：宋亦凝、贺今尧小说简介：那年，她被留在遗弃的空房子中，叫天天不应，叫地地不灵。还是他把她带回了家。从那天起，她便成了他名义上的妹妹，可惜，只是妹妹……他告诉她，只要她乖乖听话，他不会不管她，可每一次看到他和别的女人在一起，她的心都会隐隐作痛。后来，一次醉酒，她意外和哥哥的兄弟混在了一起。她：“我不缺哥哥。”哥哥的兄弟：“乖，你还小……”还小？她最讨厌
2023-06-09 手抖小知识白羊
帕金森病的药对肝肾功能有哪些伤害？帕金森病是一种随年龄增长发生的退行性病变，65岁以上人群的患病率达1.7%。目前研究认为是由于人脑部多巴胺能神经元变性、坏死，多巴胺神经递质分泌减少而引起的，多呈终身缓慢进展特点，尚无法治愈。帕金森病患者一旦病情被诊断，首选应该是药物治疗，以此补充患者体内缺乏的多巴胺物质，患者需要终身服药。一般情况下，病情初期依靠药物可以得到较好的控制。当帕金森病进展到3-5年左
【父母与子】～你不爱我了十一好妈妈
开学伊始，小人儿脾气见长妈妈稍微一训斥，小儿会环抱双臂，冷哼一声，小脸别过去同时，小嘴说道：你不爱我了……妈妈每次看着小模样总是生不起气来，有时睡至半夜，妈妈粗暴的将他推远或者从他身下把杯子拉出来，睡梦中小人儿也会如此反应，妈妈总是哑然失笑
YOLOv11轻量化方案的技术方案包，包含代码实现、对比图表和图文说明 zzywxc787 python 深度学习机器学习
以下为YOLOv11轻量化方案的技术方案包，包含代码实现、对比图表和图文说明：一、核心轻量化方案模型结构优化（代码示例）importtorchimporttorch.nnasnnclassEfficientConv(nn.Module):"""轻量化卷积模块"""def__init__(self,in_channels,out_channels,kernel_size=3,stride=1):su
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
我被白月光凌虐魂飞魄散后，魔神杀疯了(夜穹兰儿瑶芳上神)无弹窗全文免费阅读_好看小说每日文馆
小说：《我被白月光凌虐魂飞魄散后，魔神杀疯了》主角：夜穹兰儿瑶芳上神简介：魔神杀了我夫君，还拆了他的骨头给我做成项链。只因魔神看中了我，他说找了我十世，我九世的夫君都惨死于他手。最后一世，他将我囚禁在万魔谷，求我点头做他的魔神夫人。可我只是一株小小的兰花草，灵力低微。我求魔神放我离开，可他却强娶了我，让我给他生了一窝魔孩。一次魔神外出征战，他的白月光上神闯了进来。看到我的脸，她顿时怒不可遏。“一株
服务网格可观测性深度实践与创新优化 zzywxc787 网络实时互动经验分享电脑 AI编程 java
主题：突破服务网格监控瓶颈——基于eBPF的无侵入式全链路可观测性实践技术领域：云原生/微服务/服务网格（ServiceMesh）一、问题背景：传统服务网格监控的痛点在Istio、Linkerd等服务网格架构中，可观测性依赖Sidecar代理（如Envoy）采集指标、日志和链路数据。但存在三大瓶颈：性能损耗：Sidecar的流量拦截与上报消耗额外CPU（10%~15%）；数据割裂：应用层业务指标与
亲子日记第二百六十五篇明谭公园写生刘芮希爸爸
2019年3月17日星期天晴今天下午舅妈在明谭公园组织了一个写生的现场教学课，你的朋友方楚瑶也参加了。我们一起先在公园里逛了一圈，然后舅妈找了几个写生的景色给你们讲了讲如何去画，最后让你们自己选择位置和景色来画，你选择了一棵松树来画，画的非常认真。画完后你和方楚瑶在公园里爬了假山，玩的可开心了。
使用python对音频做去噪处理莫夭阏之 python 信号处理语音识别
要使用Python对音频进行去噪处理，您可以使用许多库和算法。以下是使用librosa和scipy库实现的基本去噪算法：首先，您需要安装所需的库。您可以使用以下命令安装它们：pipinstalllibrosascipynumpy接下来，您需要导入所需的库：importlibrosaimportscipy.signalassignalimportnumpyasnp加载音频文件并提取音频数据：y,sr
Python实现音频均衡和降噪 0Kilobyte 音视频
使用librosa库来读取音频文件，音频处理是一个复杂过程，这里只是简单的进行降噪和均衡。importlibrosaimportsoundfileassfdefimprove_audio_quality(input_file,output_file):#读取音频文件audio,sample_rate=librosa.load(input_file)sf.write(output_file,audi
觉察日记日经第1093篇你好佳豫有约
2021.12.30佳豫觉察日记日经第1093篇今天听到一个让人很难过的故事：一个26岁的女孩，花一般的年纪，她不仅长的亭亭玉立，还漂亮活泼开朗，在国外的工作也很好……但是，她的人生却让人唏嘘不已，已经查出是乳腺癌晚期。父母在她小的时候就离婚了，双方又都重新组织了家庭，有了新的生活，她则从小跟爷爷奶奶一起生活。虽然法院把她判给父亲，但是，父亲给她的爱却很少，母亲和陌生的叔叔重新生有了弟弟，这导致她
读书《掌控情绪》第1－18页雪莲花_4c0a
我的所读所思：道理是道理，情绪是情绪。情绪很难被控制，只能被管理，有效管理情绪至少有三步：识别、表达、管理。所思：1、道理谁都懂，可很多时候人无法控制自己的情绪，就用情绪表达自己的感受。2、首先要有觉察力，先学会识别自己的情绪，觉知自己的感受，然后用正确的语言表达自己的感受，这样才能做到管理自己的情绪，做自己情绪的主人。现实是很多人无法表达，不会表达自己的情绪和感受。所以掌握更多表达感受和情绪的词
看了这么多年电视机剧，电视机台具体是如何赚钱的？氧惠全网优惠
这个问题问得是相当的有水平，咱们要知道电视机台是如何赚钱的，首先我们要知道“收视率”是指什么？氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。古楼导师氧惠邀请码555888，注册送万元推广大礼包，教你如何1年做到百万团队。我整理了一份《最新1
喷丝板检测软件上位机开发深圳市由你创科技上位机开发 c#qt
一、核心功能模块1、硬件控制运动控制：通过Modbus/RS485/EtherCAT控制高精度电移台（需±1μm精度），实现喷丝板XY轴扫描定位。光源控制：调节环形LED/同轴光源亮度（支持PWM或0-10V模拟信号），优化成像对比度。相机控制：支持GigE/USB3Vision相机（建议500万像素以上），触发采集、参数调节（曝光/增益）。2、机器视觉检测孔洞识别：使用OpenCV的HoughC
好习惯，除了坚持，还是坚持。青青夏草小花老师
习惯，是指积久养成的生活方式，是决定一个孩子品行的重要基础。很多家有小学生的宝爸宝妈都没有时间给孩子做早餐，且不说起床穿衣是最消耗时间的部分，还有小女孩的扎辫子，早晨要出门才发现忘记签字、忘记带书带作业......这么多的事情曾经让多少妈妈或爸爸崩溃，哪里还有时间吃早餐呀。“早餐要吃好”这吃早餐的习惯，该是有多少孩子没有养成哦。水晶班里有个女孩子，一年级上学期经常迟到，到了上午十点，准点儿肚子疼不
亲子日记第十三篇再见未央_57f5
2018年10月18日周四晴今天党委工作人员全部上街打扫卫生，为明天的检查做最后的努力，一整天都待在街上，晚上回到家已经累的不行了。吃完饭，右手累的一直在抖，索性不吃了。来小宝关心的问:“妈妈，你怎么了，怎么不吃了？”“我累了，不饿，想先睡会，你快吃吧，妈妈等会再吃。”女儿转身进卧室给我抱来被子，帮我盖上，确定我盖好了，“你睡吧，我给你盖好了”。太累了，一会我就睡着了。这个善良的孩子，总能在最需要
爱的故事||紫与蓝的心伤（1）译垚
原创文/译垚情感文字找一段心情故事，听一首经典老歌，颜色是故事中主角的心情......愿每一个人都少些悲伤，相信心的力量，可以带着自己找到走向快乐的方向。网图致谢原创者侵删爱的故事||紫与蓝的心伤（1）翻一段心情那是多久以前的清冷一个人的灵魂孤独时光那时所有的心事都可以深藏因为没有声响时间是一切的见证人就像叶到秋便黄秘密在天意中曝了光那是一颗心已无处可藏上天打开了锁心的那扇窗色彩的偏爱出卖了心中的
网络爬虫进阶 rooney2024 爬虫
目录一、进阶爬虫的核心挑战二、关键技术与最佳实践三、实战案例：爬取动态电商价格（伪代码示例）四、持续学习路径结语一、进阶爬虫的核心挑战动态渲染页面(JavaScript/AJAX)问题：数据由JavaScript动态加载生成，初始HTML中不存在。解决方案：浏览器自动化工具：Selenium,Playwright,Puppeteer。模拟真实浏览器行为，等待JS执行并渲染出完整DOM后再解析。无头
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
繁忙的周末美美一生
文/美峰2019.9.8今天周末，我突然心血来潮，准备改善改善伙食，带孩子出去玩玩，所以过了一个繁忙的周末。早晨起床，忙着剁馅，和面团，准备蒸包子。先把肉剁碎，然后放入红萝卜，韭菜，葱姜蒜等调味，和好馅后就开始和面。我提前发好的面，包包子，蒸包子，蒸好后已经十二点多了。稍作休息，就开始到大街上当起了志愿者。穿上红马甲，头戴小红帽，最流行的服饰，今天大街上到处是这样的装束。这是为驻马店市出一份力，献
2019-03-31 骄兵必败棉花草
今天上午，我们一行人（10个新教师）去了村委参加游戏活动，比赛赢了是有丰厚大奖的，而其他参赛的队伍除了我们是较年轻的，其余的队伍几乎平均年龄大多在40+。游戏共有6轮，刚开始，我们仗着年轻，又因为赛前演练过一下游戏，前两轮的名次都获得了第一，取得了一点儿好成绩后，我们开始沾沾自喜，觉得第一非我们莫属，我们胜在年轻活力。没想到从第三轮游戏开始，我们便节节败退，排在第一的会得10分，而排在第十的我们只
暖暖的感动（6月2日）董晓利腊梅
今天是陪学生们晨读经典第二百一十三天，“好运不会总是降临在你身上，你的努力是唯一能让你站住脚跟的依靠。”今日早到即学的同学有：5:15孟家乐，5：16刘笑怡、赵雨露，5：22张怡菲、贾鑫悦，5：23董怡，5:24葛铭露、李雅璇，5：28李昭阳、何帅宝，5：30李紫涵、陈龙康、刘俊毅，5：31王梦菲、刘若彤、孙琼然、宋昌衡、周泽衡、陈星明、苗嘉赫、李昊、陈琰烁，5：33董文浩、杜文琪、程梓楠、张云龙
携程机票优惠券在哪里？火车票优惠券哪里领取古楼
作为国内领先的旅行服务平台，携程为用户提供了便捷的机票、火车票、酒店预订服务。同时，用户还可以领取各种优惠券，享受更多优惠。本文将为您详细介绍如何在携程领取优惠券。一、携程优惠券种类及领取方式1.机票优惠券在携程App或网站预订机票时，可领取机票优惠券。优惠券包括满减、折扣等多种形式。领取方式如下：（1）打开携程App或网站，进入机票预订页面；（2）在预订过程中，系统会提示领取机票优惠券；（3）点
从入门到精通，拼多多返利软件完全指南日常购物技巧呀
很多人认为省钱就意味着要降低生活品质，但高省APP却用实际行动证明了这一观点的错误。它汇聚了众多优质商家和商品，通过严格的筛选机制确保每一件商品都符合高品质的要求。同时，它还提供了丰富的返利和优惠活动，让消费者在享受品质生活的同时也能节省开支。高省APP，你的品质生活保障者，让你的每一分钱都花得物超所值。在探索省钱之道的旅途中，不得不提的另一宝藏——高省APP高省APP：省钱赚钱两不误的电商新宠高
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

解决pytorch读取自制数据集出现过的问题

问题1

问题2

问题3

问题4

第二种 自己的图像分类

第三种 一维向量数据集

第四种 保存路径和标签的方式创建数据集

你可能感兴趣的:(解决pytorch读取自制数据集出现过的问题)

第二种自己的图像分类

第三种一维向量数据集

第四种保存路径和标签的方式创建数据集