Grateful_Dead424

Lesson 17.2 经典数据集（1）：入门数据集，以及读数据时哪些可能的坑

一数据

数据是一切机器学习项目的根基。当我们想建立一个项目时，首先考虑的第一个问题就是：数据从哪里来？如果你是带着项目在学习这段课程，那你可能已经从导师或公司团队那里拿到了相应的数据，那对你来说最难的部分可能是如何将你的数据放入卷积网络，你可以直接学习《一、2 使用自己的数据/图片创造数据集》。但如果你没有现成的数据在手，你就需要使用深度学习框架中配置好的数据集。对初学者、尤其是只了解深度视觉、不太了解传统视觉方法的人们来说，自己收集和创造数据基本是不太可能的，因此使用现成的数据集是成本更低廉的方法。不过，调用内置数据集可不是一件容易的事。现在，让我们来看看调用经典数据集中的那些问题。

1 认识经典数据

在入门级课程时，我们都会学习MNIST和Fashion-MNIST这两个数据集，他们都是灰度图像的数据集，并且都有10个标签类别，每个标签类别分别对应了图像上的物品/数字是什么。
这两个数据集代表了最传统、最简单的图像预测问题中所使用的数据，他们足以应对图像领域最前沿的任何分类模型，例如残差网络。当我们的学习越来越深入，我们自然会渴望使用更有挑战性的数据集，例如我们之前已经介绍过的ImageNet，或者许多人可能都听说过的COCO、CIFAR等数据集。然而，即便是对前沿模型掌握熟练的初学者，也无法轻易将Fashion-MINST数据集上的操作推广至其他数据集。

例如，在PyTorch中，如果可能的话，我们都会从torchvision.datasets模块下调用图像数据集。在Lesson 11中，我们使用以下代码成功调用了Fashion-MNIST数据集。你可以试着将这段代码中使用的类更换为其他数据集，就会开始无穷无尽的报错之旅。

import torchvision
import torchvision.transforms as transforms
mnist = torchvision.datasets.FashionMNIST(root='...\FashionMNIST'
                                         ,train=False                   
                                         ,download=True
                                         ,transform=transforms.ToTensor())

不同于传统机器学习中广泛使用的表格数据，图像数据集在格式、标签、内容上的丰富程度异常地高，大部分图像数据集无法用同一个API调用，这就是说许多情况下我们不能使用同样的代码加载不同的数据集。同样，图像数据集可能会存在文件太大、占用内存太多、普通用户无法调用的问题。例如，ImageNet是一个巨大的数据集，我们能够获取到的开源部分比原始数据集小很多，然而这个开源的ImageNet子集的大小也有155G。大部分经典图像数据集的大小都超过10个G，大大超出大部分个人电脑的运存。另外，CNN对于图像数据也有一些要求，例如，被识别对象往往需要在图像中心，图像要清晰、要具体，不能容纳太复杂的信息，还需要被标上具体的标签，因此图像数据集的生产成本往往很高。现在我们能够接触到的大部分图像或视频数据集，都是研究机构或商业机构出于研究目的自制的数据集，大部分都有版权限制和使用限制。几乎所有数据集都被要求只能使用于学术场景，许多数据集需要注册、申请才能够使用，许多数据集甚至完全不开源。这又进一步缩小了我们可以调用的图像数据集的范围。即便存在这些重重困难，PyTorch还是将许多数据集归纳在torchvision模块的datasets模块下，试图使用相似的API对其进行调用，但每个API上复杂的参数和参数的说明又让许多初学者望而却步。可见，初学者即便知道一些经典图像数据集的名称，也无法轻易实现对数据集的调用。

为了解决这个问题，我对PyTorch中内置的数据集进行了梳理，并将调用这些数据集所需的基础知识都包含在这一节当中，尽可能地赋予大家自由调用数据集的能力。遗憾的是，考虑到课时限制与学习效率，我们无法在课程中对所有类都进行讲解，因此要想灵活使用图像数据集，英文阅读能力/谷歌翻译插件是必不可少的，否则你将会陷入无边无际的报错当中。幸运的是，我们还是可以一定程度上将数据集进行归类讲解。只要认识了这些数据的名称，并知道去哪里获取他们，我们就可以一定程度上实现对他们的调用。我们先来认识一下这些数据集吧。

1.1 入门数据：MNIST、其他数字与字母识别

第一部分要介绍的是最适合用于教学和实验、几乎对所有的电脑都无负担的MNIST一族。MNIST一族是数字和字母识别的最基本的数据集，这些数据几乎全都是小尺寸图像的简单识别，可以被轻松放入任意神经网络中进行训练。具体如下：

在PyTorch中，提供了三个与MNIST数据集相对比的数据集，分别是用于一次性学习的字母识别数据集Omniglot，另一个体系的手写数字数据集USPS，以及SVHN实拍街景数字数据集。这几个数据集与MNIST的区别如下图。
这些数据集都很简单，那什么时候使用他们呢？在深度视觉的研究中，我们很少专门就MNIST进行研究，但我们在这些简单识别数据集上设置了其他值得研究的问题。比如，在我们撰写论文或检验自己的架构时，MNIST一族是很好的基准线——他们尺寸很小，容易训练，很简单却又没有那么“简单”。一流的架构往往能够在MNIST数据集上取得99%以上的高分，而发表论文时，MNIST数据集的结果低于97%是不能接受的。单一机器学习算法能够在Fashion-MNIST数据集上取得的分数基本都在90%左右，而一流的深度学习架构至少需要达到95%以上的水准。再比如，我们常常使用平假名识别的数据集来研究深度学习中的样本不平衡问题，我们还使用Omniglot数据集来研究人脸识别（主要是个体识别 identity recognition）中常见的“一次性学习”问题（one-shot learning）。我们来重点讲讲这个“一次性学习”的问题。

在人脸识别中，我们有两种识别策略：

第一种策略是以人名为标签进行多分类，在训练样本中包含大量的同一个人的照片，测试集中也包含这个人的照片，看CNN能否正确预测出这个人的名字；而第二种策略则是一种二分类策略，在训练样本中给与算法两张照片，通过计算距离或计算某种相似性，来判断两张照片是否是同一个人，输出的标签为“是/否相似或一致”，在这种策略中，测试集的样本也是两张照片，并且测试集的样本不需要出现在训练集中。

如果基于第一种策略来执行人脸识别，则机场、火车站的人脸识别算法必须把全国人民的人脸数据都学习一遍才可能进行正确的判断。而在第二种策略中，算法只需要采集身份证/护照上的照片信息，再把它与摄像头中拍摄到的影像进行对比，就可以进行人脸识别了。这种“看图A，判断图B上的人是否与图A上的人是同一人”的学习方法，就叫做一次性学习，因为对于单一样本，算法仅仅见过一张图A而已。不难想象，实际落地的人脸识别项目都是基于一次性学习完成的。Omniglot数据集就是专门训练一次性学习的数据集。从上图可以看出，Omniglot数据集中的字母/符号对我们而言是完全陌生的，因此我们并无法判断出算法是否执行了正确的“识别”结果。而再Omniglot数据集上，算法是通过学习图像与图像之间的相似性来判断两个符号是否是一致的符号，至于这个符号是什么，代表什么含义，对Omniglot数据集来说并无意义。

字母和数字识别的数据集的尺寸都较小，因此PyTorch对以上每个数据集都提供了下载接口，因此我们无需自行下载数据，就可以使用torchvision.datasets.xxxx的方式来对他们进行调用。在网速没有太大问题的情况下，只要将download设置为True，并确定VPN是关闭状态，就可以顺利下载。注意，下载之后最好将download参数设置为False，否则只要调用目录写错，就会重新进行下载，费时也费流量。在课程中，我已给大家下载好以下三个文件（其中Fashion-MNIST是之前就下载过的），大家可以将文件放置到自己的目录下，将root修改为文件夹所在目录后来进行运行。我的根目录如下所示：
你可以查看相应的文件夹，你会发现FashionMNIST中的文件是gz文件加压后的pt文件，omniglot-py的文件是zip文件解压后的png图片，SVHN中是matlab生成的mat文件，但这些文件都可以统一使用torchvision.datasets来读取。

基于这个目录，我们来运行以下代码：

#在频繁调用数据的过程中，可能出现环境问题，导致jupyter整个崩溃刷新
#为解决/避免该问题，对环境进行了部分修改
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
import torchvision
import torchvision.transforms as transforms
fmnist = torchvision.datasets.FashionMNIST(root ='/Users/zhucan/Desktop/cv数据集'   #写到文件夹
                                          ,train = True #根据类的不同，参数可能发生变化
                                          ,download = False #未下载则设置为True
                                          ,transform = transforms.ToTensor())
svhn = torchvision.datasets.SVHN(root ='/Users/zhucan/Desktop/cv数据集/SVHN'   #写到文件
                                 ,split ="train" #"test","val"
                                 ,download = False
                                 ,transform = transforms.ToTensor())
omnist = torchvision.datasets.Omniglot(root ='/Users/zhucan/Desktop/cv数据集'     #写到文件夹
                                       ,background = True
                                       ,download = False
                                       ,transform = transforms.ToTensor())
#如返回结果所示，除了样本量之外什么都无法看见
omnist
#Dataset Omniglot
#    Number of datapoints: 19280
#    Root location: /Users/zhucan/Desktop/cv数据集/omniglot-py
#    StandardTransform
#Transform: ToTensor()
fmnist
#Dataset FashionMNIST
#    Number of datapoints: 60000
#    Root location: /Users/zhucan/Desktop/cv数据集
#    Split: Train
#    StandardTransform
#Transform: ToTensor()
svhn
#Dataset SVHN
#    Number of datapoints: 73257
#    Root location: /Users/zhucan/Desktop/cv数据集/SVHN
#    Split: train
#    StandardTransform
#Transform: ToTensor()

fmnist.data
#tensor([[[0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0],
#         ...,
#         [0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0]],
#
#        [[0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0],
#         ...,
#         [0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0],
#         [0, 0, 0,  ..., 0, 0, 0]]], dtype=torch.uint8)
fmnist.targets
#tensor([9, 0, 0,  ..., 3, 0, 5])
#之前我们使用.data的方式查看特征，.target的方式查看标签，但如下所示，不同的数据集并不共享调用的API
#这其实可以理解，当面临的任务不同时，每个数据集的标签排布方式和意义也都不同，因此不太可能使用相同的API进行调用
for i in [fmnist,svhn,omnist]:
    print(i.data.shape)
#torch.Size([60000, 28, 28])
#(73257, 3, 32, 32)
#AttributeError: 'Omniglot' object has no attribute 'data'
for i in [fmnist,svhn,omnist]:
    print(i.targets.shape)
#torch.Size([60000])
#AttributeError: 'SVHN' object has no attribute 'targets'

#如果你想查看每个数据集都可以调用哪些属性，必须要进入到数据集的源码进行查看
#如果不想读源码，也可以直接使用下面的方式进行简单的调用
#索引的方式调用单个样本
omnist[0][0].shape
#torch.Size([1, 105, 105])
len(omnist) #查看样本量
#19280
#报错概率最低的查看方式
for i in [fmnist,svhn,omnist]:
    for x,y in i:
        print(x.shape,y)
        break
#torch.Size([1, 28, 28]) 9
#torch.Size([3, 32, 32]) 1
#torch.Size([1, 105, 105]) 0

#可视化
#实际上，在读图时如果不加ToTensor的预处理，很可能直接读出PIL文件
#PIL可以直接可视化
fmnist = torchvision.datasets.FashionMNIST(root ='/Users/zhucan/Desktop/cv数据集'
                                          ,train =True #根据类的不同，参数可能发生变化
                                          ,download =False #未下载则设置为True
#                                         ,transform = transforms.ToTensor()
                                          )
fmnist[0]
#(, 9)
fmnist[0][0] #尺寸较小，难以看清

#同时，当数据集很大时，我们希望最好只读取一遍，所以一般还是会加上ToTensor
#此时我们就需要自己编写可视化的函数

#使用numpy和matplotlib将图像可视化
import matplotlib.pyplot as plt
import numpy as np
import random

#让每个数据集随机显示5张图像
def plotsample(data):
    fig, axs = plt.subplots(1,5,figsize=(10,10)) #建立子图
    for i in range(5):
        num = random.randint(0,len(data)-1) #首先选取随机数，随机选取五次
        #抽取数据中对应的图像对象，make_grid函数可将任意格式的图像的通道数升为3，而不改变图像原始的数据
        #而展示图像用的imshow函数最常见的输入格式也是3通道
        npimg = torchvision.utils.make_grid(data[num][0]).numpy()
        nplabel = data[num][1] #提取标签
        #将图像由(3, weight, height)转化为(weight, height, 3)，并放入imshow函数中读取
        axs[i].imshow(np.transpose(npimg, (1, 2, 0))) 
        axs[i].set_title(nplabel) #给每个子图加上标签
        axs[i].axis("off") #消除每个子图的坐标轴
#可以自行修改plotsample函数，为可视化实现更高的自由度
plotsample(omnist)

plotsample(svhn)

plotsample(fmnist)

根据类的不同，参数train可能变化为split，还可能增加一些其他的参数，具体可以参考datasets页面。MNIST一组的数据几乎都可以被用于最简单的识别项目，是测试架构的最佳数据。在提出新架构或新方法时，学者们总是会在MNIST或Fashion-MNIST数据集上进行测试，并将在这些数据上拿到高分（>95%）作为新架构有效的证明之一。

1.2 竞赛数据：ImageNet、COCO、VOC、LSUN

除了数字和字母识别之外，最为人熟悉并令人瞩目的就是各大竞赛的主力数据了。之前在讲解大规模视觉挑战赛ILSVRC的时候，我们介绍过ImageNet数据集，和ImageNet数据一样，竞赛数据往往诞生于顶尖大学、顶尖科研机构或大型互联网公司的人工智能实验室，属于推动整个深度学习向前发展的数据集，因此这些数据集通常数据量巨大、涵盖类别广泛、标签异常丰富、可以被用于各类图像任务，并且每年会更新迭代、且在相关竞赛停止或关闭之后会下架数据集。作为计算机视觉的学习者，你可以没有用过这些数据，但你必须知道他们的名字和基本信息，如果你是计算机视觉工程师，那在你的每个项目上线之前，你都需要使用这些数据来进行测试。让我们来看看这些数据集：

各个数据集的样图如下所示：

这一类数据集最大的特点就是数据量多、原图尺寸很大，因此整个数据集所占用的存储空间也会更大。最小的VOC数据集也在3.6个G左右，其他都在20G以上。PyTorch只提供了VOC的下载通道，但这个下载通道极不稳定，因此我还是推荐大家提前下载好之后将数据放入根目录中进行读取。

竞赛数据都是来自于各个机构和大学的研究，因此其风格和调用流程不可能一致，使用每个数据都需要进行一定的探索、还必须具备一定的英文阅读/谷歌翻译能力/Github使用/Python脚本编程能力。在我们的课程中，我给大家准备了2012年的ImageNet数据集、VOC以及LSUN数据集中较小的2类数据（见课程资料），并且准备了可以运行来下载LSUN其他类别数据的Python脚本和readme文档。其中VOC适用于分割和检测任务，ImageNet和LSUN适用于分类任务。我的根目录如下所示：
如果你并不知道如何使用Python脚本文件，可以参考下面的代码。图中正在下载LSUN户外教堂类别，注意，执行此代码时VPN必须处于关闭状态。
值得一提的是，LSUN竞赛现已关闭，因此测试集已无法下载，但训练集和验证集还是可以下载。LSUN各个类别的数据集大小如下所示。在课程中，我给大家下载了户外教堂以及教室两个类别，可以用于分类。
LSUN数据集下载后是压缩文件，解压后是LMBD（Lightning Memory-Mapped Database）数据库的文件。在深度学习中，有许多大型图像数据集都是储存为LMBD文件，因为框架Caffe和TensorFlow在早期使用了大量储存为LMBD格式的数据集。从LMBD数据库中读取数据的代码并不复杂，但需要较多数据库和LMBD相关的基础知识，我在后续为大家提供了相关代码。幸运的是，LSUN的LMBD文件可以直接通过pytorch中datasets下的类来直接调用，具体代码如下：

#导入一个类别
data_train = torchvision.datasets.LSUN(root="/Users/zhucan/Desktop/lsun-master/data"
                                       ,classes=["church_outdoor_train"] #标签类别
                                       ,transform = transforms.ToTensor()
                                      )
data_train
#Dataset LSUN
#    Number of datapoints: 126227
#    Root location: /Users/zhucan/Desktop/lsun-master/data
#    Classes: ['church_outdoor_train']
#    StandardTransform
#Transform: ToTensor()
data_val = torchvision.datasets.LSUN(root="/Users/zhucan/Desktop/lsun-master/data"
                                     ,classes=["church_outdoor_val"]
                                     ,transform = transforms.ToTensor())
data_val
#Dataset LSUN
#    Number of datapoints: 300
#    Root location: /Users/zhucan/Desktop/lsun-master/data
#    Classes: ['church_outdoor_val']
#    StandardTransform
#Transform: ToTensor()
data_train[0][0].shape
#torch.Size([3, 392, 256])
data_train[3][0]            #不用transforms

plotsample(data_val)

for x, y in data_val:
    print(x.shape)
    print(y)
#torch.Size([3, 256, 341])
#0
#torch.Size([3, 341, 256])
#0
#torch.Size([3, 358, 256])
#0
#...
#torch.Size([3, 256, 383])
#0
#torch.Size([3, 256, 256])
#0
#只导入一个类别时，该类别是没有标签的
check_ = 0
for x,y in data_val:
    check_+=y
check_
#0

#想要进行训练，至少得导入两个类别，进行二分类
data_train = torchvision.datasets.LSUN(root=r"/Users/zhucan/Desktop/lsun-master/data"
                                       ,classes=["church_outdoor_train","classroom_train"]
                                       ,transform = transforms.ToTensor())
data_train
#Dataset LSUN
#    Number of datapoints: 294330
#    Root location: /Users/zhucan/Desktop/lsun-master/data
#    Classes: ['church_outdoor_train', 'classroom_train']
#    StandardTransform
#Transform: ToTensor()
data_val = torchvision.datasets.LSUN(root=r"/Users/zhucan/Desktop/lsun-master/data"
                                     ,classes=["church_outdoor_val","classroom_val"]
                                     ,transform = transforms.ToTensor())
data_val
#Dataset LSUN
#    Number of datapoints: 600
#    Root location: /Users/zhucan/Desktop/lsun-master/data
#    Classes: ['church_outdoor_val', 'classroom_val']
#    StandardTransform
#Transform: ToTensor()
data_val[298]
#(tensor([[[0.1804, 0.1843, 0.1804,  ..., 0.4902, 0.4863, 0.4863],
#          [0.1922, 0.1961, 0.1961,  ..., 0.4902, 0.4902, 0.4863],
#          [0.1608, 0.1686, 0.1765,  ..., 0.4941, 0.4902, 0.4902],
#          ...,
#          [0.1137, 0.1686, 0.1882,  ..., 0.1804, 0.1765, 0.1804],
#          [0.1294, 0.1804, 0.1922,  ..., 0.1686, 0.1725, 0.1765],
#          [0.1255, 0.1725, 0.1765,  ..., 0.1882, 0.1843, 0.1804]],
#
#         [[0.1451, 0.1490, 0.1451,  ..., 0.8863, 0.8824, 0.8824],
#          [0.1569, 0.1608, 0.1608,  ..., 0.8863, 0.8863, 0.8824],
#          [0.1255, 0.1333, 0.1412,  ..., 0.8902, 0.8863, 0.8863],
#          ...,
#          [0.1882, 0.2431, 0.2549,  ..., 0.2863, 0.2824, 0.2863],
#          [0.1961, 0.2471, 0.2588,  ..., 0.2902, 0.2941, 0.2980],
#          [0.1922, 0.2392, 0.2431,  ..., 0.3098, 0.3059, 0.3020]]]),
# 0)
data_val[500]
#(tensor([[[0.4471, 0.4196, 0.4196,  ..., 0.0627, 0.0392, 0.0314],
#          [0.3882, 0.3843, 0.4039,  ..., 0.0588, 0.0863, 0.1020],
#          [0.4157, 0.3843, 0.3725,  ..., 0.1647, 0.1922, 0.2078],
#          ...,
#          [0.4078, 0.3961, 0.4235,  ..., 0.2392, 0.2235, 0.2667],
#          [0.3961, 0.3922, 0.4275,  ..., 0.2549, 0.2588, 0.2549],
#          [0.3922, 0.3922, 0.4314,  ..., 0.2431, 0.2784, 0.2549]],
#
#         [[0.2588, 0.2353, 0.2353,  ..., 0.0549, 0.0314, 0.0235],
#          [0.1490, 0.1451, 0.1725,  ..., 0.0510, 0.0784, 0.0941],
#          [0.0941, 0.0784, 0.0706,  ..., 0.1569, 0.1843, 0.2000],
#          ...,
#          [0.2824, 0.2706, 0.2980,  ..., 0.1843, 0.1686, 0.2118],
#          [0.2706, 0.2667, 0.2941,  ..., 0.2000, 0.2039, 0.2000],
#          [0.2667, 0.2667, 0.2980,  ..., 0.1882, 0.2235, 0.2000]]]),
# 1)
#此时标签会自动标注为0和1
#循环代码别在data_train上运行，时间会爆炸
for x,y in data_val:
    print(y)
    #break
#每个类别的验证集的大小都是300，因此两个类别就是共600个样本
check_ = 0
for x,y in data_val:
    check_+=y
check_
#300

很遗憾的是，ImageNet数据集并不能使用pytorch中的datasets下的类来直接调用（能够被pytorch直接调用的都是tar.gz格式文件，或tar.gz解压后的文件），而VOC不能作为识别数据被使用，因此希望调用竞赛数据来完成分类任务则需要更多的技巧。在《一、2 使用自己的数据/图片创造数据集》中，我们将使用ImageNet和LSUN数据集来说明，如何将压缩文件/数据库文件中的图片导出为四维tensor。同时，VOC数据集的导入（识别和检测数据的导入）会在本课下半部分、讲解具体识别和检测任务的时候说明。

事实上，如果没有GPU计算资源的话，我不推荐大家使用ImageNet。虽然比起LSUN和VOC，
ImageNet含有更丰富的数据，只要我们有足够的硬盘空间，我们都可以下载或导入它，但在没有较大GPU支持的情况下，我们很难对这个数据进行适当的训练（proper training）。在没有GPU时，个人电脑的显存大多只有4G，在有GPU的情况下，显存可以达到8G或16G，但这和150G、200G的数据集比起来都不算什么。要训练ImageNet，我们必须使用非常小的batch_size，但batch_size过小又会延长训练完成一个epochs的时间。如果训练一个ImageNet需要20个小时，那我们就基本没有任何“学习体验”可言了。因此，如果我们要使用ImageNet数据集，我强烈建议大家使用Colab等线上平台的大型GPU。

1.3 景物、人脸、通用、其他

如果入门数据太简单，竞赛数据又太大该怎么办呢？难道就没有尺寸适中，又非常适合初学者练习和试验的数据集吗？当然有。除了竞赛数据和入门数据，我们还有不少通用的数据集，比如：

部分数据集的样例如下所示：
【CelebA】
【CIFAR10 & CIFAR100】

【STL-10】

【Cityscapes】

【Place365】
在课程中，我准备了celebA、CIFAR、sbu、sbd四种数据，在图像识别中我们比较常用的是CIFAR。以CIFAR为例，我们来调用一下这个数据集。我的根目录如下：

CIFAR文件夹内部为解压状态：

#import torch, torchvision
#import torchvision.transforms as transforms
#import matplotlib.pyplot as plt
#import numpy as np

#CIFAR10
#注意我的根目录到了哪一层
data = torchvision.datasets.CIFAR10(root = "/Users/zhucan/Desktop/cifar"
                                   ,train=True
                                   ,download=False
                                   ,transform = transforms.ToTensor()
                                   )
#非常规整而且完整的数据集
#几乎就是彩图版MNIST
data[0][0].shape
#torch.Size([3, 32, 32])
for x,y in data:
    print(x,y)
    break
#tensor([[[0.2314, 0.1686, 0.1961,  ..., 0.6196, 0.5961, 0.5804],
#         [0.0627, 0.0000, 0.0706,  ..., 0.4824, 0.4667, 0.4784],
#         [0.0980, 0.0627, 0.1922,  ..., 0.4627, 0.4706, 0.4275],
#         ...,
#         [0.8157, 0.7882, 0.7765,  ..., 0.6275, 0.2196, 0.2078],
#         [0.7059, 0.6784, 0.7294,  ..., 0.7216, 0.3804, 0.3255],
#         [0.6941, 0.6588, 0.7020,  ..., 0.8471, 0.5922, 0.4824]],
#
#        [[0.2431, 0.1804, 0.1882,  ..., 0.5176, 0.4902, 0.4863],
#         [0.0784, 0.0000, 0.0314,  ..., 0.3451, 0.3255, 0.3412],
#         [0.0941, 0.0275, 0.1059,  ..., 0.3294, 0.3294, 0.2863],
#         ...,
#         [0.6667, 0.6000, 0.6314,  ..., 0.5216, 0.1216, 0.1333],
#         [0.5451, 0.4824, 0.5647,  ..., 0.5804, 0.2431, 0.2078],
#         [0.5647, 0.5059, 0.5569,  ..., 0.7216, 0.4627, 0.3608]],
#
#        [[0.2471, 0.1765, 0.1686,  ..., 0.4235, 0.4000, 0.4039],
#         [0.0784, 0.0000, 0.0000,  ..., 0.2157, 0.1961, 0.2235],
#         [0.0824, 0.0000, 0.0314,  ..., 0.1961, 0.1961, 0.1647],
#         ...,
#         [0.3765, 0.1333, 0.1020,  ..., 0.2745, 0.0275, 0.0784],
#         [0.3765, 0.1647, 0.1176,  ..., 0.3686, 0.1333, 0.1333],
#         [0.4549, 0.3686, 0.3412,  ..., 0.5490, 0.3294, 0.2824]]]) 6
data.data.shape
#(50000, 32, 32, 3)
data.classes
#['airplane',
# 'automobile',
# 'bird',
# 'cat',
# 'deer',
# 'dog',
# 'frog',
# 'horse',
# 'ship',
# 'truck']
np.unique(data.targets)
#array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
data_test = torchvision.datasets.CIFAR10(root = "/Users/zhucan/Desktop/cifar"
                                   ,train=False
                                   ,download=False
                                   ,transform = transforms.ToTensor())
data_test
#Dataset CIFAR10
#    Number of datapoints: 10000
#    Root location: F:\datasets3\cifar
#    Split: Test
#    StandardTransform
#Transform: ToTensor()
plotsample(data)

#CIFAR100

data100 = torchvision.datasets.CIFAR100(root = "/Users/zhucan/Desktop/cifar"
                                   ,train=True
                                   ,download=False
                                   ,transform = transforms.ToTensor())
data100
#Dataset CIFAR100
#    Number of datapoints: 50000
#    Root location: F:\datasets3\cifar
#    Split: Train
#    StandardTransform
#Transform: ToTensor()
data100.classes
#['apple',
# 'aquarium_fish',
# 'baby',
# 'bear',
#
# 'willow_tree',
# 'wolf',
# 'woman',
# 'worm']
np.unique(data100.targets)
#array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
#       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
#       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
#       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
#       68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84,
#       85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99])
plotsample(data100)

SBU和SBD数据也可以使用torchvision.datasets进行读取，大家可以尝试自己读读看。不过注意他们都不能被用于图像识别任务。

对于学习资料中没有提供的数据文件，我们可以去哪里找呢？首先，我并不推荐使用pytorch当中自带的download功能，考虑到图像数据集的尺寸都不小，并且pytorch官方的下载功能通常速度较慢（实际上，我消耗了3天时间才将只有3G的SBU数据集下载下来），还十分容易出现超时的问题。因此，能够不使用download参数就不使用download参数。

如下图所示，对于PyTorch中带有的数据集，我们可以从数据说明中找到这个数据集的官方网站或原始地址。进入该原始地址后，我们大部分时候都可以找到数据的下载渠道。当然，通过原始地址下载的数据很有可能不能使用torchvision.datasets来进行读取，但我们也不妨一试。当你下载好的数据无法被读取时，可以尝试更换目录、解压下载文件等方式，或许可以被读取成功。
在dataset、dataset2、dataset3和dataset4四个文件夹中，分别存在不同的便于下载的数据集。这些数据集都很巨大，你必须下载和使用的数据都在dataset4中，其他文件夹中的内容你可以按需下载。在下一节中，我们将仔细来说明如何读取已经存在的、下载好的数据文件。无论数据文件是什么格式，我们都能够采用一定的方法将其处理成四维张量格式，从而让数据能够被输入卷积神经网络当中。

你可能感兴趣的:(深度学习——PyTorch,cv)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
C# 禁止程序重复启动 wiseyao1219 c#
修改：Program.cs[STAThread]staticvoidMain(){Mutexmutex=newMutex(true,"NewGuid123456",outboolisCreatedNew);if(!isCreatedNew){MessageBox.Show(Application.ProductName+"isrunning...");return;}Application.Ena
2018-08-16【Swift 4.1】关于Swift4.0以后调用MJExtension无法模型转换问题码农happy
1、本人使用swift4.1，弄了一晚上才弄好，结果还是一个小问题真是尴尬，要在model中每个属性前面加上@objcimportUIKitclassUserModel:NSObject{@objcvardix=String()}letdic=["dix":"ffffff"]asNSDictionaryletmodel=UserModel.mj_object(withKeyValues:dic)!
python图像匹配_opencvpython中的图像匹配 weixin_39585675 python图像匹配
我一直在做一个项目，用opencvpython识别相机中显示的标志。我已经尝试过使用surf、颜色直方图匹配和模板匹配。但在这3个问题中，它并不总是返回正确的答案。我现在想要的是，解决我这个问题的最好办法是什么。模板图像示例：以下是摄像头中显示的标志示例。如果这是我想要识别的图像，该怎么用？在更新matchTemplate中的代码flags=["Cambodia.jpg","Laos.jpg","
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s