小段学长

吸烟行为检测图像数据集的采集与标注

(1) 人工智能领域网络公开的标注测试图像数据集介绍

① MNIST

MNIST是一个入门级的计算机视觉数据集，官网给定的数据集分为四个文件，分别是训练及图像和训练集标签、测试集图像和测试集标签。每一个MNIST数据单元有两部分组成：一张包含手写数字的图片和一个对应的标签。训练集有60000行数据，测试集有10000行数据，MNIST数据集的标签是介于0到9的数字，标签数据为One-Hot向量（One-Hot编码，即独热编码，其方法是使用 N位状态寄存器来对 N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。）

② ImageNet

ImageNet是一个用于视觉对象识别软件研究的大型可视化数据库，用于图片识别物体。它由美国斯坦福的计算机科学家李飞飞模拟人类的识别系统建立的。目前已经包含14197122张图像，是已知的最大的图像数据库。ImageNet包含2万多个类别，每个类别中包含至少五百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得。ImageNet就像一个网络一样，拥有多个Node（节点）。每一个node相当于一个item或者subcategory。ImageNet的结构基本上是金字塔型：目录→子目录→图片集。

③ PASCAL VOC

PASCAL VOC数据集是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。常用于目标检测、图像分割等任务。PASCAL VOC从2005年开始举办挑战赛，每年的内容都有所不同，从最开始的分类，到后面逐渐增加检测，分割，人体布局，动作识别等内容，数据集的容量以及种类也在不断的增加和改善。发展到目前为止，该数据集共有4个大类：Vehicle，Household，Animal，Person；每个大类细分为不同的小类，小类共计20类。
对于现在的研究者来说比较重要的两个年份的数据集是 PASCAL VOC 2007与PASCAL VOC 2012。VOC 2007的一些示例图片展示：Classification/detection example images。VOC 2012的一些示例图片展示：Classification/detection example images。VOC 2007与VOC 2012的数据集及二者的并集数据量对比如下图：

图1 VOC 2007与VOC 2012的数据集对比
黑色字体所示数字是官方给定的，由于VOC2012数据集中 test 部分没有公布，因此红色字体所示数字为估计数据，按照PASCAL 通常的划分方法，即 train+val 与test 各占总数据量的一半。

④ MS COCO

COCO的全称是Common Objects in Context，是微软团队提供的一个可以用来进行图像识别的数据集。它包括了目标检测、分割、图像描述等。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。图像包91类目标（stuff categories），328,000影像和2,500,000个label。目前为止有语义分割的最大数据集，提供的类别有80类（object categories），有超过33万张图片，其中20万张有标注，整个数据集中个体的数目超过150万个。COCO有5种类型的标注，分别是：物体检测、关键点检测、实例分割、全景分割、图片标注，都是对应一个JSON文件。

⑤ LFW（Labeled Faces in the Wild）

LFW (Labeled Faces in the Wild) 人脸数据库是由美国马萨诸塞州立大学阿默斯特分校计算机视觉实验室整理完成的数据库，主要用来研究非受限自然场景情况下的人脸识别问题。LFW 数据库主要是从互联网上搜集图像，包含了13233张来自5749个人的人脸图片，其中有1680个人至少有2张图片。根据官方声明，LFW的数据量不够大，许多群体在其中没有得到良好体现，如：其中，80岁以上的老人和儿童数量很少，没有婴儿，女性比例较低，且有许多种族的样本稀有或没有。除此之外，LFW是‘in the wild’的，所以有许多不理想的因素，如照明条件差、姿势极端、遮挡严重、分辨率低等。

⑥ FDDB（Face Detection Data Set and Benchmark）

FDDB数据集主要用于约束人脸检测研究，该数据集选取野外环境中拍摄的2845个图像，包含彩色以及灰度图，从中选择5171个人脸图像。这些人脸所呈现的状态多样，包括遮挡、罕见姿态、低分辨率以及失焦的情况。因此是一款专门针对人脸识别算法的评测方法与标准被广泛使用的权威的人脸检测。
表1 常见图像数据集汇总

(2) 常用图像数据标注软件介绍

① Labelme

Labelme 是一个图形界面的图像标注软件。用 Python 语言编写，图形界面使用的是Qt（PyQt）。可以对图像进行多边形，矩形，圆形，多段线，线段，点形式的标注，可用于目标检测，图像分割，等任务；也可对图像或视频进行进行flag形式的标注，用于图像分类和清理任务。

② VoTT

VoTT是微软发布的用于图像目标检测的标注工具，它是基于javascript开发的，因此可以跨Windows、Linux和Mac平台运行，并且支持从图片和视频读取标注。此外，其还提供了基于CNTK训练的faster-rcnn模型进行自动标注然后人工矫正的方式，这样大大减轻了标注所需的工作量。

③ CVAT

Opencv组织出品的一个非常优秀的在线图像标注系统。该系统非常贴心地提供了半自动标注功能，基于tensorflow实现，在官方的demo系统中使用bfaster rcnn模型进行了自动标注，同时cvat支持非常多种的数据导出方案，十分的方便。

④ LabelImg

LabelImg 是一个可视化的图像标定工具。Faster R-CNN，YOLO，SSD等目标检测网络所需要的数据集，均需要借此工具标定图像中的目标。生成的 XML 文件是遵循 PASCAL VOC 的格式的。使用labelImg时要注意更改源图片目录以及打完label后的xml文件存储路径。即打开LabelImg之后，点击Open Dir，选中源图片目录。点击Change Save Dir，选中保存xml文件的文件夹。我的源图片路径是在JPEGImages文件夹中，xml存储路径是Annotations文件夹中。
(3) 吸烟行为检测图像数据集的采集与标注
采集形式：利用python爬虫爬取网络图片、实地拍摄
途径：拍摄附近抽烟人士
设备： HUAIWEI P30
时间： 2022年3月17日
地点：宿舍
注意事项：征求他人同意后拍摄

(1) 常见图像数据集的读取与显示

① MNIST

from keras.datasets import mnist
import matplotlib.pyplot as plt
#加载数据集
(train_images,train_labels),(test_images,test_labels) = mnist.load_data()
print(train_images.shape,test_images.shape)
print(train_images[1])
print(train_labels[1])
plt.imshow(train_images[1])
plt.show()

图2.1 MNIST数据读取结果

图2.2 MNIST图像显示示例

② CIFAR-10

from keras.datasets import cifar10
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = cifar10.load_data()
print(train_images.shape,test_images.shape)
print(train_images[1])
print(train_labels[1])
plt.imshow(train_images[1])
plt.show()

图3.1 CIFAR-10数据读取结果

图3.2 CIFAR-10图像显示示例

③ CIFAR-100

from keras.datasets import cifar100
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = cifar100.load_data()
print(train_images.shape,test_images.shape)
print(train_images[2])
print(train_labels[2])
plt.imshow(train_images[2])
plt.show()

图4.1 CIFAR-100数据读取结果

图4.2 CIFAR-100图像显示示例

④ fashion mnist

from keras.datasets import fashion_mnist
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = fashion_mnist.load_data()
print(train_images.shape,test_images.shape)
print(train_images[1])
print(train_labels[1])
plt.imshow(train_images[1])
plt.show()

图5.1 FASHION MNIST数据读取结果

图5.2 FASHION MNIST图像显示示例

⑤ Olivett

from sklearn import datasets
import matplotlib.pyplot as plt

faces = datasets.fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0, download_if_missing=True)

i = 0
plt.figure(figsize=(20, 20))
for img in faces.images:
    #总共400张图，把图像分割成20X20
    plt.subplot(20, 20, i+1)
    plt.imshow(img, cmap="gray")
    #关闭x，y轴显示
    plt.xticks([])
    plt.yticks([])
    plt.xlabel(faces.target[i])
    i = i + 1
plt.show()

图6 Olivett脸部图片数据集结果显示

⑥ LFW

from sklearn.datasets import fetch_lfw_people

faces = fetch_lfw_people()
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 8))
for i in range(64):
    img = faces.images[i]
    #总共400张图，把图像分割成20X20
    plt.subplot(8, 8, i+1)
    plt.imshow(img, cmap="gray")
    #关闭x，y轴显示
    plt.xticks([])
    plt.yticks([])
    plt.xlabel(faces.target[i])
    i = i + 1
plt.show()

图7 LFW人脸匹配数据集结果显示

(2) 吸烟行为检测图像数据集的网络爬虫

'''
爬取指定关键字图片
'''
import re# 正则表达式，解析网页
import requests# 请求网页
import traceback
import os
 
def dowmloadPic(html,keyword,startNum):
    headers = {'user-agent':'Mozilla/5.0'}   # 浏览器伪装，因为有的网站会反爬虫，通过该headers可以伪装成浏览器访问，否则user-agent中的代理信息为python
    pic_url = re.findall('"objURL":"(.*?)",',html,re.S)   # 找到符合正则规则的目标网站
    i = startNum
subroot = root + '/' + word

for each in pic_url:
        path = subroot + '/' + str(i+1)
        try:
            if not os.path.exists(subroot):
                os.mkdir(subroot)
            if not os.path.exists(path):
              pic = requests.get(each,headers = headers,timeout = 10)
                with open(path+'.jpg','wb') as f:
                    f.write(pic.content)
                    f.close()        
        except:
            traceback.print_exc()
            print ('当前图片无法下载')
            continue
        i += 1
return i
	
 if __name__ == '__main__':
    
    headers = {'user-agent':'Mozilla/5.0'}
    words = ['吸烟']   #words为一个列表，可以自动保存多个关键字的图片
    root = '有关'
    for word in words:
        root = root + ' “' + word + '” '
    root += '的图片'
    if not os.path.exists(root):
        os.mkdir(root)
    for word in words:
        lastNum = 0
        if word.strip() == "exit":
            break
        pageId = 0
#此处的参数为需爬取的页数，设置为2页
        for i in range(3):
            url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + "&pn="+str(pageId)+"&gsm=?&ct=&ic=0&lm=-1&width=0&height=0"
            pageId += 15#好像没啥影响
            html = requests.get(url,headers = headers)
            # print(html.text) #打印网页源码，相当于在网页中右键查看源码内容
            lastNum = dowmloadPic(html.text, word, lastNum,)#本条语句执行一次获取60张图
            print('正在下载中，请稍后...')

图8 吸烟图片爬取结果显示

(3) 吸烟行为检测图像数据集的标注

① 在labelImg中打开图像所在的文件夹；

图9.1 打开图像所在文件夹

② 改变图像标注后的保存路径；

图9.2 改变图像标注后的保存路径

③ 将图像标注并分类保存；

图9.3 图片标注并分类保存


<annotation verified="yes">
	<folder>吸烟folder>
	<filename>181.jpgfilename>
	<path>E:\Desktop\人工智能导论\吸烟\181.jpgpath>
	<source>
		<database>Unknowndatabase>
	source>
	<size>
		<width>1440width>
		<height>1920height>
		<depth>3depth>
	size>
	<segmented>0segmented>
	<object>
		<name>吸烟name>
		<pose>Unspecifiedpose>
		<truncated>1truncated>
		<difficult>0difficult>
		<bndbox>
			<xmin>1xmin>
			<ymin>751ymin>
			<xmax>236xmax>
			<ymax>1020ymax>
		bndbox>
	object>
annotation>

(1) 安装labelImg后Anaconda中的Spyder无法打开
解决方法：由于labelImg与Spyder所需的PyQt依赖的版本不同，所以安装labelImg时需要新建虚拟环境，以此来保证PyQt的版本不同。
(2) 使用conda install labelImg命令安装好labelImg之后，输入labelImg命令无法打开labelImg
解决方法：labelImg安装好后，仅有一个labelImg.py文件，所以需要进入到安装的目录中才能打开labelImg，例如：
(base) E:>conda activate deepLearning

(deepLearning) E:>cd D:\Anaconda\envs\deepLearning
Lib\site-packages\labelImg

(deepLearning) D:\Anaconda\envs\deepLearning\Lib
site-packages\labelImg>labelImg

结果分析与体会

当前人工智能发展的三大要素：数据、计算力和算法，知道数据集、计算力和算法是相辅相成、相互提升的，三者缺一不可。数据是基础，任何研究都离不开数据，除了数据之外，计算能力也非常关键。深度学习算法之所以可以兴起，一方面是大规模数据的出现，另一方面得益于高性能计算，可以让庞大的模型能够被很好的拟合。在学界，数据集的意义更加直接：没有数据集，就无法展开相应的研究工作。所以在确定研究课题后，最为首要的任务就是获得相应的数据集，通常有这样几种方案：第一、确定特定研究方向后，在网络上查找是否有公开、共享的数据集；第二、如果该研究方向当前没有公开数据集或者公开数据集不适合自己的具体研究问题，那就可能需要亲自去创建新的数据集。在这次实验中我们就使用了第一种方法，在网上寻找公开的、可共享的数据。
数据标注分类分为三类：图像标注、语音标注和文本标注。图片标注的场景目前应用还是非常广的，主要的标注方法有，点标、框标、区域标注、3D标注、分类标注等等，应用场景如安防、教育、自动驾驶等等也非常多，目前落地比较成熟的要数人脸识别了，不管是在做一些身份识别验证还是出门做地铁、高铁都有可能用到。语音应答交互也是目前重要的分支，所以在此类语音虚拟助理的研发中，基于语音识别、声纹识别、语音合成等建模与测试需要，需要对数据进行发音人角色标注、环境场景标注、多语种标注、ToBBI（Tones and Break Indices）韵律标注、体系标注、情感标注、噪声标注等。自然语音处理是人工智能的分支科学，为了满足自然语音处理不同层次的需求，对于文本数据进行标注处理是关键环节。具体而言，通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字字符标注等，可提供高准确率的文本预料。
数据部分包含数据收集、数据标注、标注测试、数据样本库和数据处理等步骤。包含两个环，一个是从数据处理接入到模型训练测试后返回数据标注的环，该环表示模型训练测试后对于失败样例重新对数据进行标注后对模型优化的循环过程；另一个是在生产服务系统中，真实场景数据回流，通过该方式可以有效的解决线上数据特征漂移的问题。数据收集指训练数据从哪里来，主要包括4种来源：公开数据集、数据采购或采集、数据回流以及生成数据。
数据筛选是指从收集到的数据中筛选或清洗掉不合格的数据，留下有效数据。在实际生产系统运行时源源不断的回流数据需要合理有效的方法去利用。通过这种方法希望可以做到通用清洗能力(默认对图像)：去相似，去模糊，裁剪，旋转，镜像以及高级清洗能力比如根据任务过滤，人脸数据集则自动过滤无人脸图片，人体数据集则过滤无人体图片。
数据标注：在对比标注工具时，重点关注的是对多人协同功能的支持，以及一些基础的标注功能的实现。使用Computer Vision Annotation Tool（CVAT）工具来完成这种对这部分的完成。工具能实现多种任务标注支持，分割、分类、跟踪。支持矩形、多边形、多段线、点、长方体、Tag等功能。CVAT具有支持多人协作、能用于几乎所有CV相关标注任务、支持导入模型，进行半自动标注的优点。
数据质检：对数据进行质量检测，通过提供客观指标，为对数据集的下一步操作（标注、训练等）进行参照引导。有两种指标：整体指标和分布指标，整体指标包括：数据集存储大小、图片数量、破损图像数、标签合格率；分布指标包括：色彩分布空间、图像存储大小分布、高宽比分布、分辨率分布、色偏分布、标注框宽高比分布、标注框面积分布等等。数据质检是为了客观评估数据质量。对于数据标签标注质量可以选择通过CVAT查看成员的标注结果，但是量化评估数据的各项指标暂无开源工具。
数据版本管理：对数据集的增加、修改、删除、格式转换、发布等等操作进行跟踪和版本管理。为了实现方便，操作简单，复现简单的目标，数据版本管理可以使用DVC（Data Verion Control）工具实现，这是一个数据和机器学习模型实验管理工具，底层是基于Git实现的，但相对于Git，DVC的优点是能够跟踪和存储大文件（数据和模型权重文件），而这也是它能够支持数据集版本管理的基础。支持的存储方式包括本地、Amazon S3, SSH, Google Drive，Azure Blob Storage 和 HDFS等。所以说，用DVC管理数据集过程和共享方式基本与用Git管理代码的过程一样。DVC 仅支持到模型训练测试这一步，对于部署相关功能并不支持。选择DVC的原因是因为：第一，DVC支持对大文件跟踪。第二，DVC支持跟踪对数据做的操作，比如过滤、转换或用于训练模型，跟踪整个操作流，复现很方便。DVC同样支持模型管理，但与MLflow相比，DVC有如下缺点：第一、多人协同：没有一个统一的界面管理多人模型，如何管理多人的模型，并显示模型的开发阶段（比如实验中，已发布，撤回等等）第二、部署支持：DVC 不涉及部署相关的任何支持。第三、环境依赖：MLflow提供了对环境依赖的打包，方便一键复现，而DVC不支持。
数据是人工智能算法发展的基础，“没有免费的午餐”是学界公认的道理，任何算法都不能脱离数据或者应用场景来谈效果的好坏。对于做算法的小伙伴来说，虽然在研究算法的创新，但是如何选择和利用数据集是研究的基础，再优秀的算法也要通过数据来评估它的效果。算法的最终目的是要拟合这种趋势或者分布，不同的数据集的特征分布是不同的，甚至同一个数据集划分方式和比例的不同都也会使得特征的分布存在差异，因此找到合适的数据并做好适当的预处理，可以更加体现算法的能力，使得研究更具说服力。目前机器学习的数据集种类包含图像数据，时序数据，离散数据等，而不同数据集对应的任务可以分类、回归或者两者兼顾。那么我们在研究过程中选择数据集除了一些如 MNIST 等经典数据集外，还需要根据自身模型特点选择具有相应特征的数据。另外，数据集的大小也是需要考虑的一个因素。一般来讲，一些经典的早期的数据集包含的数据量都比较少，更适合小规模的模型。而近年来随着算力的增强和大数据技术的普及，近年的数据集普遍会包含更多的数据，大规模数据集所包含的数据加全面，模型训练的效果会更好，但是同样在训练中也会相对更加耗时。因此选择数据集还是需要根据自己的需要来选择，比较经典的数据集网站可以参考 UCI 数据集（archive.ics.uci.edu/ml/），或者从 kaggle 上找一些需要的数据集。如果选择开源的数据集作为研究基础，那么就会面临两个问题：一、数据集如何预处理来适应研究。二、数据集中的数据如何分割。开源的数据集往往是作者根据当时的研究需求而构建的数据集，数据的特征可能并不严格符合当前研究的要求，那么我们可能就需要做一些格式转换，或者特征填充。例如我们需要对城市的出租车活动的范围进行统计，但是以 Roma/taxi 为例，数据集中所包含的地点是以经纬度坐标来体现的，如果需要经纬度对应的区域信息，可以通过 google map 的反向请求进行爬虫（当然需要一定的反爬虫机制）来补充相关的信息。另外一个例子是当需要对一些视频数据进行分类时，我们往往需要通过 OpenCV 等框架对其进行动作提取等操作，最终转化为分类模型所能识别的时序数据。因此，开源数据集虽然可以节省一些我们打造数据集的工作，但是也不是可以“拿来主义”的，仍然需要我们花很多功夫去研究才能加以利用。当然，一些行业熟悉的开源数据集不仅是大家公认的平均算法的标准，并且可以在 Github 上找到很多相应的处理方法，这样也可以节省很多时间。
做数据集一般有两种动机。一种是为了research，也就是为了造福广大研究人员以及推动领域的进步；另一种，就是为了使用数据驱动的方法来优化业务指标，或解决项目中实实在在存在的问题。对数据集高质量的定义是相近的，那就是：解决问题！只不过，对后一种目的来说，问题一般来源于线上系统。一般来说，在做数据集之前一般已经存在一套系统了(为了让系统冷启动，一般先开发一套规则驱动的系统)，系统上线后自然会产生日志，分析其中的badcase便可以知道哪些问题是现有系统搞不定的，这些问题就可以考虑使用数据驱动的方法来解决，于是需要做数据集了。而解决这些问题就是你做数据集的第一目标啦。而对于前一种目的来说，问题一般来源于学术界的研究现状。现阶段的NLP研究多为数据驱动的，甚至说数据集驱动的。虽然这不是一个好现象，不过也不得不承认很大程度上推动了NLP的发展和研究热潮。当现有的数据集无法cover领域痛点，或无法发挥数学工具潜力，或已经被解决掉的时候，就需要一个新的数据集，更确切的说是新的benchmark了。对数据集质量产生第二关键影响的就是数据和标签来源的选择。对数据集质量产生第二关键影响的就是数据和标签来源的选择了。其中数据可以通过人工构造、撰写的方式来产生，也可以从互联网上爬取或对公开数据集进行二次加工得到;标签同样可以人工标注，也可以远程监督的方式来获取。
无论是人工标注的还是远程监督标注的，数据集看起来做好了不代表就是可用的，如果标注的噪声太大或者标签边界太过模糊(大量标注错误，或标注规则写的太松、太模糊，导致人都分不清某几个类别之间的区别)，很可能再复杂的模型都在这份数据集上无法收敛；反之，如果数据集中有“标签泄漏”或标签与内容有非常直接的映射关系，那就会导致一个非常简单的模型都会轻易的把这个数据集刷到近乎满分，那这个模型学到的知识基本是没有什么实际意义的，换言之，这么简单直接的任务其实几条规则几行代码就搞定了，完全没必要做数据驱动的模型训练。

附完整代码

吸烟图片爬虫.py

'''
爬取指定关键字图片
'''
import re# 正则表达式，解析网页
import requests# 请求网页
import traceback
import os
 
def dowmloadPic(html,keyword,startNum):
    headers = {'user-agent':'Mozilla/5.0'}# 浏览器伪装，因为有的网站会反爬虫，通过该headers可以伪装成浏览器访问，否则user-agent中的代理信息为python
    pic_url = re.findall('"objURL":"(.*?)",',html,re.S)# 找到符合正则规则的目标网站
    i = startNum
    subroot = root + '/' + word
    
    for each in pic_url:
        path = subroot + '/' + str(i+1)
        try:
            if not os.path.exists(subroot):
                os.mkdir(subroot)
            if not os.path.exists(path):
                pic = requests.get(each,headers = headers,timeout = 10)
                with open(path+'.jpg','wb') as f:
                    f.write(pic.content)
                    f.close()        
        except:
            traceback.print_exc()
            print ('【错误】当前图片无法下载')
            continue
        i += 1
    return i
 
if __name__ == '__main__':
    
    headers = {'user-agent':'Mozilla/5.0'}
    words = ['吸烟']
    #words为一个列表，可以自动保存多个关键字的图片
    root = '有关'
    for word in words:
        root = root + ' “' + word + '” '
    root += '的图片'
    if not os.path.exists(root):
        os.mkdir(root)
    for word in words:
        lastNum = 0
        if word.strip() == "exit":
            break
        pageId = 0
        #此处的参数为需爬取的页数，设置为2页
        for i in range(3):
            url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + "&pn="+str(pageId)+"&gsm=?&ct=&ic=0&lm=-1&width=0&height=0"
            pageId += 15#好像没啥影响
            html = requests.get(url,headers = headers)
            # print(html.text) #打印网页源码，相当于在网页中右键查看源码内容
            lastNum = dowmloadPic(html.text, word, lastNum,)#本条语句执行一次获取60张图
            print('正在下载中，请稍后...')

mnist.py

from keras.datasets import mnist
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = mnist.load_data()
print(train_images.shape,test_images.shape)
print(train_images[1])
print(train_labels[1])
plt.imshow(train_images[1])
plt.show()

LFW.py

from sklearn.datasets import fetch_lfw_people

faces = fetch_lfw_people()
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 8))
for i in range(64):
    img = faces.images[i]
    #总共400张图，把图像分割成20X20
    plt.subplot(8, 8, i+1)
    plt.imshow(img, cmap="gray")
    #关闭x，y轴显示
    plt.xticks([])
    plt.yticks([])
    plt.xlabel(faces.target[i])
    i = i + 1
plt.show()

fashion mnist.py

from keras.datasets import fashion_mnist
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = fashion_mnist.load_data()
print(train_images.shape,test_images.shape)
print(train_images[1])
print(train_labels[1])
plt.imshow(train_images[1])
plt.show()

face.py

from sklearn import datasets
import matplotlib.pyplot as plt

faces = datasets.fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0, download_if_missing=True)

i = 0
plt.figure(figsize=(20, 20))
for img in faces.images:
    #总共400张图，把图像分割成20X20
    plt.subplot(20, 20, i+1)
    plt.imshow(img, cmap="gray")
    #关闭x，y轴显示
    plt.xticks([])
    plt.yticks([])
    plt.xlabel(faces.target[i])
    i = i + 1
plt.show()

cifar100.py

from keras.datasets import cifar100
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = cifar100.load_data()
print(train_images.shape,test_images.shape)
print(train_images[2])
print(train_labels[2])
plt.imshow(train_images[2])
plt.show()

cifar10.py

from keras.datasets import cifar10
import matplotlib.pyplot as plt

#加载数据集
(train_images,train_labels),(test_images,test_labels) = cifar10.load_data()
print(train_images.shape,test_images.shape)
print(train_images[1])
print(train_labels[1])
plt.imshow(train_images[1])
plt.show()

欢迎大家加我微信交流讨论（请备注csdn上添加）

你可能感兴趣的:(努力学习人工智能,学习笔记,人工智能,计算机视觉,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s