X_Imagine

PASCAL VOC 2012 数据集解析

目录

一、Introduction

Classification/Detection Competitions

Segmentation Competition

Action Classification Competition

ImageNet Large Scale Visual Recognition Competition

Person Layout Taster Competition

二、Data

三、VOC2012 VS. VOC2011

四、Development Kit

五、Test Data

六、分割数据集

1、VOC2012

2、SBD

3、如何得到训练集10582？

4、语义分割训练数据制作

七、参考资源

一、Introduction

该数据集的主要目的是建立针对实际场景中的视觉目标进行识别的挑战任务。基于标注的图像数据，它是基本的有监督学习问题。数据集中总共有20类目标需要识别：

Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

基于上述数据集，有三项视觉目标识别任务：分类（classification），检测（detection），分割（segmentation）。 ImageNet提供了另外一个大规模目标识别数据集，主要用于分类任务。此外，还有一个 Person Layout Taster 数据集，主要识别人体的头、手、脚的位置。

Classification/Detection Competitions

Classification: 给定一张测试图片，判别其中每一个目标所属类别，类别必须属于20类之一；
Detection: 给定测试图片，预测图片中每一个目标的 bounding box（位置） and label（类别）；

参赛者可以选择上述的任意一种挑战任务，处理任意类或者全部类目标，该挑战可以允许两类方法：

除了测试集，参赛者可以使用任意的方法和数据建立或者训练系统，目的是为了评估当前算法能够达到的基本水平；
使用官方提供的训练和验证集建立系统，目的是为了评测不同算法的性能；

Segmentation Competition

Segmentation: 给出图片中每一个像素所属的类别，否则就是背景类。

Action Classification Competition

Action Classification: 判定静态图片中人的活动类别，总共10类。

ImageNet Large Scale Visual Recognition Competition

参考ImageNet官网：http://www.image-net.org/challenges/LSVRC/2012/index

Person Layout Taster Competition

Person Layout: 预测人体部位的矩形框位置，主要是头，手，脚。

二、Data

To download the training/validation data, see the Development Kit section.

目标检测中的每一张图片标注信息包括：bounding box and object class label. 需要注意的是，一张图片中可能包含属于多个类别的多个目标。标注的相关规则和注意的细节，参考 guidelines.
原始数据中的一部分图像被标注为像素级分割标签，每一个像素都标注了所属类别，提供了语义分割的竞赛挑战数据集。
用于动作分类任务的数据集与 classification/detection/segmentation tasks 的数据集是分开的。其中一部分被标注为people、bounding box、reference points and their actions. 标注规则和细节，参考guidelines。
用于person layout taster的图像，测试集从主任务中分开，额外的标注了人的每一部分，主要是 head/hands/feet.
数据分为两个阶段提供，1、Development Kit 会更新训练集和验证集，以及评估软件（MATLAB）。验证集的目的是为了在提交到官方评测集之前，评估算法的性能。2、测试集用于实际的评估，在VOC2008-2011竞赛中，测试集没有真实标签。
数据被分为 training/validation and testing，每一部分数据量差不多，数据的详细分布，参考：Statistics.

三、VOC2012 VS. VOC2011

VOC2012数据集主要是为了增加分割（segmentation）和动作分类（action classification）数据集的数量，classification/detection tasks没有增加标注数据集。下面列举了VOC2012 和 VOC2011的差别：

Classification/Detection: 没有增加额外标注的数据。
Segmentation: 在 VOC2008-2011 的基础上，VOC2012 增加了标注数据，数量从7062增加到9993（有这么多？）.
Action Classification: 在VOC2011基础上，增加了额外的标注数据。为了弥补"boxless"的动作分类任务，除了标注 box annotation, 人的身体上被标注了参考点。具体可以参考（development kit）。
Person Layout Taster: 没有增加额外标注数据。

四、Development Kit

The development kit consists of the training/validation data, MATLAB code for reading the annotation data, support files, and example implementations for each competition.

The development kit is now available:

Download the training/validation data (2GB tar file)
Download the development kit code and documentation (500KB tar file)
Download the PDF documentation (500KB PDF)
Browse the HTML documentation
View the guidelines used for annotating the database (VOC2011)
View the action guidelines used for annotating the action task images

五、Test Data

The test data will be made available according to the challenge timetable. Note that the only annotation in the data is for the action task and layout taster. As in 2008-2011, there are no current plans to release full annotation - evaluation of results will be provided by the organizers.

The test data can be downloaded from the evaluation server. You can also use the evaluation server to evaluate your method on the test data.

六、分割数据集

在学习语义分割系列算法时，经常会看到下面的一段话：

The original dataset contains 1 , 464 ( train), 1 , 449 ( val), and 1 , 456 ( test) pixel-level labeled images for training, validation, and testing, respectively. The dataset is augmented by the extra annotations provided by [29], resulting in 10, 582 ( trainaug) training images.

如上所示，通常语义分割涉及两个数据集官方PASCAL VOC 2012 和 SBD，相应的下载链接如下：

VOC2012：VOCtrainval_11-May-2012.tar(~2GB)

SBD：benchmark.tgz(~1.3G)

1、VOC2012

下载的官方 VOCtrainval_11-May-2012.tar 解压后，目录结构如上图所示，该部分只介绍用于分割的数据集。

ImageSets：该目录下Segmentation文件夹总共有三个文件，train.txt：训练集名字列表，1464个文件，val.txt：验证集名字列表，1449个文件，trainval.txt：训练集和验证集的集合，2913个文件。

JPEGImages：所有的原始图片，17125个文件，部分示例图片如下右图所示。

SegmentationClass：所有的标签图，2913个文件，部分示例图片如下左图所示。

2、SBD

通常语义分割论文使用的 trainaug dataset 是SBD和官方VOC2012合并而来，其中SBD数据集分布：8498 (train)， 2857 (val)。

img：该目录包含了所有的原始图片，11355个JPG文件。

cls：该目录包含111355个mat标签文件，与img的JPG一一对应。每一个mat文件指定了类别和目标的边界，mat文件结构如下：
      - GTcls.Segmentation is a single 2D image containing the segmentation. Pixels that belong to
       category k have value k, pixels that do not belong to any category have value 0.
      - GTcls.Boundaries is a cell array. GTcls.Boundaries{k} contains the boundaries of the k-th category.
       These have been stored as sparse arrays to conserve space, so make sure you convert them to full arrays
       when you want to use them/visualize them, eg : full(GTcls.Boundaries{15})
      - GTcls.CategoriesPresent is a list of the categories that are present.

inst：该目录的每一个mat文件包含了像素级分割和边界标签，mat文件结构如下：
       - GTinst.Segmentation is a single 2D image containing the segmentation. Pixels belonging to the
       i-th instance have value i.
       - GTinst.Boundaries is a cell array. GTinst.Boundaries{i} contains the boundaries of the i-th instance.
       Again, these are sparse arrays.
       - GTinst.Categories is a vector with as many components as there are instances. GTinst.Categories(i) is
       the category label of the i-th instance.

3、如何得到增强训练集10582？

如上面陈述，通常 trainaug 的数量为10582，该数字获取方式如下：

VOC数据集分布：

voc_trainval：2913
voc_train：1464
voc_val：1449

SBD数据集分布：

sbd_train：8498
sbd_val：2857

通过对比其中图片文件名重合情况（具体如何比对，可以写代码或者直接文件复制粘贴），可以得到：
sbd_train(8498) = 和voc_train重复的图片(1133) + 和voc_val重复的图片(545) + sbd_train真正补充的图片(6820)
sbd_val(2857) = 和voc_train重复的图片(1) + 和voc_val重复的图片(558) + sbd_val真正补充的图片(2298)
所以可以得到的最大的扩充数据集应为：
12031张标注图 = voc_train(1464) + voc_val(1449) + sbd_train真正补充的图片(6820) + sbd_val真正补充的图片(2298)
用原来的voc_val(1449)作为验证集，剩下的12031-voc_val(1449)=10582都可以用作训练，就是trainaug(10582)。

4、语义分割训练数据制作

该部分主要介绍如何制作用于语义分割的训练数据制作，制作的基本流程如下：

VOC2012标签制作
SBD mat数据转图片
合并VOC和SBD，保存文件名 trainval.txt
根据原始图片，生成 tfrecord文件

（a）VOC2012 标签制作

下面左图为原始图片，中间的图是官方提供的标注图，参考 download_and_convert_voc2012.sh，可以将中间的图片处理为右边的图片。右图中，背景像素值为 0，人的区域像素值为 15（人属于第15类），飞机区域的像素值为 1（飞机为第1类）。

（b）SBD mat 数据转换

数据转换工具 Mat2PNG，可以将mat标签转为灰度图，具体命令为：

python mat2png.py $DATASETS/VOC_aug/dataset/cls $DATASETS/VOC_aug/dataset/cls_png

（c）合并数据集

参考（3、如何得到训练集10582？）中介绍，合并后的名字列表为trainval.txt，也可以从（b）中的链接中直接下载名字列表。

（d）生成TFRecord

参考TensorFlow官网代码 build_voc2012_data.py，可以生成相应的TFRecord文件。

七、参考资源

https://blog.csdn.net/lscelory/article/details/98180917
http://home.bharathh.info/pubs/codes/SBD/download.html
https://blog.csdn.net/iamoldpan/article/details/79196413
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
https://blog.csdn.net/cncyww/article/details/89188506
https://blog.csdn.net/zz2230633069/article/details/84769339

你可能感兴趣的:(深度学习数据集,tensorflow,深度学习,python)

机器学习：k均值 golemon. ML 机器学习均值算法人工智能
所有代码和文档均在golitter/Decoding-ML-Top10:使用Python优雅地实现机器学习十大经典算法。(github.com)，欢迎查看。在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，较为经典的是聚类。**聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。**聚
Python常见面试题的详解4 ylfhpy Python基础 python 开发语言面试
1.单例模式的实现方式要点：Python有多种实现单例模式的方法。模块由于其特性天然支持单例，首次导入生成对象，后续导入直接复用。通过装饰器可以控制实例的创建，元类能借助__call__方法管理实例化过程，重写类的__new__方法也能保证实例的唯一性。示例：pythondefsingleton(cls):instances={}defget_instance(*args,**kwargs):#如
python：求解爱因斯坦场方程 belldeep python python 爱因斯坦
在物理学中，爱因斯坦的广义相对论（GeneralRelativity）是描述引力如何作用于时空的理论。广义相对论由爱因斯坦在1915年提出，并被阿尔伯特·爱因斯坦、纳森·罗森和纳尔逊·曼德尔斯塔姆共同发展。广义相对论的核心方程是爱因斯坦场方程，它描述了时空的几何结构如何由物质的分布决定。如果你想用Python来探索或模拟广义相对论中的某些现象，你可以从以下几个方面入手：1.使用现有的库Python
【Python】使用国内镜像加速 pip 安装详解 Peter-Lu #人工智能之python基础 python pip
文章目录一、pip工具简介1.什么是pip？2.什么是`-i`参数？二、国内镜像源的选择三、如何使用国内镜像源1.临时指定国内镜像源2.批量安装依赖时使用镜像源3.全局配置国内镜像源配置方法：四、国内镜像的使用场景1.安装大型库时2.批量安装依赖五、注意事项1.镜像源的选择2.镜像源的可信性3.镜像源与pip缓存在Python开发中，pip是一个非常重要的工具，用于安装和管理Python的第三方库
第N11周：seq2seq翻译实战-Pytorch复现计算机真好丸 pytorch 人工智能 python
文章目录一、前期准备1.搭建语言类2.文本处理函数3.文件读取函数二、Seq2Seq模型1.编码器（encoder）2.解码器（decoder）三、训练1.数据预处理2.训练函数3.评估四、评估与训练1.Loss图2.可视化注意力五、总结本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备from__future__importunicode_literals,print_fu
第N5周：Pytorch文本分类入门计算机真好丸 pytorch 分类人工智能
文章目录一、前期准备1.环境安装2.加载数据3.构建词典4.生成数据批次和迭代器二、准备模型1.定义模型2.定义实例三、训练模型1.拆分数据集并运行模型2.使用测试数据集评估模型本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备1.环境安装确保安装了torchtext与portalocker库2.加载数据importtorch#强制使用CPUdevice=torch.devi
第TR5周：Transformer实战：文本分类计算机真好丸 transformer 分类深度学习
文章目录1.准备环境1.1环境安装1.2加载数据2.数据预处理2.1构建词典2.2生成数据批次和迭代器2.3构建数据集3.模型构建3.1定义位置编码函数3.2定义Transformer模型3.3初始化模型3.4定义训练函数3.5定义评估函数4.训练模型4.1模型训练5.总结：本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.准备环境1.1环境安装这是一个使用PyTorch通过Tran
pandas（02 pandas基本功能和描述性统计） twilight ember pandas python 开发语言
前面内容：pandas(01入门)目录一、PythonPandas基本功能1.1Series基本功能1.2DataFrame基本功能二、PythonPandas描述性统计2.1常用函数*2.2汇总数据(describe)*一、PythonPandas基本功能到目前为止，我们已经学习了三种Pandas数据结构以及如何创建它们。我们将主要关注DataFrame对象，因为它在实时数据处理中非常重要，并讨
工控网络安全学习路线 206333308 安全
一、基础技能编程语言：从汇编语言开始学习，了解底层机器指令和内存管理等基础知识。接着学习C/C++，掌握面向过程和面向对象编程的基本概念和技术，为后续的漏洞挖掘和底层分析打下基础。最后学习Python，它在安全领域应用广泛，可用于自动化脚本编写、漏洞扫描和数据分析等。《计算机网络原理》：掌握网络通信的基本原理，包括OSI七层模型、TCP/IP协议栈、IP地址分配、子网掩码等。了解网络拓扑结构、路由
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
Python的垃圾回收机制，详解Python的GC体系李云龙炮击平安线程 python 系统架构面试跳槽后端架构
什么是垃圾回收？为什么需要垃圾回收？垃圾回收即Garbagecollection简称为GC，是Python，Java等高级语言所使用的内存回收机制，由虚拟机帮助我们管理内存，让它自动把我们去追踪和回收内存中的对象。没有作用的对象就是垃圾，虚拟机就是扫地机器人，在某个时机自动帮我们清除垃圾。区别于C和C++这种让用户自己进行内存管理的方式，由虚拟机代用户管理内存。让用户自己进行内存管理的方式固然自由
自动化办公|xlwings 数据类型和转换游客520 自动化实用代码 python全栈学习自动化运维 python
xlwings数据类型和转换：Python与Excel的桥梁在使用xlwings进行Python和Excel数据交互时，理解两者之间的数据类型对应关系至关重要。本篇将详细介绍Python数据类型与Excel数据类型的对应关系，以及如何进行数据类型转换。一、Python数据类型与Excel数据类型的对应关系Python数据类型Excel数据类型说明int数字整数float数字浮点数str文本字符串b
DeepSeek进阶开发与应用1：DeepSeek框架概述与基础应用 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 spring 自然语言处理
引言在当今的人工智能领域，深度学习技术已经成为了推动技术进步的核心动力之一。DeepSeek作为一个先进的深度学习框架，旨在为开发者和研究人员提供一个高效、灵活且易于扩展的平台，以便于他们能够快速地实现和部署各种深度学习模型。本文将深入探讨DeepSeek框架的核心架构、基础应用以及如何通过代码实现一个简单的深度学习模型。DeepSeek框架概述DeepSeek框架的设计理念是简洁而强大。它提供了
python如何解压缩文件或文件夹游客520 实用代码 python全栈学习 python
在日常开发或数据处理工作中，我们经常需要对文件或文件夹进行压缩和解压缩操作。Python提供了强大的内置模块，如zipfile和shutil，可以帮助我们高效地完成这些任务。本文将介绍如何使用Python对文件夹或文件进行压缩和解压缩，内容包括两种常见方式：zipfile和shutil，并提供完整代码示例。压缩文件或文件夹1.使用zipfile模块压缩文件夹zipfile模块是Python标准库的
Python 爬虫验证码识别 acheding python python 爬虫 ocr
在我们进行爬虫的过程中，经常会碰到有些网站会时不时弹出来验证码识别。我们该如何解决呢？这里分享2种我尝试过的方法。0.验证码示例1.OpenCV+pytesseract使用Python中的OpenCV库进行图像预处理（边缘保留滤波、灰度化、二值化、形态学操作和逻辑运算），然后结合pytesseract进行文字识别。pytesseract需要配合安装在本地的tesseract-ocr.exe文件一起
【Python实用技巧】爬取数据保存到Excel中「已注销」 python python 爬虫开发语言
嗨嗨，大家好~今天来给你们分享一个小技巧如何用python爬取数据保存到Excel中话不多说，马上开始需要源码、教程，或者是自己有关python不懂的问题，都可以来这里哦https://jq.qq.com/?_wv=1027&k=s5bZE0K3这里还有学习资料与免费课程领取开发工具Python版本：3.6相关模块：importrequestsfromlxmlimportetreeimportti
Python爬取小说保存为Excel 不知所云975 python
本代码以实际案例介绍，爬取‘笔趣阁最新小说‘列表保存为表格文件。类封装以及网络爬虫以及openpyxl模块可以参考学习。#更新小说目录importrequestsfromlxmlimportetreeimportopenpyxlfromopenpyxl.stylesimportFont,Alignment,Side,Border,PatternFill#定义下载表格的类classDown_exce
python 爬取图片并保存到excel_python制作爬虫并将抓取结果保存到excel中 weixin_39778582 python 爬取图片并保存到excel
学习Python也有一段时间了，各种理论知识大体上也算略知一二了，今天就进入实战演练：通过Python来编写一个拉勾网薪资调查的小爬虫。第一步：分析网站的请求过程我们在查看拉勾网上的招聘信息的时候，搜索Python，或者是PHP等等的岗位信息，其实是向服务器发出相应请求，由服务器动态的响应请求，将我们所需要的内容通过浏览器解析，呈现在我们的面前。可以看到我们发出的请求当中，FormData中的kd
python爬取的数据保存到表格中_利用Python爬取的数据存入Excel表格 weixin_39608063
分析要爬取的内容的网页结构：demo.py:importrequests#requests是HTTP库importrefromopenpyxlimportworkbook#写入Excel表所用fromopenpyxlimportload_workbook#读取Excel表所用frombs4importBeautifulSoupasbs#bs:通过解析文档为用户提供需要抓取的数据importosim
python爬取天眼查存入excel表格_python爬取企查查江苏企业信息生成excel表格吴寿鹤
1.前期准备具体请查看上一篇2.准备库requests,BeautifulSoup,xlwt,lxml1.BeautifulSoup：是专业的网页爬取库，方便抓取网页信息2.xlwt：生成excel表格3.lxml：xml解析库3.具体思路企查查网站具有一定的反爬机制，直接爬取会受到网站阻拦，所以我们需要模拟浏览器请求，绕过反爬机制，打开企查查网站，获取cookie及一系列请求头文件，然后使用Be
学会Python3模拟登录并爬取表格数据！excel高手也自叹不如！ m0_60635321 2024年程序员学习 excel python 爬虫
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
DeepSeek+WPS/Office手把手教你玩转智能办公 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能 office wps 智能办公
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法Q大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
使用 Python 将爬取的内容保存到 Excel 表格木觞清 python excel 开发语言
在数据爬取的过程中，很多时候我们需要将爬取到的内容保存到Excel表格中，以便进一步处理、分析和可视化。Python提供了强大的库来实现这一功能，常用的有requests、BeautifulSoup用于网页内容的爬取，以及pandas、openpyxl用于将数据保存到Excel文件。本文将带你一步步完成从爬取数据到保存到Excel文件的整个过程。1.安装必要的库首先，你需要安装一些Python库。
Python学习心得字符串的去重操作 lifegoesonwjl python 开发语言 pycharm
一个字符串中可能包含许多相同的元素，为了保证字符串中的唯一性，下面介绍的是字符串的去重操作：第一种方式：利用for+if的结构进行去重这个程序是对字符串中的每个元素进行判断，如果不在新建的空字符串中就把该元素添加进来，否则就直接忽略过去。s='helloworldhelloworldhelloworld'new_s=''foritemins:ifitemnotinnew_s:new_s+=item
使用Python实现深度学习模型：知识蒸馏与模型压缩 Echo_Wish Python 笔记从零开始学Python人工智能 Python算法 python 深度学习开发语言
在深度学习领域，模型的大小和计算复杂度常常是一个挑战。知识蒸馏（KnowledgeDistillation）和模型压缩（ModelCompression）是两种有效的技术，可以在保持模型性能的同时减少模型的大小和计算需求。本文将详细介绍如何使用Python实现这两种技术。目录引言知识蒸馏概述模型压缩概述实现步骤数据准备教师模型训练学生模型训练（知识蒸馏）模型压缩代码实现结论1.引言在实际应用中，深
深度学习框架探秘｜TensorFlow vs PyTorch：AI 框架的巅峰对决紫雾凌寒智启前沿：AI 洞察・创未来人工智能深度学习 tensorflow pytorch ai
在深度学习框架中，TensorFlow和PyTorch无疑是两大明星框架。前面两篇文章我们分别介绍了TensorFlow（点击查看）和PyTorch（点击查看）。它们引领着AI开发的潮流，吸引着无数开发者投身其中。但这两大框架究竟谁更胜一筹？是TensorFlow的全面与稳健，还是PyTorch的灵活与便捷？让我们一同深入剖析，探寻答案。在深度学习框架中，TensorFlow和PyTorch无疑是
来看看爬虫合不合法度假的小鱼 Python基础爬虫搜索引擎 python
活动地址：CSDN21天学习挑战赛文章目录一、爬虫合不合法二、什么是爬虫三、爬虫的分类四、为什么学网络爬虫一、爬虫合不合法随着Python在最近几年的流行，Python中的爬虫也逐渐进入到大家的视野中，但是很多小伙伴，还是在担心爬虫的合法性。今天就来和大家一起讨论一下爬虫的合法性。大家可能在网上看到很多有关程序员写爬虫被抓这样的新闻只因写了一段爬虫，公司200多人被抓！爬虫的本身是合法的，但是如何
Linux上Scapy完全指南：从入门到实战攻防和舒貌 linux 信息与通信网络安全安全
Linux上Scapy完全指南：从入门到实战攻防目录Scapy简介与核心优势Linux环境安装与配置Scapy基础操作高级功能与协议分析实战案例：网络诊断与安全审计性能优化与调试技巧常见问题解答一、Scapy简介与核心优势1.1什么是Scapy？Scapy是一款基于Python的交互式数据包操作工具，能够构造、发送、捕获和分析网络协议数据包。其核心特点包括：支持超过800种协议（如TCP/IP、H
《爬虫写得好，铁窗关到老，做了5年Python code高级开源 2024年程序员学习爬虫 python 开发语言
**我的使命与愿景：**持续稳定输出，赋能中国技术社区蓬勃发展！最近的IT公司违法案件越来越多，看了很多因为爬虫，数字货币，博彩网站外包等被抓的事情，给大家提个醒，打工注意不能违法，写代码背后也有法律风险。一、什么是爬虫？通过爬虫代码，下载互联网上的数据到本地，并且提取出我们需要的信息的过程。二、典型违法案例典型案例（一）：构成非法获取计算机信息系统数据罪张某等非法获取计算机信息系统数据案（上海市
Python面试题：解释一下什么是 Python 的 GIL（全局解释器锁）杰哥在此 Python系列 python 开发语言
Python的GIL（GlobalInterpreterLock，全局解释器锁）是CPython解释器中的一个机制，它限制了在任何给定的时刻只有一个线程能够执行Python字节码。这意味着，即使在多核处理器上，Python程序也不能通过多线程实现真正的并行执行。GIL的背景GIL是由CPython解释器实现的，它是为了简化内存管理而引入的。Python中的对象管理（特别是引用计数）不是线程安全的，
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他