Magician0619

YOLO学习总结与数据集制作

文章目录

一、YOLOV3概述
- 1. YOLOV3特点
- 2. 改进之处
- 4. 边框预测
- 5. 优缺点
- 6. 统一网络
二、数据集
- 1. VOC数据集 Pascal VOC（Pascal Visual Object Classes）
- 2. COCO数据集 Microsoft COCO(Common Objects in Context)
- 3. Object Instance 类型的标注格式
- 4. polygon格式
- 5. Object Keypoint 类型的标注格式
- 6. Image Caption的标注格式
- 7. PaddlePaddle 数据集

一、YOLOV3概述

1. YOLOV3特点

YOLOv3在Pascal Titan X上处理608x608图像速度达到20FPS，在 COCO test-dev 上 [email protected] 达到 57.9%，与RetinaNet（FocalLoss论文所提出的单阶段网络）的结果相近，并且速度快4倍.
YOLO v3的模型比之前的模型复杂了不少，可以通过改变模型结构的大小来权衡速度与精度。

2. 改进之处

多尺度预测（类FPN）
更好的基础分类网络（类ResNet）和分类器

分类器-类别预测

YOLOv3不使用Softmax对每个框进行分类

Softmax使得每个框分配一个类别（score最大的一个），而对于Open Images这种数据集，目标可能有重叠的类别标签，因此Softmax不适用于多标签分类。Softmax可被独立的多个logistic分类器替代，且准确率不会下降。分类损失采用binary cross-entropy loss.

多尺度预测

每种尺度预测3个box, anchor的设计方式仍然使用聚类,得到9个聚类中心,将其按照大小均分给3中尺度

尺度1: 在基础网络之后添加一些卷积层再输出box信息.

尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.

尺度3: 与尺度2类似,使用了32x32大小的特征图.

基础网络 Darknet-53

仿ResNet, 与ResNet-101或ResNet-152准确率接近,但速度更快.
网络结构如下图所示

YOLOv3在 $mAP^{0.5}$ 及小目标 $AP^S$ 上具有不错的结果,但随着IOU的增大,性能下降,说明YOLOv3不能很好地与ground truth切合.

4. 边框预测

作者尝试了常规的预测方式(Faster R-CNN),然而并不奏效: x,y的偏移作为box的长宽的线性变换
$\begin{cases} \hat{ G } _ { x } = P _ { w } t _ { x } ( P ) + P _ { x } \\ \hat{ G } _ { y } = P _ { h } t _ { y } ( P ) + P _ { y }\\ \hat{ G } _ {w} = P _ { w } e^{t_w(P)}\\ \hat{ G } _ { h } = P _ {h} e^{t_h(P)} \end{cases}$
仍采用之前的logistic方式

  $$\left.\begin{array}{l} { b _ { 2 } = o ( t _ { x } ) + c _ { x } } \\ { b _ { y } = o ( t _ { y } ) + c _ { y } } \\ { b _ { w } = p _ { w } e ^ { t_w } } \\  { b _ { w } = p _ { h } e ^ { t_h } } \end{array}\right. $$

其中 $c_x,c_y$ 是网格的坐标偏移量 $p_w,p_h$ 是预设的anchor box的边长.最终得到的边框坐标值是 $b_{x,y,w,h}$ ,而网络学习目标是 $t_{x,y,w,h}$

5. 优缺点

优点

快速,pipline简单.

背景误检率低。

通用性强。YOLO对于艺术类作品中的物体检测同样适用。它对非自然图像物体的检测率远远高于DPM和RCNN系列检测方法

相比RCNN系列物体检测方法，YOLO具有以下缺点

识别物体位置精准性差

召回率低。在每个网格中预测固定数量的bbox这种约束方式减少了候选框的数量

YOLO v.s. Faster R-CNN

6. 统一网络

YOLO没有显示求取region proposal的过程。Faster R-CNN中尽管RPN与fast rcnn共享卷积层，但是在模型训练过程中，需要反复训练RPN网络和fast rcnn网络.
相对于R-CNN系列的"看两眼",YOLO只需要Look Once.
YOLO统一为一个回归问题
R-CNN将检测结果分为两部分求解：物体类别（分类问题），物体位置即bounding box（回归问题）

二、数据集

1. VOC数据集 Pascal VOC（Pascal Visual Object Classes）

VOC数据集是目标检测经常用的一个数据集，从05年到12年都会举办比赛（比赛有task： Classification 、Detection（将图片中所有的目标用bounding box框出来）、 Segmentation（将图片中所有的目标分割出来）、Person Layout）

VOC2007：中包含9963张标注过的图片，由train/val/test三部分组成，共标注出24,640个物体。 VOC2007的test数据label已经公布，之后的没有公布（只有图片，没有label）。

VOC2012：对于检测任务，VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。对于分割任务， VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有 2913张图片共6929个物体。

这些物体一共分为20类

Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

文件夹结构

Annotation文件夹存放的是xml文件，该文件是对图片的解释，每张图片都对于一个同名的xml文件。xml主要介绍了对应图片的基本信息，如来自那个文件夹、文件名、来源、图像尺寸以及图像中包含哪些目标以及目标的信息等等

  <annotation>
      <folder>VOC2007folder>
      <filename>000005.jpgfilename>#文件名
      <source>#文件来源
          <database>The VOC2007 Databasedatabase>
          <annotation>PASCAL VOC2007annotation>
          <image>flickrimage>
          <flickrid>325991873flickrid>
      source>
      <owner>
          <flickrid>archintent louisvilleflickrid>
          <name>?name>
      owner>
      <size>#文件尺寸，包括长、宽、通道数
          <width>500width>
          <height>375height>
          <depth>3depth>
      size>
      <segmented>0segmented>#是否用于分割
      <object>#检测目标
          <name>chairname>#目标类别
          <pose>Rearpose>#摄像头角度
          <truncated>0truncated>#是否被截断，0表示完整
          <difficult>0difficult>#目标是否难以识别，0表示容易识别
          <bndbox>#bounding-box
              <xmin>263xmin>
              <ymin>211ymin>
              <xmax>324xmax>
              <ymax>339ymax>
          bndbox>
      object>
      <object>#检测到的多个物体
          <name>chairname>
          <pose>Unspecifiedpose>
          <truncated>0truncated>
          <difficult>0difficult>
          <bndbox>
              <xmin>165xmin>
              <ymin>264ymin>
              <xmax>253xmax>
              <ymax>372ymax>
          bndbox>
      object>
      <object>#检测到的多个物体
          <name>chairname>
          <pose>Unspecifiedpose>
          <truncated>1truncated>
          <difficult>1difficult>
          <bndbox>
              <xmin>5xmin>
              <ymin>244ymin>
              <xmax>67xmax>
              <ymax>374ymax>
          bndbox>
      object>
      <object>
          <name>chairname>
          <pose>Unspecifiedpose>
          <truncated>0truncated>
          <difficult>0difficult>
          <bndbox>
              <xmin>241xmin>
              <ymin>194ymin>
              <xmax>295xmax>
              <ymax>299ymax>
          bndbox>
      object>
      <object>#检测到的多个物体
          <name>chairname>
          <pose>Unspecifiedpose>
          <truncated>1truncated>
          <difficult>1difficult>
          <bndbox>
              <xmin>277xmin>
              <ymin>186ymin>
              <xmax>312xmax>
              <ymax>220ymax>
          bndbox>
      object>
  annotation>

ImageSets文件夹存放的是txt文件，这些txt将数据集的图片分成了各种集合。如Main下的train.txt中记录的是用于训练的图片集合

Action下存放的是人的动作（例如running、jumping等等，这也是VOC challenge的一部分）
Layout下存放的是具有人体部位的数据（人的head、hand、feet等等，这也是VOC challenge的一部分）
Main下存放的是图像物体识别的数据，总共分为20类。(train、val、trainval的txt)
- _train中存放的是训练使用的数据，每一个class的train数据都有5717个。
- _val中存放的是验证结果使用的数据，每一个class的val数据都有5823个。
- _trainval将上面两个进行了合并，每一个class有11540个。
  - -1代表负样本，1代表正样本
Segmentation下存放的是可用于分割的数据。

JPEGImages文件夹存放的是数据集的原图片

SegmentationClass以及SegmentationObject文件夹存放的都是图片，且都是图像分割结果图
- SegmentationClass 这里面包含了2913张图片，每一张图片都对应JPEGImages里面的相应编号的图片。这里面的图片的像素颜色共有20种，对应20类物体。比如所有飞机都会被标为红色
- SegmentationObject
  - 这里面同样包含了2913张图片，图片编号都与Class里面的图片编号相同。这里面的图片和Class里面图片的区别在于，这是针对Object的。在Class里面，一张图片里如果有多架飞机，那么会全部标注为红色。而在Object里面，同一张图片里面的飞机会被不同颜色标注出来

2. COCO数据集 Microsoft COCO(Common Objects in Context)

主要特点

（1）Object segmentation
（2）Recognition in Context
（3）Multiple objects per image
（4）More than 300,000 images
（5）More than 2 Million instances
（6）80 object categories
（7）5 captions per image
（8）Keypoints on 100,000 people

主要解决3个问题：目标检测，目标之间的上下文关系，目标的2维上的精确定位。

COCO通过大量使用Amazon Mechanical Turk来收集数据。COCO数据集现在有3种标注类型：object instances（目标实例）, object keypoints（目标上的关键点）, 和image captions（看图说话），使用JSON文件存储。

基本的JSON结构体类型
共享这些基本类型：info、image、license

annotation类型则呈现出了多态

   
   {
       "info": info,
       "licenses": [license],
       "images": [image],
       "annotations": [annotation],
   }
       
   info{
       "year": int,
       "version": str,
       "description": str,
       "contributor": str,
       "url": str,
       "date_created": datetime,
   }
   license{
       "id": int,
       "name": str,
       "url": str,
   } 
   image{
       "id": int,
       "width": int,
       "height": int,
       "file_name": str,
       "license": int,
       "flickr_url": str,
       "coco_url": str,
       "date_captured": datetime,
   }

info类型

   
   "info":{
   	"description":"This is stable 1.0 version of the 2014 MS COCO dataset.",
   	"url":"http:\\mscoco.org",
   	"version":"1.0","year":2014,
   	"contributor":"Microsoft COCO group",
   	"date_created":"2015-01-27 09:11:52.357475"
   },

Images是包含多个image实例的数组

        
        {
        	"license":3,
        	"file_name":"COCO_val2014_000000391895.jpg",
        	"coco_url":"http:\\mscoco.org\images\391895",
        	"height":360,"width":640,"date_captured":"2013-11-14 11:18:45",
        	"flickr_url":"http:\\farm9.staticflickr.com\8186\8119368305_4e622c8349_z.jpg",
        	"id":391895
        },

licenses是包含多个license实例的数组


{
	"url":"http:\\creativecommons.org\licenses\by-nc-sa\2.0\",
	"id":1,
	"name":"Attribution-NonCommercial-ShareAlike License"
},

3. Object Instance 类型的标注格式

整体JSON文件格式

{    
    "info": info,      
    "licenses": [license],    
    "images": [image],      
    "annotations": [annotation],    
    "categories": [category]
   }

images数组元素的数量等同于划入训练集（或者测试集）的图片的数量；
annotations数组元素的数量等同于训练集（或者测试集）中bounding box的数量；
categories数组元素的数量为80（2017年）；

annotations字段

包含多个annotation实例的一个数组，annotation类型本身又包含了一系列的字段，如这个目标的category id和segmentation mask。segmentation格式取决于这个实例是一个单个的对象（即iscrowd=0，将使用polygons格式）还是一组对象（即iscrowd=1，将使用RLE格式）。如下所示：

   annotation{
       "id": int,    
       "image_id": int,
       "category_id": int,
       "segmentation": RLE or [polygon],
       "area": float,
       "bbox": [x,y,width,height],
       "iscrowd": 0 or 1,
   }

4. polygon格式

按照相邻的顺序两两组成一个点的xy坐标，如果有n个数（必定是偶数），那么就是n/2个点坐标。下面就是一段解析polygon格式的segmentation并且显示多边形的示例代码：

     import numpy as np
     import matplotlib.pyplot as plt
     import matplotlib
     from matplotlib.patches import Polygon
     from matplotlib.collections import PatchCollection
     fig, ax = plt.subplots()
     polygons = []
     num_sides = 100
     gemfield_polygons = [[125.12, 539.69, 140.94, 522.43......]]
     gemfield_polygon = gemfield_polygons[0]
     max_value = max(gemfield_polygon) * 1.3
     gemfield_polygon = [i * 1.0/max_value for i in gemfield_polygon]
     poly = np.array(gemfield_polygon).reshape((int(len(gemfield_polygon)/2), 2))
     polygons.append(Polygon(poly,True))
     p = PatchCollection(polygons, cmap=matplotlib.cm.jet, alpha=0.4)
     colors = 100*np.random.rand(1)
     p.set_array(np.array(colors))
     ax.add_collection(p)
     plt.show()

如果iscrowd=1，那么segmentation就是RLE格式(segmentation字段会含有counts和size数组)，在json文件中gemfield挑出一个这样的例子，如下所示

segmentation : 
{
  u'counts': [272, 2, 4, 4, 4, 4, 2, 9, 1, 2, 16, 43, 143, 24......], 
  u'size': [240, 320]
}

categories字段
categories是一个包含多个category实例的数组，而category结构体描述如下：

{
   "id": int,
   "name": str,
   "supercategory": str,
}

5. Object Keypoint 类型的标注格式

整体JSON文件格式

{
   "info": info,
   "licenses": [license],
   "images": [image],
   "annotations": [annotation],
   "categories": [category]
}

annotations字段

annotation{
    "keypoints": [x1,y1,v1,...],
    "num_keypoints": int,
    "id": int,
    "image_id": int,
    "category_id": int,
    "segmentation": RLE or [polygon],
    "area": float,
    "bbox": [x,y,width,height],
    "iscrowd": 0 or 1,
 }

包含了Object Instance中annotation结构体的所有字段，加上2个额外的字段。新增的keypoints是一个长度为3*k的数组，其中k是category中keypoints的总数量。每一个keypoint是一个长度为3的数组，第一和第二个元素分别是x和y坐标值，第三个元素是个标志位v，v为0时表示这个关键点没有标注（这种情况下x=y=v=0），v为1时表示这个关键点标注了但是不可见（被遮挡了），v为2时表示这个关键点标注了同时也可见。

categories字段

{
  "id": int,
  "name": str,
  "supercategory": str,
  "keypoints": [str],
  "skeleton": [edge]
}

6. Image Caption的标注格式

整体JSON文件格式

{
    "info": info,
    "licenses": [license],
    "images": [image],
    "annotations": [annotation]
}

annotations字段

annotation{
    "id": int,
    "image_id": int,
    "caption": str
  }

7. PaddlePaddle 数据集

默认所有的数据都是直接下载到目录'~/.cache/paddle/dataset'
Paddle来指定别的位置数据集

 import paddle 
 import paddle.fluid as fluid
 from paddle.dataset import mnist
 import matplotlib.pyplot as plt
 
 train_data = mnist.train()
 test_data = mnist.test()

paddle返回的是一个方法！！！（这个方法的返回值是一个generator！！！）generator是一个由tuple组成的，且tuple第一个元素为numpy.ndarray, 第二个元素是一个整数

数据进行打乱排序

shuffle

paddle.reader的shuffle函数提供了这个功能，它的第一个参数是从dataset得到的返回generator的函数，第二个参数是每次进行shuffle的数据量。这里的shuffle跟我们日常理解的shuffle还不太一样，它是加载一定数量的数据（我们第二个参数），然后进行shuffle后输出，接着继续进行下一批数据shuffle。如果要全量数据进行shuffle，只要第二个参数大于所有数据总量即可。最后返回的是一个无参函数，函数返回的是一个generator

paddle.reader.shuffle(mnist.train(), buf_size=500)

batch

paddle.batch把数据封装成输出一个一个Batch的形式。第一个参数是无参函数（与dataset和shuffle返回的一样）, 第二个参数是batch的大小。至于batch函数直接放在paddle下面这一层还是挺让我困惑的，我觉得这个函数应该是放在reader里面比较合适。当然啦，这个函数的返回值还是跟前面几个方法一样，都是一个无参函数，其返回值是一个generator

batch_loader = paddle.batch(mnist.train(), batch_size=10)
first_batch = list(batch_loader())[0]
print(type(first_batch))
print(type(first_batch[0]))

batch之后最终数据的是以一个list的方式返回，list大小即为batch大小。

自己的数据集转化为VOC数据集

voc数据集格式

└── VOCdevkit     #根目录
    └── VOC2017   
        ├── Annotations        #存放xml文件，与JPEGImages中的图片一一对应，解释图片的内容等等
        ├── ImageSets          
        │   ├── Action
        │   ├── Layout
        │   ├── Main├── train.txt#存放文件名
        │			├── val.txt
        │			└── test.txt
        │   └── Segmentation
        ├── JPEGImages         #存放源图片
        ├── label_list.txt#存放bbox标签
        ├── train.txt#JPEGImages图片路径与Annotations标签路径应
        ├── val.txt
        └── test.txt

label_list.txt——bbox类别
train.txt
- ImageSets /Main/train.txt,另一个最直接在主目录下

import os
import json
import cv2
import random
 
\# voc格式最后储存位置
voc_format_save_path = r'/home/aistudio/PaddleDetection/dataset/People/ImageSets/Main/train.txt'
\# yolo格式的注释文件，上文有格式
yolo_format_annotation_path = r'/home/aistudio/PaddleDetection/dataset/peopledetection/train.json'
\#另一个train保存路径
train_path = r'/home/aistudio/PaddleDetection/dataset/People/train.txt'

\#判断文件是否存在,path为文件路径

if os.path.exists(voc_format_save_path):
    \#删除文件,path为文件路径
    os.remove(voc_format_save_path)
if os.path.exists(train_path):
    \#删除文件,path为文件路径
    os.remove(train_path)


\# 前面都造好了基础(为了和coco一致，其实很多都用不到的)，现在开始解析自己的数据
f = open(yolo_format_annotation_path,encoding='utf-8')
content = json.load(f)

file = open(voc_format_save_path,'a')
for j in range(len(content['annotations'])):
    img_path=content['annotations'][j]['name']
    img_name = os.path.basename(img_path)
    (img_name, extension) = os.path.splitext(img_name)
    img_name=img_name+'\n'
    file.write(img_name)
file.close()
print('保存成功1')

file2 = open(train_path,'a')
for j in range(len(content['annotations'])):
    img_path=content['annotations'][j]['name']
    img_name = os.path.basename(img_path)
    (img_name1, extension) = os.path.splitext(img_name)
    name='JPEGImages/'+str(img_name)+' '+'Annotations/'+str(img_name1)+'.xml\n'
    file2.write(name)
file2.close()
print('保存成功2')

生成.xml文件

import os, sys
import glob
from PIL import Image
import json
import cv2
import random
 
label_lists = []
img_lists = []
src_label_dir = '/home/aistudio/PaddleDetection/dataset/peopledetection/train.json'                           ###指向自己数据集的labelTxt文件夹
out_xml_dir = '/home/aistudio/PaddleDetection/dataset/People/Annotations/'  ###指向voc数据集的Annotations文件夹

f = open(src_label_dir,encoding='utf-8')
content = json.load(f)
for j in range(len(content['annotations'])):
    content['annotations'][j]['name'] = content['annotations'][j]['name'].lstrip('stage1').lstrip('/')
    img_path = content['annotations'][j]['name']
    img_name = os.path.basename(img_path)
    (img_name, extension) = os.path.splitext(img_name)
    \# 因为需要width和height,而我得yolo文件里没有，所以我还得读图片，很烦
    \# 我就用opencv读取了,当然用其他库也可以
    \# 别把图片路径搞错了，绝对路径和相对路径分清楚！
    img_path = os.path.join('/home/aistudio/',img_path)
    height,width = cv2.imread(img_path).shape[:2]

    \# write in xml file
    \# os.mknod(src_xml_dir + '/' + img + '.xml')
    xml_file = open((out_xml_dir + '/' + img_name + '.xml'), 'w')
    xml_file.write('\n')
    xml_file.write('    VOC2007\n')
    xml_file.write('    ' + str(img_name) + '.jpg' + '\n')    ###若准备的图片为jpg格式则将png替换为jpg
    xml_file.write('    ' + str(img_path) + '.jpg' + '\n')    ###若准备的图片为jpg格式则将png替换为jpg
    xml_file.write('    \n')
    xml_file.write('        ' + str(width) + '\n')
    xml_file.write('        ' + str(height) + '\n')
    xml_file.write('        3\n')
    xml_file.write('    \n')
    xml_file.write('    0\n')
    for bbox in  content['annotations'][j]['annotation']:
        xmin=bbox['x']
        ymin=bbox['y']
        xmax=bbox['x']+bbox['w']
        ymax=bbox['y']+bbox['h']
        gt_label = content['annotations'][j]['type']
        xmin,ymin,xmax,ymax= int(xmin),int(ymin),int(xmax),int(ymax)
    

        xml_file.write('    \n')
    xml_file.write('')    
    xml_file.close()

把图片文件copy到JPEGImages文件夹下，直接使用Linux命令cp -r

python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
python sympy的安装与使用范哥来了 python 开发语言
为了安装和使用sympy，您可以按照以下步骤进行操作：安装SymPy首先，您需要确保已经安装了Python。接着，可以通过pip来安装sympy。打开命令行工具（如终端或命令提示符），然后输入以下命令来安装sympy：pipinstallsympy如果您使用的是特定的Python环境，请确保激活该环境后再执行上述安装命令。使用SymPy安装完成后，您就可以在Python项目中导入并使用sympy了
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
Python中的进制转换棉猴 #Python数据类型 Python 进制转化二进制八进制十六进制 bin oct
常用的进制有二进制、八进制、十进制和十六进制。1四种进制简介最常用的十进制基本原理是“逢十进一”，因此十进制包括的数字是“0-9”;同理，二进制的基本原理是“逢二进一”，包含的数字是“0-1”;八进制是“逢八进一”，包含的数字是“0-7”；十六进制是“逢十六进一”，包含的数字是“0-15”，其中用“A、B、C、D、E、F”分别表示“10-15”这五个数。2四种进制数的表示对于一个数字“11”,可能
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
python批量替换word内容_python win32com 库批量替换word文件内容 weixin_39657300
前言win32com模块主要为Python提供调用windows底层组件对word、Excel、PPT等进行操作的功能，只能在Windows环境下使用，并且需要安装office相关软件才行(WPS也行)。实例代码下方代码实现批量替换当前路径下word文档的指定文本内容。importwin32com.clientimportosimporttimedefupdate_replace(file):wo
python strip() 编号1993 python python
参考：http://www.jb51.net/article/37287.htm###############################s.strip(del)：在字符串s的开头结尾处，删除del中存在的字符s.lstrip(del)：在字符串s的开头处，删除del中存在的字符s.rstrip(del)：在字符串s的结尾处，删除del中存在的字符s='asdf'#前后均有空格s.strip(
Python调用WPS进行文档转换PDF及PDF转图片 IT孔乙己 python 开发语言后端
这里是利用WPS进行转换，要先安装WPS。安装依赖pipinstallpypiwin32代码#!/usr/bin/python#-*-coding:UTF-8-*-importosimportwin32com.clientdefConvertByWps(sourceFile,targetFile):ifnotos.path.exists(sourceFile):print(sourceFile+"
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

YOLO学习总结与数据集制作

文章目录

一、YOLOV3概述

1. YOLOV3特点

2. 改进之处

4. 边框预测

5. 优缺点

6. 统一网络

二、数据集

1. VOC数据集 Pascal VOC（Pascal Visual Object Classes）

2. COCO数据集 Microsoft COCO(Common Objects in Context)

3. Object Instance 类型的标注格式

4. polygon格式

5. Object Keypoint 类型的标注格式

6. Image Caption的标注格式

7. PaddlePaddle 数据集

你可能感兴趣的:(Paddle飞桨,python,深度学习,计算机视觉)