windmyself

数据获取与处理（以CV任务为主）

AI达人创造营：数据获取与处理（以CV任务为主）

课程目的

数据的获取途径
数据处理与标注
数据预处理方法
模型训练评估

课程链接：https://www.bilibili.com/video/BV1qq4y1X7uZ?p=2

一、数据集的获取

通常，我们的数据来源于各个比赛平台。首先是AIStudio中的数据集，大部分经典数据集例如百度AI Studio ,Kaggle、天池、讯飞等平台（通过关键词搜索获取需要的数据集），或者是Github。还有一些小的平台，需要大家自己去看。通常来说，数据集用于学术目的，有些数据需要申请才能获得链接。

1.1 Kaggle有趣比较火热的数据集

House Prices-Advanced Regression Techniques 预测销售价格

Cat and Dog 猫狗分类

Machine Learning from Disaster 预测泰坦尼克号的生存情况并熟悉机器学习基础知识

1.2 天池

Barley Remote Sensing Dataset大麦遥感检测数据集遥感影像分割

耶鲁人脸数据库目标检测任务(人脸检测)

1.3 DataFountain

花卉分类数据集图像分类

1.4 其他常用的数据集官网

科大讯飞官网

COCO数据集

1.5 完整流程概述

1.5.1 图像处理完整流程

1. 图片数据获取
1. 图片数据清洗

----初步了解数据，筛选掉不合适的图片

1. 图片数据标注
1. 图片数据预处理data preprocessing。

----标准化 standardlization

一中心化 = 去均值 mean normallization

一将各个维度中心化到0

一目的是加快收敛速度,在某些激活函数上表现更好

一归一化 = 除以标准差

一将各个维度的方差标准化处于[-1,1]之间

一目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域

1. 图片数据准备data preparation(训练+测试阶段)

----划分训练集，验证集，以及测试集

1. 图片数据增强data augjmentation（训练阶段）

----CV常见的数据增强

· 随机旋转

· 随机水平或者重直翻转

· 缩放

· 剪裁

· 平移

· 调整亮度、对比度、饱和度、色差等等

· 注入噪声

· 基于生成对抗网络GAN做数搪增强AutoAugment等

1.5.2 纯数据处理完整流程

数据预处理与特征工程
1.感知数据

----初步了解数据

----记录和特征的数量特征的名称

----抽样了解记录中的数值特点描述性统计结果

----特征类型

----与相关知识领域数据结合，特征融合

2.数据清理

----转换数据类型

----处理缺失数据

----处理离群数据

3.特征变换

----特征数值化

----特征二值化

----OneHot编码

----特征离散化特征

----规范化

区间变换

标准化

归一化

4.特征选择

----封装器法

循序特征选择

穷举特征选择

递归特征选择

----过滤器法

----嵌入法

5.特征抽取

----无监督特征抽取

主成分分析

因子分析

----有监督特征抽取

拓展小知识:

皮尔森相关系数是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。
Pearson系数的取值范围为[-1,1]，当值为负时，为负相关，当值为正时，为正相关，绝对值越大，则正/负相关的程度越大。若数据无重复值，且两个变量完全单调相关时，spearman相关系数为+1或-1。当两个变量独立时相关系统为0，但反之不成立。

用Corr()函数即可，(保证行相同)。

公式如下:

$\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}$

当两个变量的标准差都不为零时，相关系数才有定义，Pearson相关系数适用于：

(1)、两个变量之间是线性关系，都是连续数据。

(2)、两个变量的总体是正态分布，或接近正态的单峰分布。

(3)、两个变量的观测值是成对的，每对观测值之间相互独立。

二、数据处理

2.1 官方数据处理成VOC或者COCO

2.1.1COCO2017数据集介绍

COCO数据集是Microsoft制作收集用于Detection + Segmentation + Localization + Captioning的数据集，作者收集了其2017年的版本，一共有25G左右的图片和600M左右的标签文件。
COCO数据集共有小类80个，分别为：

[‘person’, ‘bicycle’, ‘car’, ‘motorcycle’, ‘airplane’, ‘bus’, ‘train’, ‘truck’, ‘boat’, ‘traffic light’, ‘fire hydrant’, ‘stop sign’, ‘parking meter’, ‘bench’, ‘bird’, ‘cat’, ‘dog’, ‘horse’, ‘sheep’, ‘cow’, ‘elephant’, ‘bear’, ‘zebra’, ‘giraffe’, ‘backpack’, ‘umbrella’, ‘handbag’, ‘tie’, ‘suitcase’, ‘frisbee’, ‘skis’, ‘snowboard’, ‘sports ball’, ‘kite’, ‘baseball bat’, ‘baseball glove’, ‘skateboard’, ‘surfboard’, ‘tennis racket’, ‘bottle’, ‘wine glass’, ‘cup’, ‘fork’, ‘knife’, ‘spoon’, ‘bowl’, ‘banana’, ‘apple’, ‘sandwich’, ‘orange’, ‘broccoli’, ‘carrot’, ‘hot dog’, ‘pizza’, ‘donut’, ‘cake’, ‘chair’, ‘couch’, ‘potted plant’, ‘bed’, ‘dining table’, ‘toilet’, ‘tv’, ‘laptop’, ‘mouse’, ‘remote’, ‘keyboard’, ‘cell phone’, ‘microwave’, ‘oven’, ‘toaster’, ‘sink’, ‘refrigerator’, ‘book’, ‘clock’, ‘vase’, ‘scissors’, ‘teddy bear’, ‘hair drier’, ‘toothbrush’]

大类12个，分别为

[‘appliance’, ‘food’, ‘indoor’, ‘accessory’, ‘electronic’, ‘furniture’, ‘vehicle’, ‘sports’, ‘animal’, ‘kitchen’, ‘person’, ‘outdoor’]

VOC与COCO简介

Pascal 的全称是模式分析，静态建模和计算学习(Pattern Analysis, Statical Modeling and Computational Learning)。PASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今，该组织每年都会提供一系列类别的、带标签的图片，挑战者通过设计各种精妙的算法，仅根据分析图片内容来将其分类，最终通过准确率、召回率、效率

MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。

下面为大家演示一下标注的使用。

COCO格式，文件夹路径样式：

 COCO_2017/
    ├── val2017     # 总的验证集
    ├── train2017    # 总的训练集
    ├── annotations    # COCO标注
	│   ├── instances_train2017.json     # object instances（目标实例） ---目标实例的训练集标注 
	│   ├── instances_val2017.json        # object instances（目标实例） ---目标实例的验证集标注
	│   ├── person_keypoints_train2017.json     # object keypoints（目标上的关键点） ---关键点检测的训练集标注
	│   ├── person_keypoints_val2017.json       # object keypoints（目标上的关键点） ---关键点检测的验证集标注
	│   ├── captions_train2017.json    # image captions（看图说话） ---看图说话的训练集标注
	│   ├── captions_val2017.json      # image captions（看图说话） ---看图说话的验证集标注

VOC格式，文件夹路径样式：

  VOC_2017/
  ├── Annotations	# 每张图片相关的标注信息,xml格式
  ├── ImageSets
  │   ├── Main	# 各个类别所在图片的文件名
  ├── JPEGImages	# 包括训练验证测试用到的所有图片  
  ├── label_list.txt	# 标签的类别数
  ├── train_val.txt	#训练集 
  ├── val.txt   	# 验证集

2.1.2 Object Keypoint 类型的标注格式

{
"info": info,
"licenses": [license],
"images": [image],
"annotations": [annotation],
"categories": [category]
}

其中，info、licenses、images这三个结构体/类型，在不同的JSON文件中这三个类型是一样的，定义是共享的(object instances（目标实例）, object keypoints（目标上的关键点）, image captions（看图说话）)。不共享的是annotation和category这两种结构体，他们在不同类型的JSON文件中是不一样的。新增的keypoints是一个长度为3 X k的数组，其中k是category中keypoints的总数量。每一个keypoint是一个长度为3的数组，第一和第二个元素分别是x和y坐标值，第三个元素是个标志位v，v为0时表示这个关键点没有标注（这种情况下x=y=v=0），v为1时表示这个关键点标注了但是不可见（被遮挡了），v为2时表示这个关键点标注了同时也可见。
um_keypoints表示这个目标上被标注的关键点的数量（v>0），比较小的目标上可能就无法标注关键点。

annotation{
"keypoints": [x1,y1,v1,...],
"num_keypoints": int,
"id": int,
"image_id": int,
"category_id": int,
"segmentation": RLE or [polygon],
"area": float,
"bbox": [x,y,width,height],
"iscrowd": 0 or 1,
}
示例：
{
"segmentation": [[125.12,539.69,140.94,522.43,100.67,496.54,84.85,469.21,73.35,450.52,104.99,342.65,168.27,290.88,179.78,288,189.84,286.56,191.28,260.67,202.79,240.54,221.48,237.66,248.81,243.42,257.44,256.36,253.12,262.11,253.12,275.06,299.15,233.35,329.35,207.46,355.24,206.02,363.87,206.02,365.3,210.34,373.93,221.84,363.87,226.16,363.87,237.66,350.92,237.66,332.22,234.79,314.97,249.17,271.82,313.89,253.12,326.83,227.24,352.72,214.29,357.03,212.85,372.85,208.54,395.87,228.67,414.56,245.93,421.75,266.07,424.63,276.13,437.57,266.07,450.52,284.76,464.9,286.2,479.28,291.96,489.35,310.65,512.36,284.76,549.75,244.49,522.43,215.73,546.88,199.91,558.38,204.22,565.57,189.84,568.45,184.09,575.64,172.58,578.52,145.26,567.01,117.93,551.19,133.75,532.49]],
"num_keypoints": 10,
"area": 47803.27955,
"iscrowd": 0,
"keypoints": [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,142,309,1,177,320,2,191,398,2,237,317,2,233,426,2,306,233,2,92,452,2,123,468,2,0,0,0,251,469,2,0,0,0,162,551,2],
"image_id": 425226,"bbox": [73.35,206.02,300.58,372.5],"category_id": 1,
"id": 183126},

2.1.3 categories字段

最后，对于每一个category结构体，相比Object Instance中的category新增了2个额外的字段，keypoints是一个长度为k的数组，包含了每个关键点的名字；skeleton定义了各个关键点之间的连接性（比如人的左手腕和左肘就是连接的，但是左手腕和右手腕就不是）。
目前，COCO的keypoints只标注了person category （分类为人）。

{
"id": int,
"name": str,
"supercategory": str,
"keypoints": [str],
"skeleton": [edge]
}
示例：
{
"supercategory": "person",
"id": 1,
"name": "person",
"keypoints": ["nose","left_eye","right_eye","left_ear","right_ear","left_shoulder","right_shoulder","left_elbow","right_elbow","left_wrist","right_wrist","left_hip","right_hip","left_knee","right_knee","left_ankle","right_ankle"],
"skeleton": [[16,14],[14,12],[17,15],[15,13],[12,13],[6,12],[7,13],[6,7],[6,8],[7,9],[8,10],[9,11],[2,3],[1,2],[1,3],[2,4],[3,5],[4,6],[5,7]]
}

2.1.4 数据集统计信息

人体关键点标注，每个人体关键点个数的分布情况，其中11-15这个范围的人体是最多的，有接近70000人，6-10其次，超过40000人，后面依次为16-17,2-5,…

#拉取PaddleDetection
!git clone https://github.com.cnpmjs.org/PaddlePaddle/PaddleDetection

#存入持久层中
!mv PaddleDetection/ work/

#导入所需要的依赖
!pip install -r work/PaddleDetection/requirements.txt

#导入转格式所需要的包
!pip install pycocotools
!pip install scikit-image

# COCO标注
!unzip -oq /home/aistudio/data/data97273/annotations_trainval2017.zip -d ./
# 总的验证集
!unzip -oq /home/aistudio/data/data97273/val2017.zip -d ./  
# 总的训练集         
!unzip -oq /home/aistudio/data/data97273/train2017.zip -d ./

#创建解析好的图片与xml文件的目录
!mkdir -p VOCData/images/
!mkdir -p VOCData/Annotations/

!mkdir COCOData/

#处理目标检测的数据集
!python ProcessData.py

#没有这个文件时创建一个空的label的txt文件
!touch VOCData/label_list.txt

#移动到dataset文件夹
!mv VOCData work/PaddleDetection/dataset/

%cd work/PaddleDetection/

"""
按VOC格式划分数据集，train : val = 0.85 : 0.15
生成标签label_list.txt
"""
import os
import shutil
import skimage.io as io

from tqdm import tqdm
from random import shuffle

dataset = 'dataset/VOCData/'
train_txt = os.path.join(dataset, 'train_val.txt')
val_txt = os.path.join(dataset, 'val.txt')
lbl_txt = os.path.join(dataset, 'label_list.txt')

classes = [
        "person"
    ]

with open(lbl_txt, 'w') as f:
    for l in classes:
        f.write(l+'\n')

xml_base = 'Annotations'
img_base = 'images'

xmls = [v for v in os.listdir(os.path.join(dataset, xml_base)) if v.endswith('.xml')]
shuffle(xmls)

split = int(0.85 * len(xmls)) #划分训练集与验证集

with open(train_txt, 'w') as f:
    for x in tqdm(xmls[:split]):
        m = x[:-4]+'.jpg'
        xml_path = os.path.join(xml_base, x)
        img_path = os.path.join(img_base, m)
        f.write('{} {}\n'.format(img_path, xml_path))
    
with open(val_txt, 'w') as f:
    for x in tqdm(xmls[split:]):
        m = x[:-4]+'.jpg'
        xml_path = os.path.join(xml_base, x)
        img_path = os.path.join(img_base, m)
        f.write('{} {}\n'.format(img_path, xml_path))

%cd /home/aistudio/

!mv val2017/ COCOData/
!mv train2017/ COCOData/
!mv annotations/ COCOData/

!mv -f COCOData/ data/
!mv -f work/PaddleDetection/dataset/VOCData data/

2.2 自定义数据集进行训练

2.2.1 常见标注工具

对于图像分类任务，我们只要将对应的图片是哪个类别划分好即可。对于检测任务和分割任务，目前比较流行的数据标注工具是labelimg、labelme，分别用于检测任务与分割任务的标注。

标注工具Github地址：

labelimg

labelme

PPOCRLabel

!mkdir work/PaddleDetection/dataset/MaskVOCData

2.2.2 制作VOC格式与COCO格式数据集并划分

#解压自制数据集
!unzip -oq /home/aistudio/data/data101583/facemask.zip -d work/PaddleDetection/dataset/MaskVOCData

#导入paddlex 
!pip install paddlex

#划分VOC数据集
!paddlex --split_dataset --format VOC --dataset_dir work/PaddleDetection/dataset/MaskVOCData/ --val_value 0.15  --test_value 0.05

%cd work/PaddleDetection/

#制作COCO数据集
#提取文件下img目录所有照片名不要后缀
import pandas as pd 
import os


filelist = os.listdir("dataset/MaskVOCData/JPEGImages")
train_name = []

for file_name in filelist:
    name, point ,end =file_name.partition('.')
    train_name.append(name)

df = pd.DataFrame(train_name) 
df.head(8)

df.to_csv('./train_all.txt', sep='\t', index=None,header=None)

!mkdir -p dataset/MaskVOCData/ImageSets/Main
!mv train_all.txt dataset/MaskVOCData/ImageSets
!mv dataset/MaskVOCData/labels.txt dataset/MaskVOCData/label_list.txt
!cp dataset/MaskVOCData/label_list.txt dataset/MaskVOCData/ImageSets/

#备份VOC 
!cp -r dataset/MaskVOCData  /home/aistudio/

!python tools/x2coco.py \
        --dataset_type voc \
        --voc_anno_dir dataset/MaskVOCData/Annotations \
        --voc_anno_list dataset/MaskVOCData/ImageSets/train_all.txt \
        --voc_label_list dataset/MaskVOCData/ImageSets/label_list.txt \
        --voc_out_name ./dataset/annotations.json

提示:AssertionError:label is not in label2id. 假如遇见这个问题，说明你的label对应不上标注文件里面的label，在打标签的时候不要有空格

!mv dataset/MaskVOCData dataset/MaskCOCOData
!mv ../../MaskVOCData dataset
!mkdir dataset/MaskCOCOData/annotations
!mv dataset/annotations.json  dataset/MaskCOCOData/annotations
!rm dataset/MaskCOCOData/train_list.txt
!rm dataset/MaskCOCOData/val_list.txt
!rm dataset/MaskCOCOData/label_list.txt
!rm dataset/MaskCOCOData/test_list.txt
!rm -r dataset/MaskCOCOData/Annotations
!rm -r dataset/MaskCOCOData/ImageSets

#划分COCO数据集
!paddlex --split_dataset --format COCO --dataset_dir dataset/MaskCOCOData/annotations --val_value 0.15  --test_value 0.05

三、数据处理方法

3.1 图像的本质

我们常见的图片其实分为两种，一种叫位图，另一种叫做矢量图。如下图所示：

位图的特点:

由像素点定义一放大会糊
文件体积较大
色彩表现丰富逼真

矢量图的特点:

超矢量定义
放太不模糊
文件体积较小
表现力差

%cd /home/aistudio/work/PaddleDetection

import paddle
import paddlex as pdx
import numpy as np
import paddle.nn as nn
import paddle.nn.functional as F
import PIL.Image as Image
import cv2 
import os

from random import shuffle
from paddlex.det import transforms as T
from PIL import Image, ImageFilter, ImageEnhance

import matplotlib.pyplot as plt # plt 用于显示图片

path='dataset/MaskCOCOData/JPEGImages/maksssksksss195.png'
img = Image.open(path)
plt.imshow(img)          #根据数组绘制图像
plt.show()               #显示图像


# 灰度图
img = np.array(Image.open(path).convert('L'), 'f')
plt.imshow(img,cmap="gray")          #根据数组绘制图像
plt.show()               #显示图像

#小Tips:jupyter notebook中plt显示灰度图异常，需要使用plt.imshow(gray,cmap="gray")方法正常显示灰度图。

#原图
img = cv2.imread(path)
plt.subplot(221)
plt.imshow(img,cmap="gray")
# matplotlib 按照RGB顺序展示原图
plt.imshow(cv2.cvtColor(img,cv2.COLOR_BGR2RGB)) 
plt.subplot(222)
# cv2默认的GBR显示图
plt.imshow(img)
plt.subplot(223)
# 32*32的缩略图
plt.imshow(cv2.resize(img, (32, 32)))

#图像处理示例  目标视野里比较多重叠，或者有点模糊的适用 
path='dataset/MaskCOCOData/JPEGImages/maksssksksss443.png'
img = Image.open(path)
plt.imshow(img)        
plt.show()  


#锐化
img = img.filter(ImageFilter.SHARPEN)
img = img.filter(ImageFilter.SHARPEN)
plt.imshow(img)        
plt.show()          

#亮度变换
bright_enhancer = ImageEnhance.Brightness(img)    # 传入调整系数亮度
img = bright_enhancer.enhance(1.6)
plt.imshow(img)        
plt.show() 

#提高对比度
contrast_enhancer = ImageEnhance.Contrast(img)    # 传入调整系数对比度
img = contrast_enhancer.enhance(1.9)
plt.imshow(img)        
plt.show()

3.2 为什么要做这些数据增强

是因为很多深度学习的模型复杂度太高了，且在数据量少的情况下，比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了)，表现为的这个模型呢受到了很多无关因素的影响。
所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。


def preprocess(dataType="train"):
    if dataType == "train":
        transform = T.Compose([
            T.MixupImage(mixup_epoch=10),   #对图像进行mixup操作，模型训练时的数据增强操作，目前仅YOLOv3模型支持该transform
            # T.RandomExpand(),        #随机扩张图像
            # T.RandomDistort(brightness_range=1.2, brightness_prob=0.3),       #以一定的概率对图像进行随机像素内容变换
            # T.RandomCrop(),          #随机裁剪图像
            # T.ResizeByShort(),  #根据图像的短边调整图像大小
            T.Resize(target_size=608, interp='RANDOM'),   #调整图像大小,[’NEAREST’, ‘LINEAR’, ‘CUBIC’, ‘AREA’, ‘LANCZOS4’, ‘RANDOM’]
            # T.RandomHorizontalFlip(),  #以一定的概率对图像进行随机水平翻转
            T.Normalize()  #对图像进行标准化
            ])
        return transform
    else:
        transform = T.Compose([
            T.Resize(target_size=608, interp='CUBIC'), 
            T.Normalize()
            ])
        return transform


train_transforms = preprocess(dataType="train")
eval_transforms  = preprocess(dataType="eval")



# 定义训练和验证所用的数据集
# API地址：https://paddlex.readthedocs.io/zh_CN/develop/data/format/detection.html?highlight=paddlex.det
train_dataset = pdx.datasets.VOCDetection(
    data_dir='./dataset/MaskVOCData',
    file_list='./dataset/MaskVOCData/train_list.txt',
    label_list='./dataset/MaskVOCData/label_list.txt',
    transforms=train_transforms,
    shuffle=True)
eval_dataset = pdx.datasets.VOCDetection(
    data_dir='./dataset/MaskVOCData',
    file_list='./dataset/MaskVOCData/val_list.txt',
    label_list='./dataset/MaskVOCData/label_list.txt',
    transforms=eval_transforms)

四、模型训练与评估

import matplotlib
matplotlib.use('Agg') 
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

#num_classes有些模型需要加1 比如faster_rcnn
num_classes = len(train_dataset.labels)

model = pdx.det.PPYOLO(num_classes=num_classes, )

model.train(
    num_epochs=70,
    train_dataset=train_dataset,
    train_batch_size=16,
    eval_dataset=eval_dataset,
    learning_rate=3e-5,
    warmup_steps=90,
    warmup_start_lr=0.0,
    save_interval_epochs=7,
    lr_decay_epochs=[42, 70],
    save_dir='output/PPYOLO',
    use_vdl=True)

!mkdir ./output

!unzip -oq /home/aistudio/data/data101583/PPYOLO_YES.zip  -d ./output
!unzip -oq /home/aistudio/data/data101583/PPYOLO_ALL.zip  -d ./output
!unzip -oq /home/aistudio/data/data101583/PPYOLO_NO.zip   -d ./output


!mv -f output/home/aistudio/PPYOLO_ALL  output
!mv -f output/home/aistudio/PPYOLO_YES  output
!rm -r output/home/

注意：训练点中断后的必须重启环境，清除中断之前缓存的环境，点重启。重新运行代码块 7、20、31、32、37 即可继续往后执行前面的加(39) 即可重新训练。

4.1 比对实验

在其他参数都相同的情况下，在没有加任何的数据增强时，mAP为38.06：

在其他参数都相同的情况下，在随机扩张，随机像素变换数据增强时，mAP为41.9：

在其他参数都相同的情况下，在加随机裁剪，随机水平翻转，短边调整，与Mixup的数据增强时，mAP为35.4：

以上对比实验说明，正确的增加数据增强时，可以小幅度提升mAP值。

4.2 拓展介绍mAP：

在机器学习领域中，用于评价一个模型的性能有多种指标，其中几项就是FP、FN、TP、TN、精确率(Precision)、召回率(Recall)、准确率(Accuracy)。

mean Average Precision, 即各类别AP的平均值，是AP：PR 曲线下面积。

此前先了解一下IOU评判标准：

TP、FP、FN、TN

常见的评判方式，第一位的T,F代表正确或者错误。第二位的P和N代表判断的正确或者错误

True Positive (TP): $\mathrm{IoU}>I O U_{\text {threshold }}$ (IOU的阈值一般取0.5)的所有检测框数量（同一Ground Truth只计算一次），可以理解为真实框，或者标准答案
False Positive (FP): $\mathrm{IoU}IoU<IOUthreshold $

False Negative (FN): 没有检测到的 GT 的数量

True Negative (TN): mAP中无用到

查准率（Precision）: Precision $=\frac{T P}{T P+F P}=\frac{T P}{\text { all detections }}$

查全率（Recall）: Recall $=\frac{T P}{T P+F N}=\frac{T P}{\text { all ground truths }}$

二者绘制的曲线称为 P-R 曲线：
查准率：P 为纵轴y 查全率：R 为横轴x轴，如下图

mAP值即为，PR曲线下的面积。

五、模型推理预测

使用模型进行预测，同时使用pdx.det.visualize将结果可视化，可视化结果将保存到work/PaddleDetection/output/PPYOLO/vdl_log下,载入模型推理保存图片至work/PaddleDetection/output/PPYOLO/img下。

#maksssksksss152.png maksssksksss105.png model = pdx.load_model('output/PPYOLO_YES/best_model') image_dir = '../../Test/' images = os.listdir(image_dir) for img in images: image_name = image_dir + img result = model.predict(image_name) pdx.det.visualize(image_name, result, threshold=0.3, save_dir='./output/PPYOLO_YES/img')

#展示模型推理结果 path = "../../Test/maksssksksss152.png" img = Image.open(path) plt.imshow(img) #根据数组绘制图像 plt.show() #显示图像 path = 'output/PPYOLO_YES/img/visualize_maksssksksss152.png' img = Image.open(path) plt.imshow(img) #根据数组绘制图像 path = "../../Test/maksssksksss152.png" img = Image.open(path) plt.imshow(img) #根据数组绘制图像 plt.show() #显示图像 path = 'output/PPYOLO_YES/img/visualize_maksssksksss152.png' img = Image.open(path) plt.imshow(img) #根据数组绘制图像 plt.show() #显示图像

六、总结

本次课程主要为大家介绍了数据集获取，以及数据标注、数据划分、数据增强处理方法和简单的口罩检测实现，及其用数据增强和不用数据增强的对比实验，体现了数据增强在AI学习中的重要性，接下来有其他大佬的讲的更多更多干货的课程，也会更加深入，难度也会有所提升，想部署自己训练的模型吗，敬请关注后续更有意思的落地部署，大家加油！

Vision Transformer（ViT）：用 Transformer 颠覆图像识别金外飞176 论文精读 transformer 深度学习人工智能
VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。然而，近年来，自然语言处理（NLP）领域中大放异彩的Transformer架构也开始在图像识别中崭露头角。今天，我们将深入探讨一种创新的架构——VisionTransformer（ViT），它将Transformer的强大能力直接应用于图像
YOLOv8到YOLOv11：深度解析目标检测架构的演进金外飞176 技术前沿目标跟踪人工智能计算机视觉目标检测 YOLO 神经网络深度学习
YOLOv8到YOLOv11：深度解析目标检测架构的演进在计算机视觉领域，YOLO（YouOnlyLookOnce）系列模型一直是实时目标检测领域的佼佼者。从2015年的YOLOv1到2024年的YOLOv11，这一系列模型经历了快速的迭代和发展，不断刷新着目标检测的性能和效率。然而，由于部分YOLO版本缺乏详细的学术论文和架构图，研究人员和开发者在理解这些模型的工作原理时往往面临挑战。最近，一篇
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
使用BLIP模型生成图像描述的可查询索引 dgay_hua python 计算机视觉开发语言
在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。使用示例代码进行演示，帮助读者理解和实践。技术背景介绍随着计算机视觉技术的发展，图像描述生成成为了重要的研究领域。通过对图像内容自动生成文字描述，可以大大提高对图像信息的检索和管理效率。Salesfo
深度学习模型中的知识蒸馏是如何工作的? c++服务器开发深度学习人工智能
深度学习模型在多个领域，特别是计算机视觉和自然语言处理中，已经取得了革命性的进展。然而，随着模型复杂性和资源需求的不断攀升，如何将这些庞大模型的知识浓缩为更紧凑、更高效的形式，成为了当前研究的热点。知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。在本文中，我们将深入探究深度学习模型中知识蒸馏的概念、原理及其在各领域的应用，以期为读者提供一个全面而严谨的视角
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
OpenCV的卡尔曼滤波器：实现和应用雪域Code opencv 人工智能计算机视觉 C/C++
OpenCV的卡尔曼滤波器：实现和应用卡尔曼滤波器（Kalmanfilter）是一种最优估计的算法，在众多领域有着广泛的应用，如控制系统、通信系统、机器人等。OpenCV作为一个计算机视觉库，也提供了对卡尔曼滤波器的支持。本文将介绍OpenCV中卡尔曼滤波器的基本原理、实现方法以及在图像处理中的应用。一、卡尔曼滤波器简介卡尔曼滤波器是一种用于状态估计和信号滤波的算法，主要针对线性、高斯分布的系统。
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命 ProgramHan 人工智能计算机视觉学习
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命引言：从“数据饥渴”到“智能涌现”传统计算机视觉高度依赖海量标注数据，但现实场景中标注成本高昂且覆盖范围有限。例如，医疗影像标注需专业医生耗时数月，工业缺陷检测需针对特定产线定制数据集。生成式AI（如Diffusion模型、自监督学习）的崛起，正在打破这一瓶颈——通过更高效的训练范式与计算架构，让机器学会“从无标注数据中看见世界”。（示意图：
【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测 IT古董深度学习人工智能深度学习计算机视觉目标检测
1.什么是DETR？DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框（AnchorBoxes）和非极大值抑制（NMS）机制，使目标检测变得更简单、高效。论文：End-to-EndObjectDetectionwithTransforme
机器学习:支持向量机小源学AI 人工智能支持向量机机器学习算法
基本概念1.什么是支持向量机支持向量机是一种二分类模型,在机器学习、计算机视觉、数据挖掘中广泛应用,主要用于解决数据分类问题,它的目的是寻找一个超平面对样本进行分割,分割的原则是间隔最大化(也就是数据集的边缘点到分界点的距离d最大)最终转化成一个凸二次规划问题来求解。通常的SVM用于二元分类问题,对于多元分类问题可将其分解为多个二元分类问题,在进行分类。2.最优分类边界什么才是最优分类边界?什么条
基于图像处理的裂缝检测与特征提取机器懒得学习图像处理计算机视觉人工智能
一、引言裂缝检测是基础设施监测中至关重要的一项任务，尤其是在土木工程和建筑工程领域。随着自动化技术的发展，传统的人工巡检方法逐渐被基于图像分析的自动化检测系统所取代。通过计算机视觉和图像处理技术，能够高效、精确地提取裂缝的几何特征，如长度、宽度、方向、面积等，从而为工程质量评估提供数据支持。本文将详细介绍一段用于裂缝检测与特征提取的Python代码，重点讲解其实现的核心算法与关键步骤，分析其应用场
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
CVPR2023 Highlight | ECON：最新单图穿衣人三维重建SOTA算法 3Ｄ视觉工坊 3D视觉从入门到精通算法 SLAM 自动驾驶 3D视觉
作者：宁了个宁|来源：计算机视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf。添加微信：dddvisiona，备注：三维重建，拉你入群。文末附行业细分群。图1所示。从彩色图像进行人体数字化。ECON结合了自由形式隐式表示的最佳方面，以及明确的拟人化正则化，以推断高保真度的3D人类，即使是宽松的衣服或具有挑战性的姿势。0.笔者个人体会这篇文章讨论了单图像的穿着人类重建问题。隐式方
商汤绝影端到端自动驾驶的迭代优化 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,端到端,迭代优化,深度学习,感知,规划,控制,模型训练,数据增强,模型微调1.背景介绍随着人工智能和计算机视觉技术的飞速发展，自动驾驶汽车从科幻走进了现实。商汤科技推出的绝影端到端自动驾驶系统，就是其中的佼佼者。本文将深入剖析商汤绝影端到端自动驾驶系统的迭代优化过程，帮助读者理解其背后的技术原理和架构设计。2.核心概念与联系商汤绝影端到端自动驾驶系统的核心架构如下：graphLRA[感知
使用OpenCV在Visual Studio上编译x86或x64平台的应用程序程序世界航海 opencv visual studio 人工智能编程
OpenCV是一个广泛使用的计算机视觉库，它提供了丰富的图像处理和计算机视觉算法。如果你想在VisualStudio上编译一个使用OpenCV的应用程序，并且需要针对特定的x86或x64平台进行优化，那么本文将为你提供一些指导。以下是在VisualStudio中编译x86或x64平台上的OpenCV应用程序的步骤：步骤1：安装VisualStudio和OpenCV首先，确保你已经安装了最新版本的V
探秘 DeepSeek R1 模型：跨越多领域的科技奇迹，引领智能应用新浪潮羑悻的小杀马特. AI学习科技 deepseek AI大模型
DeepSeekR1模型功能强大，应用广泛。在自然语言处理、计算机视觉、推荐系统和医疗等领域都能发挥作用。本文介绍了其在各领域的应用场景和代码示例，助你深入了解它。目录编辑一、本篇背景：二、DeepSeekR1模型概述：2.1模型特点：2.2技术原理：三、自然语言处理领域的应用：3.1文本分类：3.1.1应用场景：3.1.2代码演示：3.2情感分析：3.2.1应用场景：3.2.2代码演示：3.3机
OpenCV 简介奇点创客 OpenCV
OpenCV（OpenSourceComputerVisionLibrary，开源计算机视觉库：http://opencv.org）是一个开放源代码库，其中包含数百种计算机视觉算法。本文档介绍所谓的OpenCV2.xAPI，与基于C的OpenCV1.xAPI相比，该API本质上是一套C++API（自OpenCV2.4发行以来，不推荐再使用CAPI，并且不使用“C”编译器进行测试）。OpenCV具有
本地部署DeepSeek模型技术指南 Evaporator Core apache Doris 人工智能 deepseek
DeepSeek模型是一种先进的深度学习模型，广泛应用于自然语言处理、计算机视觉等领域。为了充分利用DeepSeek模型的强大功能，许多开发者和研究人员选择在本地环境中部署该模型。本文将详细介绍如何在本地环境中部署DeepSeek模型，包括环境准备、模型下载、配置、优化以及代码实现等内容。通过本文的指导，您将能够在本地成功部署并运行DeepSeek模型。1.环境准备在部署DeepSeek模型之前，
计算机视觉如何快速入门? Frunze软件开发日常问题回答开发语言计算机视觉工业异常检测论文
目录1.明确研究方向2.学习基础知识3.掌握核心算法4.实践项目5.阅读文献6.复现经典论文7.改进与创新总结计算机视觉（ComputerVision）是一个复杂且广泛的领域，尤其是工业异常检测这种特定方向，需要结合理论知识和实践技能。以下是一些具体的、可操作的建议，也是个人实际路径的一个总结，希望可以帮助到你快速入门并完成一篇论文。1.明确研究方向-工业异常检测的核心是识别图像或视频中的异常区域
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进金外飞176 技术前沿目标跟踪人工智能计算机视觉
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进YOLO（YouOnlyLookOnce）系列目标检测算法自2016年首次发布以来，凭借其高效的实时检测能力，迅速成为计算机视觉领域的热门研究方向之一。本文将详细回顾YOLO系列从v1到v11的版本迭代过程，分析每个版本的技术改进、性能提升以及应用场景。1.YOLOv1：开创性的单阶段检测算法YOLOv1是目标检测领域的一个重要里程碑，
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
RK3588+昇腾AI｜40TOPS算力AI盒子设计方案 ARM+FPGA+AI工业主板定制专家 AI盒子瑞芯微人工智能
综合视频智能AI分析系统介绍以计算机视觉技术为基础，AI赋能千行百业，依托人工智能视觉分析技术以及强大的“端+边”算力支撑，实时分析烟火，入侵等事件，同时结合云上预警业务平台，实现事件发现、预警、处置全流程闭环。设计架构系统架构视频智能识别系统自下而上分为“感知层、网络层、支撑层、应用层”四层，系统逻辑架构如下图所示：感知层对接前端感知设备，如视频监控、NVR、和其他物联感知设备，对重要通道和场所
计算机视觉中图像的基础认知全栈你个大西瓜人工智能计算机视觉人工智能图像基本属性 RGB 三通道彩色单通道灰度图像 OpenCV Matplotlib
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中，图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。宽度（W）和高度（H）定义了图像的像素分辨率，单位通常是像素。例如，一张1920x1080的图像有1920列（
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
基于深度学习YOLOv10的PCB板缺陷检测系统（附完整资源+PySide6界面+训练代码）人工智能_SYBH 深度学习 YOLO 人工智能目标检测 python
引言：在现代制造业中，电子元件和PCB（印刷电路板）是非常重要的基础设施。PCB缺陷检测是生产过程中至关重要的一步。传统的缺陷检测方法主要依靠人工检查，这不仅效率低，而且容易受到人眼疲劳的影响。随着深度学习技术的不断发展，基于深度学习的自动化缺陷检测已成为研究的热点，尤其是在计算机视觉领域。YOLO（YouOnlyLookOnce）系列算法凭借其高速和高精度的优势，成为了目标检测领域的佼佼者。本文
景联文科技数据处理平台：支持高质量图像标注服务景联文科技人工智能科技计算机视觉
图像标注是计算机视觉领域中不可或缺的一环，它通过为图像添加标签来帮助机器学习算法理解图像内容。这一过程对于创建高质量的训练数据集至关重要，使得AI模型能够准确地识别和分类现实世界中的物体。常见的图像标注类型：边界框标注：这是最常用的标注方式之一，通常用于物体检测任务。通过绘制矩形框来确定图像中目标物体的位置，可以是二维或三维形式。分割标注：包括语义分割（同一类别的所有实例被视为整体）和实例分割（每
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam