UESTC_liuxin

天池大赛-数智重庆比赛日志

文章目录

基本环境与mmdetection配置与应用

1. 安装cuda和cudnn
2.anaconda安装+创建子环境
3.安装mmdetection

mmd论文翻译
coco数据集以及标注方式

简介
json标注文件的格式

在酒瓶数据集上进行配置与训练

数据集准备与处理

数据集下载地址：

数据集清洗
~~预训练模型的修改~~
coco文件修改
configuration文件修改
Start
训练
测试
结果提交

关于测试评分的一些研究

TP、FP、FN以及precision、recall
P-R曲线

数据集分类代码

此帖子用于记录天池大赛的比赛经历，同时为组内人员做笔记
比赛详情：https://tianchi.aliyun.com/competition/entrance/231763/forum

基本环境与mmdetection配置与应用

先说下基本环境：ubuntu18.04，gcc 7.4.0 ,显卡2060s（8g）
以下的配置都是根据官网给出的傻瓜教程的要求完成的：BaseLine开源mmdetection

1. 安装cuda和cudnn

anaconda 的 cudatoolkit 不包含完整安装cuda的全部文件，只是包含了用于 tensorflow，pytorch，xgboost 和 Cupy 等所需要的共享库文件。这里涉及到cuda编译，所以仅仅安装conda中的cudatookit是不够的，会报错，所以需要安装cuda和cudnn
具体安装教程网上都有，我就不细说，但是记录几个要点：

ubuntu下选择的显卡驱动为430驱动，gcc版本为7.4.0

nvidia-smi #查看驱动是否安装好
gcc --version#查看gcc版本

cuda的版本为10.1，按理说可以更高，但10.1肯定没问题，cuda安装成功的最好验证方式就是编译Sample。
这里记录一下Sample的编译做法：

cd /usr/local/cuda/samples/1_Utilities/deviceQuery 
sudo make
./deviceQuery

最后一定要输出true，不然一定是有问题的，再检查一下是否自己的驱动，gcc版本有问题。
3. 要记得安装cudnn.

2.anaconda安装+创建子环境

anaconda官方下载地址：下载地址
anaconda清华源下载地址：下载地址
直接下最新的就好了，使用时单独创建不同的python环境。
注意：这两种方式下载的都是*.sh文件，在安装时直接定位到下载路径：

sudo sh Anaconda3-2019.10-Linux-x86_64.sh

然后跟着提示做就好了。
NOTICE：到了这里，不要以为就完了，这里需要执行环境变量添加操作：

source ~/.bashrc

你可以用cat指令看到此环境变量，随后，创建子环境

conda create -n mmdetection python=3.7 #创建子环境
conda activate mmdetection   #激活/进入子环境
conda list  #列出子环境的包

接下来进行一个比较常规的操作，由于conda的服务器在国外，下载速度会比较慢，这里可以配置一下清华镜像源：这里直接参考我之前的帖子好了。CSDN链接

3.安装mmdetection

根据BaseLine开源mmdetection来就好了。
NOTICE：教程中给出了

conda install pytorch=1.1.0 torchvision=0.3.0 cudatoolkit=10.0 -c pytorch

但实际上，加-c是为了从原channel进行下载，但是原channel可能在国外，我们安装的过程中会下载失败或者下载缓慢。但是下载失败之后，会有下载链接弹出来，这时候直接根据提示，用浏览器下载：
我这里给出两个会出错的包的链接：
pytorch1.1.0链接删了
torchvision0.3.0
下载好之后，直接复制到./anaconda3/pkgs/下面，进入该目录，用：
conda install --use-local torchvision-0.3.0-py37_cu10.0.130.tar.bz2 可以安装成功。

NOTICE：按照此方式下安装pillow的版本是7.0.0版本或者以上的，会在后面报错，PIL的** VERSION **什么的。
解决方法：pip install pillow==6.1 降低版本就可以解决。
接下来就跟着论坛上的内容跟着做就OK了。

mmd论文翻译

详见另一篇帖子：https://blog.csdn.net/qq_20549061/article/details/104129115

coco数据集以及标注方式

简介

总类别：80类
3种标注类型，使用json文件存储，每种类型包含了训练和验证
object instances（目标实例）：也就是目标检测object detection
object keypoints（目标上的关键点）
image captions（看图说话）

json标注文件的格式

在python里面，读取出json标注格式文件，实际上是一个dict，除了info，其余都是对应的数据类型的数组，如下所示：

{
    "info": info,
    "licenses": [license],
    "images": [image],
    "annotations": [annotation],
    "categories": [category]
}

object instances（目标实例）、object keypoints（目标上的关键点）、image captions（看图说话）这3种类型共享这些基本类型：info、image、license，annotation和category这两种字段，他们在不同类型的JSON文件中是不一样的。
下面以目标检测为例，概述一下其中每个字段的结构与包含的信息：
（1）images字段列表元素的长度等同于划入训练集（或者测试集）的图片的数量；
（2）annotations字段列表元素的数量等同于训练集（或者测试集）中bounding box的数量；
（3）categories字段列表元素的数量等同于类别的数量，coco为80（2017年）；

info{
    "year": int,  #
    "version": str,
    "description": str,
    "contributor": str,
    "url": str,
    "date_created": datetime,
}
###这个一般用不到
license{
    "id": int,
    "name": str,
    "url": str,
} 
###比较重要的就是这个，有时候只包含4种实际需要的信息：id，file_name,width,height.
image{
    "id": int,     #图片唯一识别号
    "width": int,   #尺寸
    "height": int, 
    "file_name": str ,#文件名
    "license": int,  
    "flickr_url": str,
    "coco_url": str,
    "date_captured": datetime,
}

下面举出几个标注的实例：
1，info 类型，比如一个info类型的实例：

"info":{
	"description":"This is stable 1.0 version of the 2014 MS COCO dataset.",
	"url":"http:\/\/mscoco.org",
	"version":"1.0","year":2014,
	"contributor":"Microsoft COCO group",
	"date_created":"2015-01-27 09:11:52.357475"
},

2，image类型的实例：

{
	"license":3,
	"file_name":"COCO_val2014_000000391895.jpg",
	"coco_url":"http:\/\/mscoco.org\/images\/391895",
	"height":360,
	"width":640,
	"date_captured":"2013-11-14 11:18:45",
	"flickr_url":"http:\/\/farm9.staticflickr.com\/8186\/8119368305_4e622c8349_z.jpg",
	"id":391895
},

3，license类型的实例：

{
	"url":"http:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/",
	"id":1,
	"name":"Attribution-NonCommercial-ShareAlike License"
},

接下来介绍一下比较重要的annotation和category这两个字段：
这个类型中的annotation结构体包含了Object Instance中annotation结构体的所有字段，再加上2个额外的字段。
新增的keypoints是一个长度为3*k的数组，其中k是category中keypoints的总数量。每一个keypoint是一个长度为3的数组，第一和第二个元素分别是x和y坐标值，第三个元素是个标志位v，v为0时表示这个关键点没有标注（这种情况下x=y=v=0），v为1时表示这个关键点标注了但是不可见（被遮挡了），v为2时表示这个关键点标注了同时也可见。
num_keypoints表示这个目标上被标注的关键点的数量（v>0），比较小的目标上可能就无法标注关键点。

annotation{
    "keypoints": [x1,y1,v1,...],  #新增的
    "num_keypoints": int,     #新增的
    "id": int,                           #annotation的id，id的个数对应的就是bbox的个数
    "image_id": int,
    "category_id": int,        #列别编号
    "segmentation": RLE or [polygon],
    "area": float,
    "bbox": [x,y,width,height],
    "iscrowd": 0 or 1,
}

最后，对于每一个category结构体，相比Object Instance中的category新增了2个额外的字段，keypoints是一个长度为k的数组，包含了每个关键点的名字；skeleton定义了各个关键点之间的连接性（比如人的左手腕和左肘就是连接的，但是左手腕和右手腕就不是）。目前，COCO的keypoints只标注了person category （分类为人）。
定义如下：

{
    "id": int,           
    "name": str,    
    "supercategory": str,   #大类名字，比如西瓜，属于水果大类这种意思
    "keypoints": [str],
    "skeleton": [edge]    #新增的，主要用于人体
}

这次比赛的数据集比较简单，四个大类，11个小类别，包括了

'背景','瓶盖破损', '瓶盖变形', '瓶盖坏边', '瓶盖打旋',  '瓶盖断点', '标贴歪斜', '标贴起皱',  '标贴气泡', '喷码正常', '喷码异常'

除了背景外，每一个annotation都应该包含了类别信息和bbox
以下是数据集的实例：有效标注只有3种

"images": [
{"file_name": "img_0017151.jpg",
 "height": 492, 
 "id": 1,
  "width": 658},..................]

 "categories": [
   {"supercategory": "\u74f6\u76d6\u7834\u635f",   //这里用的是Unicode的中文编码，大类名
    "id": 1,                                 //列别编号
     "name": "\u74f6\u76d6\u7834\u635f"},    //小类名
     {"supercategory": "\u55b7\u7801\u6b63\u5e38",
      "id": 9,
       "name": "\u55b7\u7801\u6b63\u5e38"},.......]


"annotations": [
{"area": 2522.739400000001, 
"iscrowd": 0, 
"image_id": 1, 
"bbox": [165.14, 53.71, 39.860000000000014, 63.29],
"category_id": 2, "id": 213},

 {"area": 207.50240000000025, 
 "iscrowd": 0, 
 "image_id": 2, 
 "bbox": [465.71, 314.86, 13.580000000000041, 15.279999999999973], 
 "category_id": 5, "id": 1169}, .........]

在酒瓶数据集上进行配置与训练

这里记录一下我能够成功训练的配置

数据集准备与处理

数据集下载地址：

训练集，测试集

数据集清洗

然后我们需要对数据进行清洗，这里的清洗实际上是为了清除掉json文件中只有"背景"（class_id=0）的图片，并且要清除掉所有的背景的标签（由于是个多分类，多目标的问题，所以，同一个图片也会有背景的标签，所以需要清除）。
关于为什么要进行这样的清洗，我的理解是这样的：之前也问过程老师这个问题，就是在工业检测的过程中，我们应当关注正常的数据还是应该关注瑕疵，不同于识别技术，识别技术力求于整个对象的特征表达，并进行一个建模，去做区分。而我们的检测技术，更注重于需要关注的信息，比如在图片中检测到一个人，那么我们的重点是需要证明它是一个人的证据（特征），检测瑕疵也是同样的道理，我们关注的不是整个产品，而是要寻找到这个产品上的瑕疵，并对这个瑕疵进行一个表达。那么我们在训练过程中，训练的也是对瑕疵的表达，比如破损，裂痕等等。在数据集中如果存在了大量的正常数据，由于正常数据中也包含了瓶子，也包含有类似于瑕疵的东西，反而会造成对瑕疵表达有偏差。论坛里也有人给出了这样的说法： 背景类在 mAP 评价里面权重为 0，而且背景的标注也比较随意，很多都是左上角一个小框，反而可能对结果有副作用。

清洗的方法同样，在论坛上能够找到（PS：真的感谢这些无私的大佬能够对我们这群小白这照顾，技术届这样的氛围，何愁计算机技术不能蓬勃发展，程序员才是改变世界的人）。
下面给出链接：数据清洗

我是直接用的大佬给出的json文件替换了原本的文件，注意：这里的清洗实际上并没有删除图片，只删除了这些背景图片在json文件种的标注，使其不纳入训练。

预训练模型的修改

2020/2/6：不存在实际训练影响
我这里是按照论坛上大佬的帖子做的，用的是cascade_rcnn的模型，先给出两个预训练模型的下载链接：链接：https://pan.baidu.com/s/1blfAtzi5TfLQ8gecYMD6PA 提取码：2dzb（来源于论坛）
由于原本的预训练模型应该是对应coco数据集的81个类别，但实际上应该只有11个类别，所以我们要对预训练模型在全连接层进行一个维度的修改。至于为什么这么改，代码是什么意思，我有时间再来解释。
新建一个文件夹checkpoints在项目的根目录，并放入下载的两个模型文件，再新建一个文件modify.py放在checkpoints文件夹下，文件内容如下。并修改参数，运行。

def main(): 
    #gen coco pretrained weight 
    import torch 
    num_classes = 11     #重点在这里，11个类别
    model_coco = torch.load("/media/liuxin/DATA/CV/Project/TianChi/mmdetection-master/checkpoints/cascade_rcnn_r50_fpn_1x_20190501-3b6211ab.pth") # weight 
    model_coco["state_dict"]["bbox_head.0.fc_cls.weight"] = \
    model_coco["state_dict"]["bbox_head.0.fc_cls.weight"][ :num_classes, :] 
    model_coco["state_dict"]["bbox_head.1.fc_cls.weight"] = \
    model_coco["state_dict"]["bbox_head.1.fc_cls.weight"][ :num_classes, :] 
    model_coco["state_dict"]["bbox_head.2.fc_cls.weight"] = \
    model_coco["state_dict"]["bbox_head.2.fc_cls.weight"][ :num_classes, :] 
    # bias 
    model_coco["state_dict"]["bbox_head.0.fc_cls.bias"] = \   # zheng  wen 操作：取消注释
    model_coco["state_dict"]["bbox_head.0.fc_cls.bias"][ :num_classes] 
    model_coco["state_dict"]["bbox_head.1.fc_cls.bias"] = \
    model_coco["state_dict"]["bbox_head.1.fc_cls.bias"][ :num_classes] 
    model_coco["state_dict"]["bbox_head.2.fc_cls.bias"] = \
    model_coco["state_dict"]["bbox_head.2.fc_cls.bias"][ :num_classes] 
    # save new model 
    torch.save(model_coco, "/media/liuxin/DATA/CV/Project/TianChi/mmdetection-master/checkpoints/cascade_rcnn_r50_coco_pretrained_weights_classes_%d.pth" % num_classes) 
if __name__ == "__main__": 
    main()

运行之后我们会得到新的模型文件。

coco文件修改

    CLASSES = ('背景', '瓶盖破损','瓶盖变形','瓶盖坏边','瓶盖打旋','瓶盖断点'
               ,'标贴歪斜','标贴起皱','标贴气泡','喷码正常','喷码异常')

configuration文件修改

2020/2/6：重新修改配置
修改configs文件夹下的cascade_rcnn_r50_fpn_1x.py文件
~~这里与论坛上的文件相比较，注释了fp16 = dict(loss_scale=512.)这句代码，否则会在训练时报错。~~

# fp16 settings
fp16 = dict(loss_scale=512.)
# model settings
model = dict(
    type='CascadeRCNN',
    num_stages=3,
    pretrained='torchvision://resnet50',
    backbone=dict(
        type='ResNet',
        depth=50,
        num_stages=4,
        out_indices=(0, 1, 2, 3),
        frozen_stages=1,
        style='pytorch',
        # gen_attention=dict(
        #     spatial_range=-1, num_heads=8, attention_type='0010', kv_stride=2),
        # stage_with_gen_attention=[[], [], [0, 1, 2, 3, 4, 5], [0, 1, 2]],
        dcn=dict(
            type='DCN', deformable_groups=1, fallback_on_stride=False),
        stage_with_dcn=(False, True, True, True)
    ),
    neck=dict(
        type='FPN',
        in_channels=[256, 512, 1024, 2048],
        out_channels=256,
        num_outs=5),
    rpn_head=dict(
        type='RPNHead',
        in_channels=256,
        feat_channels=256,
        anchor_scales=[8],
        anchor_ratios=[0.5, 1.0, 2.0], # 添加了0.2，5，过两天发图
        anchor_strides=[4, 8, 16, 32, 64],
        target_means=[.0, .0, .0, .0],
        target_stds=[1.0, 1.0, 1.0, 1.0],
        loss_cls=dict(
            type='CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0), # 修改了loss，为了调控难易样本与正负样本比例
        loss_bbox=dict(type='SmoothL1Loss', beta=1.0 / 9.0, loss_weight=1.0)),
    bbox_roi_extractor=dict(
        type='SingleRoIExtractor',
        roi_layer=dict(type='RoIAlign', out_size=7, sample_num=2),
        out_channels=256,
        featmap_strides=[4, 8, 16, 32]),
    bbox_head=[
        dict(
            type='SharedFCBBoxHead',
            num_fcs=2,
            in_channels=256,
            fc_out_channels=1024,
            roi_feat_size=7,
            num_classes=11,
            target_means=[0., 0., 0., 0.],
            target_stds=[0.1, 0.1, 0.2, 0.2],
            reg_class_agnostic=True,
            loss_cls=dict(
                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0)),
        dict(
            type='SharedFCBBoxHead',
            num_fcs=2,
            in_channels=256,
            fc_out_channels=1024,
            roi_feat_size=7,
            num_classes=11,
            target_means=[0., 0., 0., 0.],
            target_stds=[0.05, 0.05, 0.1, 0.1],
            reg_class_agnostic=True,
            loss_cls=dict(
                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0)),
        dict(
            type='SharedFCBBoxHead',
            num_fcs=2,
            in_channels=256,
            fc_out_channels=1024,
            roi_feat_size=7,
            num_classes=11,                              #注意11个类别
            target_means=[0., 0., 0., 0.],
            target_stds=[0.033, 0.033, 0.067, 0.067],
            reg_class_agnostic=True,
            loss_cls=dict(
                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0),
            loss_bbox=dict(type='SmoothL1Loss', beta=1.0, loss_weight=1.0))
    ])
# model training and testing settings
train_cfg = dict(
    rpn=dict(
        assigner=dict(
            type='MaxIoUAssigner',
            pos_iou_thr=0.7,
            neg_iou_thr=0.3,
            min_pos_iou=0.3,
            ignore_iof_thr=-1),
        sampler=dict(
            type='RandomSampler',
            num=256,
            pos_fraction=0.5,
            neg_pos_ub=-1,
            add_gt_as_proposals=False),
        allowed_border=0,
        pos_weight=-1,
        debug=False),
    rpn_proposal=dict(
        nms_across_levels=False,
        nms_pre=2000,
        nms_post=2000,
        max_num=2000,
        nms_thr=0.7,
        min_bbox_size=0),
    rcnn=[
        dict(
            assigner=dict(
                type='MaxIoUAssigner',
                pos_iou_thr=0.5, # 更换
                neg_iou_thr=0.5,
                min_pos_iou=0.5,
                ignore_iof_thr=-1),
            sampler=dict(
                type='RandomSampler',
                num=512,
                pos_fraction=0.25,
                neg_pos_ub=-1,
                add_gt_as_proposals=True),
            pos_weight=-1,
            debug=False),
        dict(
            assigner=dict(
                type='MaxIoUAssigner',
                pos_iou_thr=0.6,
                neg_iou_thr=0.6,
                min_pos_iou=0.6,
                ignore_iof_thr=-1),
            sampler=dict(
                type='RandomSampler', # 解决难易样本，也解决了正负样本比例问题。
                num=512,
                pos_fraction=0.25,
                neg_pos_ub=-1,
                add_gt_as_proposals=True),
            pos_weight=-1,
            debug=False),
        dict(
            assigner=dict(
                type='MaxIoUAssigner',
                pos_iou_thr=0.7,
                neg_iou_thr=0.7,
                min_pos_iou=0.7,
                ignore_iof_thr=-1),
            sampler=dict(
                type='RandomSampler',
                num=512,
                pos_fraction=0.25,
                neg_pos_ub=-1,
                add_gt_as_proposals=True),
            pos_weight=-1,
            debug=False)
    ],
    stage_loss_weights=[1, 0.5, 0.25])
test_cfg = dict(
    rpn=dict(
        nms_across_levels=False,
        nms_pre=1000,
        nms_post=1000,
        max_num=1000,
        nms_thr=0.7,
        min_bbox_size=0),
    rcnn=dict(
        score_thr=0.05, nms=dict(type='nms', iou_thr=0.5), max_per_img=100)) # 这里可以换为sof_tnms
# dataset settings
dataset_type = 'CocoDataset'
data_root = '/home/liusiyu/liuxin/mmdetection/data/coco/' #数据集根目录
img_norm_cfg = dict(
    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations', with_bbox=True),
    dict(type='Resize', img_scale=[(1333, 800), (1333, 1200)], multiscale_mode='range',keep_ratio=True), #这里可以更换多尺度[(),()]
    dict(type='RandomFlip', flip_ratio=0.5),
    dict(type='Normalize', **img_norm_cfg),
    dict(type='Pad', size_divisor=32),
    dict(type='DefaultFormatBundle'),
    dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels']),
]
test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(
        type='MultiScaleFlipAug',
        img_scale=[(1333, 800), (1333, 1200)],
        flip=False,
        transforms=[
            dict(type='Resize', keep_ratio=True),
            dict(type='RandomFlip'),
            dict(type='Normalize', **img_norm_cfg),
            dict(type='Pad', size_divisor=32),
            dict(type='ImageToTensor', keys=['img']),
            dict(type='Collect', keys=['img']),
        ])
]
data = dict(
    imgs_per_gpu=2,
    workers_per_gpu=2,
    train=dict(
        type=dataset_type,
        ann_file=data_root + 'annotations/train2017.json',
        img_prefix=data_root + 'images/',
        pipeline=train_pipeline),
    val=dict(
        type=dataset_type,
        ann_file=data_root + 'annotations/val2017.json',
        img_prefix=data_root + 'images/',
        pipeline=test_pipeline),
    test=dict(
        type=dataset_type,
        ann_file=data_root + 'annotations/test2017.json',
        img_prefix=data_root + 'testimages/',
        pipeline=test_pipeline))
# optimizer
optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001) # lr = 0.00125*batch_size，不能过大，否则梯度爆炸。
optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2))
# learning policy
lr_config = dict(
    policy='step',
    warmup='linear',
    warmup_iters=500,
    warmup_ratio=1.0 / 3,
    step=[8,11])
checkpoint_config = dict(interval=1)
# yapf:disable
log_config = dict(
    interval=50,
    hooks=[
        dict(type='TextLoggerHook'), # 控制台输出信息的风格
        # dict(type='TensorboardLoggerHook') # 需要安装tensorflow and tensorboard才可以使用
    ])
# yapf:enable
# runtime settings
total_epochs =25
dist_params = dict(backend='nccl')
log_level = 'INFO'
import datetime
a=datetime.datetime.now().strftime('%Y%m%d%H%M')
work_dir = '/home/liusiyu/liuxin/mmdetection/checkpoints/cascade_rcnn_r50_fpn_1x/{}'.format(a)
# load_from = "/home/liusiyu/liuxin/mmdetection/model/cascade_rcnn_r50_fpn_1x_20190501-3b6211ab.pth"
load_from = "/home/liusiyu/liuxin/mmdetection/checkpoints/cascade_rcnn_r50_fpn_1x/latest.pth"
resume_from = None
workflow = [
    ('train', 1)]

# runtime settings
# total_epochs = 20
# dist_params = dict(backend='nccl')
# log_level = 'INFO'
# work_dir = '/home/liusiyu/liuxin/mmdetection/checkpoints/cascade_rcnn_r50_fpn_1x/' #训练的权重和日志保存路径
# load_from = '/home/liusiyu/liuxin/mmdetection/checkpoints/cascade_rcnn_r50_fpn_1x/cascade_rcnn_r50_fpn_1x_20190501-3b6211ab.pth'
# resume_from =None
# workflow = [('train', 1)]

Start

在根目录下，运行命令行（分布式训练）：

训练

tools/dist_train.sh configs/cascade_rcnn_r50_fpn_1x.py   2 --validate

–validate表示在训练时进行评估，只有在分布式训练时能够进行评估

测试

tools/dist_test.sh configs/cascade_rcnn_r50_fpn_1x.py work_dir/epoch_x.pth 4 --json_out reslut.json

python tools/train.py configs/cascade_rcnn_r50_fpn_1x.py --gpus 1
就可以训练了。
python tools/train.py configs/cascade_rcnn_r50_fpn_1x.py --gpus 1 --validate
–validate表示在训练时进行评估，只有在分布式训练时能够进行评估（至少两张显卡，所以要买自己服务器的时候懂了吧，双显卡主板+2070s+2060 6G，香）练结束后，没有双卡，如何进行测试：
输出图片：
python tools/test.py configs/cascade_rcnn_r50_fpn_1x.py work_dirs/cascade_rcnn_r50_fpn_1x/epoch_10.pth --show

结果提交

利用测试指令已经生成了基本reslut.json但是需要修改成官方得格式：

# #encoding:utf/8
import sys
from mmdet.apis import inference_detector, init_detector
import json
import cv2
import os
import numpy as np
import argparse
from tqdm import tqdm
class MyEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, np.integer):
            return int(obj)
        elif isinstance(obj, np.floating):
            return float(obj)
        elif isinstance(obj, np.ndarray):
            return obj.tolist()
        else:
            return super(MyEncoder, self).default(obj)

class COCO_Set():
    '''
    des:
    '''
    # 定义类变量，完全不变
    categories = [{"supercategory": "\u74f6\u76d6\u7834\u635f", "id": 1, "name": "\u74f6\u76d6\u7834\u635f"},
                  {"supercategory": "\u55b7\u7801\u6b63\u5e38", "id": 9, "name": "\u55b7\u7801\u6b63\u5e38"},
                  {"supercategory": "\u74f6\u76d6\u65ad\u70b9", "id": 5, "name": "\u74f6\u76d6\u65ad\u70b9"},
                  {"supercategory": "\u74f6\u76d6\u574f\u8fb9", "id": 3, "name": "\u74f6\u76d6\u574f\u8fb9"},
                  {"supercategory": "\u74f6\u76d6\u6253\u65cb", "id": 4, "name": "\u74f6\u76d6\u6253\u65cb"},
                  {"supercategory": "\u80cc\u666f", "id": 0, "name": "\u80cc\u666f"},
                  {"supercategory": "\u74f6\u76d6\u53d8\u5f62", "id": 2, "name": "\u74f6\u76d6\u53d8\u5f62"},
                  {"supercategory": "\u6807\u8d34\u6c14\u6ce1", "id": 8, "name": "\u6807\u8d34\u6c14\u6ce1"},
                  {"supercategory": "\u6807\u8d34\u6b6a\u659c", "id": 6, "name": "\u6807\u8d34\u6b6a\u659c"},
                  {"supercategory": "\u55b7\u7801\u5f02\u5e38", "id": 10, "name": "\u55b7\u7801\u5f02\u5e38"},
                  {"supercategory": "\u6807\u8d34\u8d77\u76b1", "id": 7, "name": "\u6807\u8d34\u8d77\u76b1"}]

    def __init__(self, name, images_path='./images/'):
        # 初始化coco数据集基本信息
        self.name = name
        self.images_pth = images_path
        self.info = []
        self.images = []
        self.license = []
        self.annotations = []
        self.json_file = None

    # 转化json对象为python对象
    def load_json(self,json_path):
        with  open(json_path)  as f:
            self.json_file = json.load(f)  # 读入到python对象
            return self.json_file
        return None

    # 获取json values
    def get_items(self, key):
        return self.json_file[key]

    # 写入json
    def write_file(self, json_name):
        self.write_json = {'info': self.info, 'images': self.images, 'license': self.license,
                           'categories': self.categories, 'annotations': self.annotations}
        with open(json_name, "w") as f:
            json.dump(self.write_json, f, indent=4)

def main():

    parser = argparse.ArgumentParser(description="Generate result")
    parser.add_argument("--test_input",default='/home/liusiyu/liuxin/mmdetection/data/coco/annotations/test2017.json',help="test_json path", type=str,)
    parser.add_argument('--reslut_input', default='/home/liusiyu/liuxin/mmdetection/checkpoints/cascade_rcnn_r50_fpn_1x/202002051610/reslut.bbox.json',help="result_json path", type=str,)
    parser.add_argument('-o', "--out",default='/home/liusiyu/liuxin/mmdetection/checkpoints/cascade_rcnn_r50_fpn_1x/202002051610/reslut.json',help="Save path", type=str,)
    args = parser.parse_args()
    # 	model2make_json = args.model
    test_set = COCO_Set('test_json', images_path=None)
    reslut_set = COCO_Set('result_json', images_path=None)
    tejson_file=test_set.load_json(json_path=args.test_input)
    resjson_file=reslut_set.load_json(json_path=args.reslut_input)
    test_set.images=tejson_file['images']
    #进行一个非常粗糙的滤波
    for index ,i in enumerate(resjson_file):
        if i["category_id"] == 6 or i["category_id"] == 7 or i["category_id"] == 8:
            if i["score"] > 0.05:
                score = i["score"]
                i["score"] = round(score, 4)
                test_set.annotations.append(i)
        else:
            if i["score"] > 0.01:
                score = i["score"]
                i["score"] = round(score, 4)
                test_set.annotations.append(i)

    test_set.write_file(json_name=args.out)



if __name__ == "__main__":
    main()

关于测试评分的一些研究

先看一下官方给出的评分标准：

大多数指标是非常好理解的，但是 $AP_i$ 的计算需要记录一下。这里不得不说，网上的大部分帖子，描述得还是很有问题，并且不相同。这里我首先要注明，目标检测与单纯的图像分类是有比较大的区别的（目标检测不仅有标签、置信度，还存在bbox以及IOU这个概念，但是图像分类则只有标签、置信度，所以难免很多概念要复杂一点。），我这里先介绍一个写得非常清楚的帖子：https://github.com/rafaelpadilla/Object-Detection-Metrics。

TP、FP、FN以及precision、recall

我们在进行预测的时候对得到每个bbox的image_id、label_id(类别信息)、bbox(x,y,w,h)、score。我们在计算AP的时候，都是针对于整个i
这里的概念都是建立在单个类别情况下的，每个类别都有自己单独的AP值以及TP等等，在计算时只有检测到了和未检测到这两种区别。
我这里贴出一组我用excel模拟的数据（按照置信度进行了排序）：

这组数据模拟以下几种情况：

正常检测：包括了一个物体一个框和冗余检测中（冗余检测：哪怕进行了非极大值抑制，也难以避免重复检测的问题）
漏检：原本这里有一个物体，但未检测出或者说，检测到了，但是预测的标签错误，不是这个类别，对于计算当前类别来说，都叫做没检测到。
错误检测：这里没有物体，但却检测出了一个框。

我们根据上面的数据对几个概念进行说明：
TP:检测正确的正样本
具体而言：就是正常检测，且IOU大于等于 $IOU_{thr}$ ，为了方便说明，我们统一设置 $IOU_{thr}$ 为0.5。
FP:检测错误的正样本
具体而言：错误检测（此情况下，IOU等于0）的数量或正常检测中IOU小于 $IOU_{thr}$ 的数量。
FN:检测错误的负样本
具体而言：FN的情况比较复杂，常规的定义并不能很多好的说明在目标检测中的FN。但总而言之，TP+FN表示所有真实存在物体的个数，上面的数据中，我们一共有14个物体（要去除重复的）。

$p r e c i s i o n = T P / (T P + F P)$ :表示准确度，也就是正确检测的bbox/一共检测到bbox
$r e c a l l = T P / T P + F N$ :表示召回率，也就是所有真实存在的物体中，我们正确检测到的比例。

P-R曲线

接下来开始介绍P-R曲线：

我们可以看到P-R曲线是由多个P-R对构成的，而一个P-R对则是在某一个 $score_{thr}$ 下所确定的。
我们以 $score_{thr}$ =0.8为例：
TP=count{1，3，7，9}=4；
FP=count{4，5，8}=3；
那么precision=4/(4+3)=0.571
而所有真实存在的物体的数量不会随着score而改变，也就是14个不会变
recal=4/14=0.2857
最后，我们通过对阈值进行排序，取出Top1-N的数据，能够得出这样一张表：

最后可绘制出上面的曲线。
（注：真正的 $score_{thr}$ 的划分也会有0.1，0.2…0.9这样的）

最后，根据网上的方法获得P-R曲线下的面积即为AP值。10个类就会有10个AP值。

数据集分类代码

由于官方只给出了测试集和训练集，所以需要我们把训练集的一部分分给验证集，并正确的分离出coco标注。
我写了一个简单的分离代码：

import os,shutil
import json
import random



class COCO_Set():
    '''
    des:
    '''
    #定义类变量，完全不变
    categories = [{"supercategory": "\u74f6\u76d6\u7834\u635f", "id": 1, "name": "\u74f6\u76d6\u7834\u635f"},
            {"supercategory": "\u55b7\u7801\u6b63\u5e38", "id": 9, "name": "\u55b7\u7801\u6b63\u5e38"},
            {"supercategory": "\u74f6\u76d6\u65ad\u70b9", "id": 5, "name": "\u74f6\u76d6\u65ad\u70b9"},
            {"supercategory": "\u74f6\u76d6\u574f\u8fb9", "id": 3, "name": "\u74f6\u76d6\u574f\u8fb9"},
            {"supercategory": "\u74f6\u76d6\u6253\u65cb", "id": 4, "name": "\u74f6\u76d6\u6253\u65cb"},
            {"supercategory": "\u80cc\u666f", "id": 0, "name": "\u80cc\u666f"},
            {"supercategory": "\u74f6\u76d6\u53d8\u5f62", "id": 2, "name": "\u74f6\u76d6\u53d8\u5f62"},
            {"supercategory": "\u6807\u8d34\u6c14\u6ce1", "id": 8, "name": "\u6807\u8d34\u6c14\u6ce1"},
            {"supercategory": "\u6807\u8d34\u6b6a\u659c", "id": 6, "name": "\u6807\u8d34\u6b6a\u659c"},
            {"supercategory": "\u55b7\u7801\u5f02\u5e38", "id": 10, "name": "\u55b7\u7801\u5f02\u5e38"},
            {"supercategory": "\u6807\u8d34\u8d77\u76b1", "id": 7, "name": "\u6807\u8d34\u8d77\u76b1"}]        

    def __init__(self,name,images_path='./images/',json_path='./'):
        #初始化coco数据集基本信息
        self.name=name
        self.images_pth=images_path
        self.json_path=json_path
        self. info=[]
        self.images = []
        self.license = []
        self.annotations=[]
        self.json_file=None

    #转化json对象为python对象
    def load_json(self):
        with  open(self.json_path)  as f:
            self.json_file = json.load(f)     #读入到python对象
            return self.json_file
        return None
    #获取json values
    def get_items(self,key):
        return self.json_file[key]
    
    #写入json
    def write_file(self,json_name):        
        self.write_json = {'info':self.info,'images':self.images,'license':self.license,'categories':self.categories,'annotations':self.annotations} 
        with open(json_name, "w") as f:
            json.dump( self.write_json, f,indent=4)



def main():
    DATASET_PATH =  '/media/liuxin/DATA/CV/Project/TianChi/mmdetection/data/'
    Src = DATASET_PATH+'src/images/'
    origin_json=DATASET_PATH+'src/annotations.json'
    train_json=DATASET_PATH+'train/tra_annotations.json'
    val_json=DATASET_PATH+'val/val_annotations.json'
   
    origin_set=COCO_Set('origin',images_path=Src,json_path=origin_json)
    train_set=COCO_Set('train',images_path=Src,json_path=train_json)
    val_set=COCO_Set('val',images_path=Src,json_path=val_json)

    origin_json_obj = origin_set.load_json()
    # if not train_json_obj:
    #     return 
    
    images_list=origin_json_obj['images']   #获取json文件中的images的列表
    random.shuffle(images_list)   #随机打乱整个列表
    images_num=len(images_list)
    print(images_num)
    val_set.images=images_list[:int(0.1*images_num)]  #取出前30%的数据作为验证集存入val_set中
    train_set.images=images_list[int(0.1*images_num):]  #取出剩下的
    print(len( train_set.images))

    annotations_list=origin_set.get_items("annotations")
    print(len(annotations_list))
    image_id_list=[image['id'] for image in val_set.images ]    #获取val_set.images中每个元素的id形成新的列表
     #找出train与val重合的图片的annotations
    val_set.annotations=[annotation for  annotation in annotations_list if (annotation["image_id"] in image_id_list)] 
    print(len(val_set.annotations))
    val_set.write_file(val_json)
    
    #获取train_set.images中每个元素的id形成新的列表
    image_id_list=[image['id'] for image in train_set.images ] 
    #找出train与val重合的图片的annotations
    train_set.annotations=[annotation for  annotation in annotations_list if (annotation["image_id"] in image_id_list)]  
    print(len(train_set.annotations))
    train_set.write_file(train_json)


if __name__ == "__main__":
    main()

你可能感兴趣的:(python,机器视觉)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p