X_Student737

PSPNet ：语义分割

随着卷积神经网络在目标检测任务上的推进，它也开始被用于更精细的图像处理任务：语义分割和实例分割。目标检测只需要预测图像中每个对象的位置和类别，语义分割还要把每个像素都进行分类，而实例分割的任务则更难，要进一步把每个对象的不同实例都区分开。

图像语义分割（semantic segmentation），从字面意思上理解就是让计算机根据图像的语义来进行分割。语义分割是对图像中的每一个像素进行分类，目前广泛应用于医学图像与无人驾驶等。语义在语音识别中指的是语音的意思，在图像领域，语义指的是图像的内容，对图片意思的理解。

文章目录

PSPNet ：语义分割
一、VOC2012_AUG数据集简介
二、PSPNet模型结构
三、实验过程
四、深入思考
五、源码
六、项目链接

一、VOC2012_AUG数据集简介

VOC12_AUG：基于voc扩充的一个语义分割数据集。其组成可参考：https://blog.csdn.net/lscelory/article/details/98180917。类别继承自voc，共20个类别。

下载地址： http://home.bharathh.info/pubs/codes/SBD/download.html

img文件夹：原始数据集，内含11355张rgb图片，20类目标 + 1类背景。
cls文件夹：原始数据集，内含11355个语义分割.mat文件，label信息用数值0-21表示，0代表背景信息， 1-20代表图片中目标物体种类。

二、PSPNet模型结构

全卷积网络FCN的缺点，在于缺少合适的策略来使用全局场景分类信息。金字塔场景分析网络PSPNet通过结合局部和全局信息来提高最终预测的可靠性。

模型通过金字塔池化模块在四个不同的粗细尺度上进行特征融合。最粗尺度对特征图进行全局平均池化，产生单格输出；加细尺度把特征图分成不同子区域，产生多格输出。不同尺度级别的输出对应不同大小的特征图，然后低维特征图通过双线性插值进行上采样获得相同大小的特征。最后，不同级别的特征被拼接为最终的金字塔池化全局特征。

一、第1部分：网络输入。

inputs_size = (473, 473, 3)
inputs = Input(shape=inputs_size)

二、第2部分：特征提取网络backbone，采用mobile_net_v2结构。

通过多次卷积、池化、跨层连接进行特征提取，最后输出两个特征层:

f4为辅助分支 - (None, 30, 30, 96) 。（备注：此分支在代码中并未用上。）
o为主干部分 - (None, 30, 30, 320)。

f4 = _inverted_res_block(x, filters=96, alpha=alpha, stride=1, rate=block4_dilation,
expansion=6, block_id=12, skip_connection=True) # (None, 30, 30, 96)
o = _inverted_res_block(x, filters=320, alpha=alpha, stride=1, rate=block5_dilation,
expansion=6, block_id=16, skip_connection=False) # (None, 30, 30, 320)

三、第3部分：利用金字塔池化模块，在四个不同的粗细尺度上进行特征融合。

主干特征提取结果feature map，shape = (None, 30, 30, 320)，记为1。

对主干特征o按pool_size = (30, 30)进行池化，shape = (None, 1, 1, 80)，再利用双线性插值tf.image.resize函数上采样，得到shape = (None, 30, 30, 80)的特征提取结果feature map，记为2。

对主干特征o按pool_size = (15, 15)进行池化，shape = (None, 2, 2, 80)，再利用双线性插值tf.image.resize函数上采样，得到shape = (None, 30, 30, 80)的特征提取结果feature map，记为3。

对主干特征o按pool_size = (10, 10)进行池化，shape = (None, 3, 3, 80)，再利用双线性插值tf.image.resize函数上采样，得到shape = (None, 30, 30, 80)的特征提取结果feature map，记为4。

对主干特征o按pool_size = (5, 5)进行池化，shape = (None, 6, 6, 80)，再利用双线性插值tf.image.resize函数上采样，得到shape = (None, 30, 30, 80)的特征提取结果feature map，记为5。

将1、2、3、4、5进行特征图拼接： o = Concatenate(axis=-1)(pool_outs)

(30, 30, 320) + (30, 30, 80) + (30, 30, 80) + (30, 30, 80) + (30, 30, 80) = (30, 30, 640)
最后得到多尺度特征融合结果：shape = (None, 30, 30, 640)

四、第4部分：网络输出。

先经过一轮卷积操作，再把通道数切换成n_classes，最后tf.image.resize函数上采样。

Conv2D(out_channel//4, (3, 3)，padding=‘same’, use_bias=False) # (None, 30, 30, 80)
BatchNormalization() # (None, 30, 30, 80)
Activation(‘relu’) # (None, 30, 30, 80)
Dropout(0.1) # (None, 30, 30, 80)
Conv2D(n_classes, (1, 1), padding=‘same’) # (None, 30, 30, 21)
Lambda(resize_images)([o, img_input]) # (None, 473, 473, 21)
o = Activation(“softmax”) # (None, 473, 473, 21)

三、实验过程

网络模型共有175层，训练前先导入网上下载好的mobile_net_v2权重， by_name=True, skip_mismatch=True跳过不匹配结构，然后把其对应的前146层网络冰冻起来，开始训练。

优化器adam = Adam(lr=1e-4)，训练50个epoch左右，val loss在0.2附近达到瓶颈。此时对于(473, 473)大小的rgb图片，所有像素值总计分类精度达到93%左右，效果还算不错。

测试集语义分割结果如下，背景像素默认为天蓝色：

四、深入思考

Ques1：PSPNet和FCN有什么区别？

PSPNet和U-Net、FCN相比，两者区别在于特征提取的方式不同。应该说，PSPNet特征提取的效果是更佳的，它采用了更多样化的卷积尺寸，提取到的特征更具多样性。而相比起来，U-Net从头到位都是在一个feature map模板上不断上采样做操作，相比起来提取到的特征更佳单一。

U-Net上采样是利用的是反卷积操作，而PSPNet用的是双线性插值进行上采样。

Ques2：可不可以拿语义分割来做目标检测？

语义分割是对每个像素都进行分类，而实例分割进一步把每个类别的不同实例的像素都区分开。

对于单对象目标检测问题，也就是每张rbg图片上每类目标物体最多只能出现一次的情况，可以拿语义分割进行目标检测，而且此时检测效果应该会不错。但对于多个对象的目标检测，语义分割会将这些像素点全分类到一起，无法间隔开来，此时必须要借助实例分割。

Ques3：四种最常见的上采样操作：

常见的上采样方法有双线性插值、转置卷积、上采样(unsampling)和上池化(unpooling)。其中前两种方法较为常见，后两种用得较少。

（1）双线性插值。

双线性插值，又称为双线性内插。在数学上，双线性插值是对线性插值在二维直角网格上的扩展，用于对双变量函数（例如 x 和 y）进行插值。其核心思想是在两个方向分别进行一次线性插值。

在FCN中上采样用的就是双线性插值，双线性插值方法中不需要学习任何参数。

（2）反卷积。

转置卷积像卷积一样需要学习参数。如果我们想要网络学习到最好地上采样的方法，这个时候就可以采用转置卷积，它具有可以学习的参数。

可以将一个卷积操作用一个矩阵表示，无非就是将卷积核重新排列到我们可以用普通的矩阵乘法进行矩阵卷积操作。从本质来说，我们通过在输入矩阵中的元素之间插入0进行补充，从而实现尺寸上采样，然后通过普通的卷积操作就可以产生和转置卷积相同的效果。

（3）上采样(Upsamppling)。

unsampling针对对应的上采样区域，全部填充的相同的值，比较粗糙。

（4）上池化(UpPooling)。

unpooling将原始值填充到上采样对应的位置上，其他位置则以0来进行填充，比较粗糙。

Ques4：源码中的上采样插值是否过于粗糙，直接由(30, 30)上采样扩充成(473, 473)尺寸？

o = Conv2D(n_classes, (1, 1), kernel_initializer=random_normal(stddev=0.02),
padding=‘same’)(o) # (None, 30, 30, 21)
o = Lambda(resize_images)([o, img_input]) # (None, 473, 473, 21)

刚开始的时候觉得这里的resize太过粗糙了，居然直接放大了16倍，特征非常不精密。
但后来仔细想想，本来语义分割里，属于同一类的区域也常常是一大片一大片聚集的，不太可能出现不同类别像素点非常零散的分布，本就是一大片区域密集出现，因此粗糙点应该也不影响效果。

Ques5：数据处理中碰到的一些问题。

（1）对于语义分割标注图片，利用Image.open函数能直接读出png文件的标注信息，得到一个单通道矩阵，对应位置处的像素值由0-20记录，正好对应不同目标物体类别。但不能利用opencv读取，此时得到的是一个三通道矩阵，标注信息反而丢失了。

（2）对语义分割标注label的resize操作，必须采用cv2.INTER_NEAREST最邻近插值。普通线性插值、样条插值会破坏原始像素点标记信息，产生新的类别数值，标注信息不再准确。在resize图像缩放时，新的像素内容应该和周边区域是一样的，利用最邻近插值，自然标记类别也一样。

cv2.INTER_NEAREST最邻近插值完美解决了语义分割的缩放问题，以后可以针对模型任意缩放尺寸，调整至最佳语义分割效果。

Ques6：源码复现中遇到的最大bug。

我利用10000张图片进行训练，1355张图片进行测试，训练20个epoch左右，val loss降低到0.2附近出现完全瓶颈，再也没办法降低下去。

利用此时的权重进行语义分割，效果却极差。我原以为是算法或数据集的问题，损失函数在0.2附近降低不下去了，导致效果不好，模型训练效果不佳。反复debug之后，发现是检测代码有一句出现了逻辑bug。

原本写的是：
psp_model.load_weights(‘Logs/2/epoch055-loss0.050-val_loss0.223.h5’, by_name=True, skip_mismatch=True)

应该改成：
psp_model.load_weights(‘Logs/2/epoch055-loss0.050-val_loss0.223.h5’)

原来问题出在，我加载训练好的权重进行语义分割预测时，并没有完整加载进所有权重，部分网络层被skip跳过了，采用的还是最开始随机初始化的权重，模型预测效果自然极差。修改完这个bug之后，VOC2012数据集每张图片的所有像素值分类精度能达到93%左右，非常不错。

而且我发现，在冰冻backbone特征提取网络层后，剩余部分只需要用600张左右就能训练出不错的效果，val loss也能降低到0.2附近，并不需要用到上万张图片。

五、源码

主函数：

import numpy as np
import cv2
import os

from read_data_path import make_data
from psp_model import get_psp_model
from train import SequenceData
from train import train_network
from train import load_network_then_train
from detect import detect_semantic

os.environ["CUDA_VISIBLE_DEVICES"] = "1"

class_dictionary = {0: 'background', 1: 'aeroplane', 2: 'bicycle', 3: 'bird', 4: 'boat',
                    5: 'bottle', 6: 'bus', 7: 'car', 8: 'cat', 9: 'chair',
                    10: 'cow', 11: 'dining_table', 12: 'dog', 13: 'horse', 14: 'motorbike',
                    15: 'person', 16: 'potted_plant', 17: 'sheep', 18: 'sofa', 19: 'train',
                    20: 'TV_monitor'}


if __name__ == "__main__":

    train_x, train_y, val_x, val_y, test_x, test_y = make_data()
    psp_model = get_psp_model()
    psp_model.summary()

    train_generator = SequenceData(train_x, train_y, 32)
    test_generator = SequenceData(test_x, test_y, 32)

    # train_network(train_generator, test_generator, epoch=10)
    # load_network_then_train(train_generator, test_generator, epoch=20, input_name='first_weights.hdf5',
    #                         output_name='second_weights.hdf5')

    # detect_semantic(test_x, test_y)

read_data_path：准备数据集

import numpy as np
import cv2
import os

class_dictionary = {0: 'background', 1: 'aeroplane', 2: 'bicycle', 3: 'bird', 4: 'boat',
                    5: 'bottle', 6: 'bus', 7: 'car', 8: 'cat', 9: 'chair',
                    10: 'cow', 11: 'dining_table', 12: 'dog', 13: 'horse', 14: 'motorbike',
                    15: 'person', 16: 'potted_plant', 17: 'sheep', 18: 'sofa', 19: 'train',
                    20: 'TV_monitor'}

# VOC2012_AUG数据集简介：

# 两个文件夹： img文件夹包含11355张rgb图片，cls文件夹包含11355个语义分割.mat文件，id序号完全对应
# 利用scipy.io.loadmat函数读取cls中的.mat文件，可以得到标注信息。
# 读取得到 (h，w) 单通道矩阵，像素值总共有21个类别，由21个数字代替：0、1、2、...、20。

# 0代表背景信息
# 1-20代表图片中目标物体种类


def read_path():

    data_x = []
    data_y = []

    filename = os.listdir('cls')
    filename.sort()
    for name in filename:

        serial_number = name.split('.')[0]
        img_path = 'img/' + serial_number + '.jpg'
        seg_path = 'cls/' + serial_number + '.mat'

        data_x.append(img_path)
        data_y.append(seg_path)

    return data_x, data_y


def make_data():

    data_x, data_y = read_path()
    print('all image quantity : ', len(data_y))    # 11355

    train_x = data_x[:10000]
    train_y = data_y[:10000]
    val_x = data_x[10000:]
    val_y = data_y[10000:]
    test_x = data_x[10000:]
    test_y = data_y[10000:]

    return train_x, train_y, val_x, val_y, test_x, test_y

mobile_netv2：特征提取backbone

from keras.activations import relu
from keras.layers import Activation, Add, BatchNormalization, Conv2D, DepthwiseConv2D, Input
from keras.initializers import random_normal

inputs_size = (473, 473, 3)
down_sample = 16

block4_dilation = 1
block5_dilation = 2
block4_stride = 2


def _make_divisible(v, divisor, min_value=None):

    if min_value is None:
        min_value = divisor

    new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)

    if new_v < 0.9 * v:
        new_v += divisor

    return new_v


def relu6(x):

    return relu(x, max_value=6)


def _inverted_res_block(inputs, expansion, stride, alpha, filters, block_id, skip_connection, rate=1):

    in_channels = inputs.shape[-1]
    point_wise_filters = _make_divisible(int(filters * alpha), 8)
    prefix = 'expanded_conv_{}_'.format(block_id)

    x = inputs

    #   利用1x1卷积根据输入进来的通道数进行通道数上升
    if block_id:
        x = Conv2D(expansion * in_channels, kernel_size=1, padding='same',
                   kernel_initializer=random_normal(stddev=0.02), use_bias=False, activation=None,
                   name=prefix + 'expand')(x)
        x = BatchNormalization(epsilon=1e-3, momentum=0.999,
                               name=prefix + 'expand_BN')(x)
        x = Activation(relu6, name=prefix + 'expand_relu')(x)
    else:
        prefix = 'expanded_conv_'

    # 利用深度可分离卷积进行特征提取
    x = DepthwiseConv2D(kernel_size=3, strides=stride, activation=None,
                        depthwise_initializer=random_normal(stddev=0.02),
                        use_bias=False, padding='same', dilation_rate=(rate, rate),
                        name=prefix + 'depthwise')(x)

    x = BatchNormalization(epsilon=1e-3, momentum=0.999, name=prefix + 'depthwise_BN')(x)
    x = Activation(relu6, name=prefix + 'depthwise_relu')(x)

    #   利用1x1的卷积进行通道数的下降
    x = Conv2D(point_wise_filters, kernel_initializer=random_normal(stddev=0.02),
               kernel_size=1, padding='same', use_bias=False, activation=None,
               name=prefix + 'project')(x)

    x = BatchNormalization(epsilon=1e-3, momentum=0.999, name=prefix + 'project_BN')(x)

    #   添加残差边
    if skip_connection:
        return Add(name=prefix + 'add')([inputs, x])
    return x


def get_mobilenet_encoder():

    inputs = Input(shape=inputs_size)                        # (None, 473, 473, 3)

    alpha = 1.0
    first_block_filters = _make_divisible(32 * alpha, 8)  # 32

    # 473,473,3 -> 237,237,32
    x = Conv2D(first_block_filters, kernel_size=3, kernel_initializer=random_normal(stddev=0.02),
               strides=(2, 2), padding='same', use_bias=False, name='Conv')(inputs)  # (None, 237, 237, 32)

    x = BatchNormalization(epsilon=1e-3, momentum=0.999, name='Conv_BN')(x)          # (None, 237, 237, 32)
    x = Activation(relu6, name='Conv_Relu6')(x)                                      # (None, 237, 237, 32)

    # 237,237,32 -> 237,237,16
    x = _inverted_res_block(x, filters=16, alpha=alpha, stride=1,
                            expansion=1, block_id=0, skip_connection=False)          # (None, 237, 237, 16)

    # 237,237,16 -> 119,119,24
    x = _inverted_res_block(x, filters=24, alpha=alpha, stride=2,
                            expansion=6, block_id=1, skip_connection=False)          # (None, 119, 119, 24)

    x = _inverted_res_block(x, filters=24, alpha=alpha, stride=1,
                            expansion=6, block_id=2, skip_connection=True)           # (None, 119, 119, 24)

    # 119,119,24 -> 60,60.32
    x = _inverted_res_block(x, filters=32, alpha=alpha, stride=2,
                            expansion=6, block_id=3, skip_connection=False)          # (None, 60, 60, 32)
    x = _inverted_res_block(x, filters=32, alpha=alpha, stride=1,
                            expansion=6, block_id=4, skip_connection=True)           # (None, 60, 60, 32)
    x = _inverted_res_block(x, filters=32, alpha=alpha, stride=1,
                            expansion=6, block_id=5, skip_connection=True)           # (None, 60, 60, 32)

    # 60,60,32 -> 30,30.64
    x = _inverted_res_block(x, filters=64, alpha=alpha, stride=block4_stride,
                            expansion=6, block_id=6, skip_connection=False)          # (None, 30, 30, 64)

    x = _inverted_res_block(x, filters=64, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=7, skip_connection=True)           # (None, 30, 30, 64)

    x = _inverted_res_block(x, filters=64, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=8, skip_connection=True)           # (None, 30, 30, 64)

    x = _inverted_res_block(x, filters=64, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=9, skip_connection=True)           # (None, 30, 30, 64)

    # 30,30.64 -> 30,30.96
    x = _inverted_res_block(x, filters=96, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=10, skip_connection=False)         # (None, 30, 30, 96)

    x = _inverted_res_block(x, filters=96, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=11, skip_connection=True)          # (None, 30, 30, 96)

    x = _inverted_res_block(x, filters=96, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=12, skip_connection=True)          # (None, 30, 30, 96)

    # 辅助分支训练
    f4 = x

    # 30,30.96 -> 30,30,160 -> 30,30,320
    x = _inverted_res_block(x, filters=160, alpha=alpha, stride=1, rate=block4_dilation,
                            expansion=6, block_id=13, skip_connection=False)         # (None, 30, 30, 160)

    x = _inverted_res_block(x, filters=160, alpha=alpha, stride=1, rate=block5_dilation,
                            expansion=6, block_id=14, skip_connection=True)          # (None, 30, 30, 160)

    x = _inverted_res_block(x, filters=160, alpha=alpha, stride=1, rate=block5_dilation,
                            expansion=6, block_id=15, skip_connection=True)          # (None, 30, 30, 160)

    x = _inverted_res_block(x, filters=320, alpha=alpha, stride=1, rate=block5_dilation,
                            expansion=6, block_id=16, skip_connection=False)         # (None, 30, 30, 320)
    f5 = x

    return inputs, f4, f5

psp_model：语义分割模型

import tensorflow as tf
import numpy as np

from keras.initializers import random_normal
from keras.layers import *
from keras.models import *
from keras import backend as K

from mobile_netv2 import get_mobilenet_encoder


n_classes = 20 + 1


def resize_images(args):

    x = args[0]
    y = args[1]

    return tf.image.resize(x, (K.int_shape(y)[1], K.int_shape(y)[2]))


def pool_block(feats, pool_factor, out_channel):

    h = K.int_shape(feats)[1]    # 30
    w = K.int_shape(feats)[2]    # 30

    #   分区域进行平均池化
    #   strides   = [30,30], [15,15], [10,10], [5, 5]
    #   pool size = 30/1=30  30/2=15  30/3=10  30/6=5

    pool_size = [int(np.round(float(h)/pool_factor)), int(np.round(float(w)/pool_factor))]
    strides = pool_size
    # [30,30] or [15,15] or [10,10] or [5, 5]

    x = AveragePooling2D(pool_size, strides=strides, padding='same')(feats)    # (None, 1, 1, 80)

    #   利用1x1卷积进行通道数的调整
    x = Conv2D(out_channel//4, (1, 1), kernel_initializer=random_normal(stddev=0.02),
               padding='same', use_bias=False)(x)                              # (None, 1, 1, 80)
    x = BatchNormalization()(x)                                                # (None, 1, 1, 80)
    x = Activation('relu')(x)                                                  # (None, 1, 1, 80)

    #   利用resize扩大特征层面, 将(1, 1), (2, 2), (3, 3), (6, 6)上采样恢复到(30, 30)
    x = Lambda(resize_images)([x, feats])                                      # (None, 30, 30, 80)

    return x


def get_psp_model():

    #   通过mobile_net特征提取， 获得两个特征层:  f4为辅助分支 - (None, 30, 30, 96)  ;  o为主干部分 - (None, 30, 30, 320)

    img_input, f4, o = get_mobilenet_encoder()
    out_channel = 320

    # PSP模块，分区域进行池化，将30*30的feature map，分别池化成1x1的区域，2x2的区域，3x3的区域，6x6的区域

    # pool_outs列表 ：
    # [主干部分 - (None, 30, 30, 320),
    # 由1*1扩展而成的 - (None, 30, 30, 80),
    # 由2*2扩展而成的 - (None, 30, 30, 80),
    # 由3*3扩展而成的 - (None, 30, 30, 80),
    # 由6*6扩展而成的 - (None, 30, 30, 80)]

    pool_factors = [1, 2, 3, 6]
    pool_outs = [o]
    for p in pool_factors:
        pooled = pool_block(o, p, out_channel)
        pool_outs.append(pooled)

    #   将获取到的特征层进行堆叠
    #   (30, 30, 320) + (30, 30, 80) + (30, 30, 80) + (30, 30, 80) + (30, 30, 80) = (30, 30, 640)
    o = Concatenate(axis=-1)(pool_outs)

    # 30, 30, 640 -> 30, 30, 80
    o = Conv2D(out_channel//4, (3, 3), kernel_initializer=random_normal(stddev=0.02),
               padding='same', use_bias=False)(o)    # (None, 30, 30, 80)
    o = BatchNormalization()(o)                      # (None, 30, 30, 80)
    o = Activation('relu')(o)                        # (None, 30, 30, 80)

    # 防止过拟合
    o = Dropout(0.1)(o)                              # (None, 30, 30, 80)

    # 利用特征获得预测结果
    # 30, 30, 80 -> 30, 30, 21 -> 473, 473, 21

    o = Conv2D(n_classes, (1, 1), kernel_initializer=random_normal(stddev=0.02),
               padding='same')(o)                    # (None, 30, 30, 21)
    o = Lambda(resize_images)([o, img_input])        # (None, 473, 473, 21)

    #   获得每一个像素点属于每一个类的概率
    o = Activation("softmax", name="main")(o)        # (None, 473, 473, 21)

    model = Model(img_input, o)
    return model

train：训练过程

import cv2
import os
import random
import numpy as np
from keras.utils import Sequence
import math
from psp_model import get_psp_model
from keras.optimizers import Adam
from keras.callbacks import ModelCheckpoint
from PIL import Image
import scipy.io
from keras import optimizers


class_dictionary = {0: 'background', 1: 'aeroplane', 2: 'bicycle', 3: 'bird', 4: 'boat',
                    5: 'bottle', 6: 'bus', 7: 'car', 8: 'cat', 9: 'chair',
                    10: 'cow', 11: 'dining_table', 12: 'dog', 13: 'horse', 14: 'motorbike',
                    15: 'person', 16: 'potted_plant', 17: 'sheep', 18: 'sofa', 19: 'train',
                    20: 'TV_monitor'}


inputs_size = (473, 473, 3)
n_classes = 20 + 1


class SequenceData(Sequence):

    def __init__(self, data_x, data_y, batch_size):
        self.batch_size = batch_size
        self.data_x = data_x
        self.data_y = data_y
        self.indexes = np.arange(len(self.data_x))

    def __len__(self):
        return math.floor(len(self.data_x) / float(self.batch_size))

    def on_epoch_end(self):
        np.random.shuffle(self.indexes)

    def __getitem__(self, idx):

        batch_index = self.indexes[idx * self.batch_size:(idx + 1) * self.batch_size]
        batch_x = [self.data_x[k] for k in batch_index]
        batch_y = [self.data_y[k] for k in batch_index]

        x = np.zeros((self.batch_size, inputs_size[1], inputs_size[0], 3))
        y = np.zeros((self.batch_size, inputs_size[1], inputs_size[0], n_classes))

        for i in range(self.batch_size):

            img = cv2.imread(batch_x[i])
            img1 = cv2.resize(img, (inputs_size[1], inputs_size[0]), interpolation=cv2.INTER_AREA)
            img2 = img1 / 255
            x[i, :, :, :] = img2

            # 利用scipy.io.loadmat函数，label['GTcls'].Segmentation函数，得到语义分割标注信息
            # 此时得到一个类别矩阵，像素位置上的数值用0-20记录，分别代表不同目标物体

            label = scipy.io.loadmat(batch_y[i], mat_dtype=True, squeeze_me=True, struct_as_record=False)
            label1 = label['GTcls'].Segmentation

            label2 = cv2.resize(label1, (473, 473), interpolation=cv2.INTER_NEAREST)
            label3 = np.eye(n_classes)[label2.reshape([-1])]                        # (223729, 21)
            label4 = label3.reshape((inputs_size[1], inputs_size[0], n_classes))    # (473, 473, 21)
            y[i, :, :, :] = label4

            # 用来测试读取的label是否会出错的，demon记录该图像上所有类别的种类

            # demon = []
            # for i1 in range(label2.shape[0]):
            #     for j1 in range(label2.shape[1]):
            #         demon.append(label2[i1, j1])
            # print(set(demon))

            # cv2.namedWindow("Image")
            # cv2.imshow("Image", img2)
            # cv2.waitKey(0)

            # cv2.namedWindow("seg1")
            # cv2.imshow("seg1", label2/20)
            # cv2.waitKey(0)

        return x, y


def train_network(train_generator, validation_generator, epoch):

    model = get_psp_model()
    model.load_weights('download_weights.h5', by_name=True, skip_mismatch=True)
    print('PSPNet网络层总数为：', len(model.layers))    # 175

    freeze_layers = 146
    for i in range(freeze_layers):
        model.layers[i].trainable = False
        print(model.layers[i].name)

    adam = Adam(lr=1e-3)
    log_dir = "Logs/1/"
    checkpoint = ModelCheckpoint(log_dir + 'epoch{epoch:03d}_val_accuracy{val_accuracy:.5f}.h5',
                                 monitor='val_loss', save_weights_only=True, save_best_only=False, period=1)

    model.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])

    model.fit_generator(
        train_generator,
        steps_per_epoch=len(train_generator),
        epochs=epoch,
        validation_data=validation_generator,
        validation_steps=len(validation_generator),
        callbacks=[checkpoint]
    )

    model.save_weights('first_weights.hdf5')


def load_network_then_train(train_generator, validation_generator, epoch, input_name, output_name):

    model = get_psp_model()
    model.load_weights(input_name)
    print('PSPNet网络层总数为：', len(model.layers))  # 175

    freeze_layers = 146
    for i in range(freeze_layers):
        model.layers[i].trainable = False
        print(model.layers[i].name)

    adam = Adam(lr=1e-4)
    sgd = optimizers.SGD(lr=1e-4, momentum=0.9)
    log_dir = "Logs/2/"
    checkpoint = ModelCheckpoint(log_dir + 'epoch{epoch:03d}_val_accuracy{val_accuracy:.5f}.h5',
                                 monitor='val_loss', save_weights_only=True, save_best_only=False, period=1)

    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

    model.fit_generator(
        train_generator,
        steps_per_epoch=len(train_generator),
        epochs=epoch,
        validation_data=validation_generator,
        validation_steps=len(validation_generator),
        callbacks=[checkpoint]
    )

    model.save_weights(output_name)

detect：检测结果

import numpy as np
import cv2
import os
from read_data_path import make_data
from psp_model import get_psp_model
from train import SequenceData
from train import train_network
from PIL import Image
import scipy.io


# 真实目标物体像素值的标记类别
class_dictionary = {0: 'background', 1: 'aeroplane', 2: 'bicycle', 3: 'bird', 4: 'boat',
                    5: 'bottle', 6: 'bus', 7: 'car', 8: 'cat', 9: 'chair',
                    10: 'cow', 11: 'dining_table', 12: 'dog', 13: 'horse', 14: 'motorbike',
                    15: 'person', 16: 'potted_plant', 17: 'sheep', 18: 'sofa', 19: 'train',
                    20: 'TV_monitor'}
inputs_size = (473, 473, 3)

# 语义分割结果的颜色表示空间
np.random.seed(1)
color_array = np.zeros((21, 3))
color_array[0, :] = np.array([255, 255, 0]) / 255    # 背景信息设置为天蓝色

# 20个目标物体的颜色表示随机设置
for row in range(1, 21):

    r = np.random.random_integers(0, 255)
    b = np.random.random_integers(0, 255)
    g = np.random.random_integers(0, 255)

    color_array[row, :] = np.array([r, b, g]) / 255


def detect_semantic(test_x, test_y):

    psp_model = get_psp_model()
    psp_model.load_weights('best_val_accuracy0.92490.h5')

    # img ： 原始rbg图像
    # pre_semantic ： 模型预测的图像语义分割结果
    # true_semantic2 ： 真实的语义分割标注信息

    for i in range(100):

        img = cv2.imread(test_x[i])
        size = img.shape

        img1 = cv2.resize(img, (inputs_size[1], inputs_size[0]), interpolation=cv2.INTER_AREA)
        img2 = img1 / 255
        img3 = img2[np.newaxis, :, :, :]

        result1 = psp_model.predict(img3)  # (1, 473, 473, 2)
        result2 = result1[0]
        result3 = cv2.resize(result2, (size[1], size[0]), interpolation=cv2.INTER_NEAREST)

        mask = np.zeros((size[0], size[1]))
        pre_semantic = np.zeros((size[0], size[1], 3))

        for j in range(size[0]):
            for k in range(size[1]):

                index = np.argmax(result3[j, k, :])
                mask[j, k] = index
                pre_semantic[j, k, :] = color_array[index, :]

        # 利用scipy.io.loadmat函数，label['GTcls'].Segmentation函数，得到语义分割标注信息
        # 此时得到一个类别矩阵，像素位置上的数值用0-20记录，分别代表不同目标物体

        true_semantic = scipy.io.loadmat(test_y[i], mat_dtype=True, squeeze_me=True, struct_as_record=False)
        true_semantic1 = true_semantic['GTcls'].Segmentation
        true_semantic2 = np.zeros((size[0], size[1], 3))

        for j in range(size[0]):
            for k in range(size[1]):

                index = int(true_semantic1[j, k])
                true_semantic2[j, k, :] = color_array[index, :]

        # cv2.namedWindow("img")
        # cv2.imshow("img", img)
        # cv2.waitKey(0)
        #
        # cv2.namedWindow("true_semantic")
        # cv2.imshow("true_semantic", true_semantic2)
        # cv2.waitKey(0)
        #
        # cv2.namedWindow("pre_semantic")
        # cv2.imshow("pre_semantic", pre_semantic)
        # cv2.waitKey(0)

        cv2.imwrite("demo/" + str(i) + '_img' + '.jpg', img/1.0)
        cv2.imwrite("demo/" + str(i) + '_true_semantic' + '.jpg', true_semantic2*255)
        cv2.imwrite("demo/" + str(i) + '_pre_semantic' + '.jpg', pre_semantic*255)

六、项目链接

如果代码跑不通，或者想直接使用我自己制作的数据集，可以去下载项目链接：
https://blog.csdn.net/Twilight737

你可能感兴趣的:(计算机视觉图像处理)

遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
图像处理的作用（6幅图诗）静月园
静月园著2020年1月️4日1自然力出现的图形画面，即无序，又有形。奇妙令人联想无限。好象理石花纹，又类似草木树植。2为何要如此色彩？好奇怪哦！自然的物态鬼斧神工。3孩童们信手涂鸦，但是脑控制了手的动作，所绘画的物体形状代表了孩子们对环境人物的所看，所听，所理解的形状。脑的心理活动影像，被转换成手的动作输出到笔尖的移动动作上，于是我们看到了简单的结构形状图。而对于我们的写作者来说，我们的作家脑内有
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
opencv 之实战项目识别银行卡上的数字 SEVEN-YEARS opencv 计算机视觉人工智能
OpenCV之实战项目：识别银行卡上的数字引言在日常生活中，银行卡的识别是一个常见的需求，特别是在金融领域。本实战项目旨在使用OpenCV库来识别银行卡上的数字。我们将通过模板匹配的方法，结合图像处理技术，来准确识别银行卡上的数字序列。项目准备本项目需要安装Python和OpenCV库。确保已经安装了必要的库，并准备好银行卡图像和数字模板图像。实验素材定义函数importcv2defsort_co
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
MATLAB车牌定位和识别系统清风明月来几时图像算法处理 matlab 开发语言
有很多方法可以实现MATLAB车牌的定位和识别系统。以下是一种可能的实现步骤：车牌定位：使用图像处理技术（如边缘检测、区域生长或颜色分割）来检测图像中的车牌区域。使用形态学操作来排除不符合车牌形状的区域。对车牌区域进行裁剪或调整大小，以便后续的识别。车牌识别：将车牌图像转换为灰度图像。使用图像处理技术（如二值化、滤波或增强）来减少噪音并突出字符。使用字符分割算法将车牌中的字符分开。使用特征提取方法
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
直方图匹配（Histogram Matching）姜太公钓鲸233 计算机视觉人工智能机器学习
直方图匹配（HistogramMatching），也被称为直方图规定化（HistogramSpecification）或直方图修正（HistogramEqualization），是一种图像处理技术，用于调整图像的直方图，以使其与某个目标直方图相匹配。目标直方图通常是用户定义的或者是希望获得的期望分布。直方图匹配的目标是改变图像的像素值分布，从而使其在视觉上更接近目标直方图。这对于图像增强、风格迁移
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。