Gods_Dusk

[kaggle]Humpback Whale Identification Challenge冠军方案

Whale Recognition Model with score 0.78563

原文地址：https://www.kaggle.com/martinpiotte/whale-recognition-model-with-score-0-78563

亮蓝色字体为译者注

鲸鱼分类模型

本文记述了座头鲸挑战赛0.78563提交成绩的算法策略。
本文应该与 Bounding Box模型同时使用，它描述了如何将目标从图像中裁剪出来的策略1。
为了加快运行速度，一些较慢的计算结果已经作为数据集包含在内，而不是重新计算。不过尽管这部分代码不执行，我们依然会将代码提供出来2。

摘要

本文的方法是训练一个Siamese网络，稍后会详细介绍一些修改的部分。对精度提升帮助最大的部分是在训练过程中生成图像对。每次训练都使用一系列图像对（A，B），规则如下：

图像对中50%来自匹配的鲸鱼，另50%来自不同的鲸鱼
在每个训练时期，来自训练集的每张图片将被使用四次：匹配鲸鱼的A和B图像，不同鲸鱼的A和B图像。
在训练阶段，需要选择使网络难以区分的不同鲸鱼的图像对。这是受到对抗性训练的启发：找到来自不同鲸鱼的成对图像，但模型看来却十分相似。
在训练网络的同时实施上述策略对精度的提升最大。其他细节在某种程度上对准确率也有贡献，但影响要小得多。

概观

本文记录了提交成绩的所有细节。显然，要涵盖一切，它必须相当长。我鼓励大家直接跳到最感兴趣的地方，而不必经历一切。

内容

重复图像的识别（这边需要看的不多，继续前进）
图像预处理（只是一些常规的东西）
Siamese网络架构（一些有趣的想法）
训练数据架构（大部分秘籍都在这里）
训练过程（需要很长时间，睡觉。。。。）
生成提交文件（继续睡。。。）
Bootstrapping 与 ensemble（经典但是短）
可视化（每个人都喜欢！）
题外话（除非它有趣，不然为啥添加这个？）

重复图像的识别

本节介绍用于识别重复图像的启发式算法。训练和测试集具有重复图像的事实是在文档中有提到的。有些图像是完美的二进制复制，二有些则有所改变：对比度和亮度，大小，屏蔽图例等。
如果两个图像符合以下条件，则认为它们是重复的：
1. 两张图片具有相同的感知哈希（phash）；或者
2. 两张图片具有：

相差最多6位的phash，并且
具有相同的尺寸，并且
标准化图像之间的像素均方误差低于给定阈值。

字典 p2h 为每张图片关联唯一图像ID（phash），即pic2hash。字典 h2p 将每个图像id与要用于该哈希的首选图像相关联，即hash2pic。

# 读取图片描述
from pandas import read_csv

tagged = dict([(p,w) for _,p,w in read_csv('../input/whale-categorization-playground/train.csv').to_records()])
submit = [p for _,p,_ in read_csv('../input/whale-categorization-playground/sample_submission.csv').to_records()]
join   = list(tagged.keys()) + submit
len(tagged),len(submit),len(join),list(tagged.items())[:5],submit[:5]

(9850,
15610,
25460,
[(‘00022e1a.jpg’, ‘w_e15442c’),
(‘000466c4.jpg’, ‘w_1287fbc’),
(‘00087b01.jpg’, ‘w_da2efe0’),
(‘001296d5.jpg’, ‘w_19e5482’),
(‘0014cfdf.jpg’, ‘w_f22f3e3’)],
[‘00029b3a.jpg’,
‘0003c693.jpg’,
‘000bc353.jpg’,
‘0010a672.jpg’,
‘00119c3f.jpg’])

# 确定每个图像的大小
from os.path import isfile
from PIL import Image as pil_image
from tqdm import tqdm_notebook

def expand_path(p):
    if isfile('../input/whale-categorization-playground/train/' + p): return '../input/whale-categorization-playground/train/' + p
    if isfile('../input/whale-categorization-playground/test/' + p): return '../input/whale-categorization-playground/test/' + p
    return p

p2size = {}
for p in tqdm_notebook(join):
    size      = pil_image.open(expand_path(p)).size
    p2size[p] = size
len(p2size), list(p2size.items())[:5]

(25460,
[(‘00022e1a.jpg’, (699, 500)),
(‘000466c4.jpg’, (1050, 700)),
(‘00087b01.jpg’, (1050, 368)),
(‘001296d5.jpg’, (397, 170)),
(‘0014cfdf.jpg’, (700, 398))])

# 读取或者生成 p2h（picture to hash)
import pickle
import numpy as np
from imagehash import phash
from math import sqrt

# 对所有图像对，如果满足下列条件，则认为是重复的:
# 1) 它们具有相同的模式和大小;
# 2) 在将像素归一化为零均值和一方差之后，均方误差不超过0.1
def match(h1,h2):
    for p1 in h2ps[h1]:
        for p2 in h2ps[h2]:
            i1 =  pil_image.open(expand_path(p1))
            i2 =  pil_image.open(expand_path(p2))
            if i1.mode != i2.mode or i1.size != i2.size: return False
            a1 = np.array(i1)
            a1 = a1 - a1.mean()
            a1 = a1/sqrt((a1**2).mean())
            a2 = np.array(i2)
            a2 = a2 - a2.mean()
            a2 = a2/sqrt((a2**2).mean())
            a  = ((a1 - a2)**2).mean()
            if a > 0.1: return False
    return True

if isfile('../input/humpback-whale-identification-model-files/p2h.pickle'):
    with open('../input/humpback-whale-identification-model-files/p2h.pickle', 'rb') as f:
        p2h = pickle.load(f)
else:
    # 计算训练和测试集中每个图像的phash。
    p2h = {}
    for p in tqdm_notebook(join):
        img    = pil_image.open(expand_path(p))
        h      = phash(img)
        p2h[p] = h

    # 查找与给定phash值关联的所有图像。
    h2ps = {}
    for p,h in p2h.items():
        if h not in h2ps: h2ps[h] = []
        if p not in h2ps[h]: h2ps[h].append(p)

    # 找到所有不同的phash值
    hs = list(h2ps.keys())

    # 如果图像足够接近，则关联两个phash值 (这部分非常慢: 算法复杂度 n^2 )
    h2h = {}
    for i,h1 in enumerate(tqdm_notebook(hs)):
        for h2 in hs[:i]:
            if h1-h2 <= 6 and match(h1, h2):
                s1 = str(h1)
                s2 = str(h2)
                if s1 < s2: s1,s2 = s2,s1
                h2h[s1] = s2

    # 将相同phash的图像组合在一起，并用字符串格式的phash替换（更快，更可读）
    for p,h in p2h.items():
        h = str(h)
        if h in h2h: h = h2h[h]
        p2h[p] = h

len(p2h), list(p2h.items())[:5]

(25460,
[(‘00022e1a.jpg’, ‘b362cc79b1a623b8’),
(‘000466c4.jpg’, ‘b3cccc3331cc8733’),
(‘00087b01.jpg’, ‘bc4ed0f2a7e168a8’),
(‘001296d5.jpg’, ‘93742d9a28b35b87’),
(‘0014cfdf.jpg’, ‘d4a1dab1c49f6352’)])

# 对于每个图像ID，生成图像列表
h2ps = {}
for p,h in p2h.items():
    if h not in h2ps: h2ps[h] = []
    if p not in h2ps[h]: h2ps[h].append(p)
#注意到25460张图像是如何仅使用20913个不同的图像ID。
len(h2ps),list(h2ps.items())[:5]

(20913,
[(‘b362cc79b1a623b8’, [‘00022e1a.jpg’]),
(‘b3cccc3331cc8733’, [‘000466c4.jpg’]),
(‘bc4ed0f2a7e168a8’, [‘00087b01.jpg’, ‘7c72d707.jpg’]),
(‘93742d9a28b35b87’, [‘001296d5.jpg’]),
(‘d4a1dab1c49f6352’, [‘0014cfdf.jpg’, ‘89c94943.jpg’])])

# 展示一些重复图像
import matplotlib.pyplot as plt

def show_whale(imgs, per_row=2):
    n         = len(imgs)
    rows      = (n + per_row - 1)//per_row
    cols      = min(per_row, n)
    fig, axes = plt.subplots(rows,cols, figsize=(24//per_row*cols,24//per_row*rows))
    for ax in axes.flatten(): ax.axis('off')
    for i,(img,ax) in enumerate(zip(imgs, axes.flatten())): ax.imshow(img.convert('RGB'))

for h, ps in h2ps.items():
    if len(ps) > 2:
        print('Images:', ps)
        imgs = [pil_image.open(expand_path(p)) for p in ps]
        show_whale(imgs, per_row=len(ps))
        break

Images: [‘0c35fcb4.jpg’, ‘2d6610b9.jpg’, ‘a98bfd97.jpg’]

# 对于每个图像ID，选择首选的图像
def prefer(ps):
    if len(ps) == 1: return ps[0]
    best_p = ps[0]
    best_s = p2size[best_p]
    for i in range(1, len(ps)):
        p = ps[i]
        s = p2size[p]
        if s[0]*s[1] > best_s[0]*best_s[1]: # Select the image with highest resolution
            best_p = p
            best_s = s
    return best_p

h2p = {}
for h,ps in h2ps.items(): h2p[h] = prefer(ps)
len(h2p),list(h2p.items())[:5]

(20913,
[(‘b362cc79b1a623b8’, ‘00022e1a.jpg’),
(‘b3cccc3331cc8733’, ‘000466c4.jpg’),
(‘bc4ed0f2a7e168a8’, ‘00087b01.jpg’),
(‘93742d9a28b35b87’, ‘001296d5.jpg’),
(‘d4a1dab1c49f6352’, ‘0014cfdf.jpg’)])

图像预处理

训练前对图像进行以下操作：

如果图像在旋转集中，则旋转图像
变成黑白
进行仿射变换

图像旋转

我注意到有些照片中鲸鱼的尾巴指向下方而不是往常一样向上。每当我在训练集中遇到这样的实例（而不是在测试集中）时，我会将它添加到列表中。在训练过程中，将这些图像旋转180°使它们向上标注化。这个清单并不详尽，可能还有更多我没注意到的情况。

with open('../input/humpback-whale-identification-model-files/rotate.txt', 'rt') as f: rotate = f.read().split('\n')[:-1]
rotate = set(rotate)
rotate

{‘2b792814.jpg’,
‘2bc459eb.jpg’,
‘3401bafe.jpg’,
‘56fafc52.jpg’,
‘a492ab72.jpg’,
‘d1502267.jpg’,
‘e53d2b96.jpg’,
‘ed4f0cd5.jpg’,
‘f2ec136c.jpg’,
‘f966c073.jpg’}

def read_raw_image(p):
    img = pil_image.open(expand_path(p))
    if p in rotate: img = img.rotate(180)
    return img

p    = list(rotate)[0]
imgs = [pil_image.open(expand_path(p)), read_raw_image(p)]
show_whale(imgs)

转换为黑白

在我早期的实验中，我注意到我的模型在比较两个彩色图像或两个黑白图像时达到了大致相同的精度。然而，将彩色图像与黑白图像进行比较精度则低得多。最简单的解决方案是将所有图像转换为黑白图像，即使与原始彩色图像比较也不会降低精度。

放射变换

仿射变换将原始图像的矩形区域映射到分辨率为384x384x1的正方形图像（仅黑色和白色的一个通道）。矩形区域的宽度高度纵横比为2.15，接近平均图像的宽高比。裁剪的矩形比另外一个kernel中计算出来的bounding box略大一些，因为削减获得的边缘比精确拟合获得的增益相比更有害，因此留一些空白是必须的（即用目标检测的方法得到鲸鱼的bbox时，可能会丢失边缘的一些信息，而为了保留这些这些信息而增加了一些额外的噪声是值得的）。
在训练期间，通过缩放，移位，旋转和剪切的随机变换来进行数据增强。测试时跳过随机变换。
最后，将图像归一化为零均值和单位方差。

# 从bounding box kernel中读取边界框数据（参见上面的参考资料）
with open('../input/humpback-whale-identification-model-files/bounding-box.pickle', 'rb') as f:
    p2bb = pickle.load(f)
list(p2bb.items())[:5]

[(‘00022e1a.jpg’, (34, 45, 682, 317)),
(‘000466c4.jpg’, (263, 309, 591, 412)),
(‘00087b01.jpg’, (-6, 2, 1028, 363)),
(‘001296d5.jpg’, (9, 21, 387, 135)),
(‘0014cfdf.jpg’, (36, 129, 636, 299))]

# 抑制导入keras时烦人的stderr输出
import sys
import platform
old_stderr = sys.stderr
sys.stderr = open('/dev/null' if platform.system() != 'Windows' else 'nul', 'w')
import keras
sys.stderr = old_stderr

import random
from keras import backend as K
from keras.preprocessing.image import img_to_array,array_to_img
from scipy.ndimage import affine_transform

img_shape    = (384,384,1) # 模型使用的图像形状
anisotropy   = 2.15 # 水平压缩比
crop_margin  = 0.05 # 在边界框周围添加余量以补偿边界框的不精确性

def build_transform(rotation, shear, height_zoom, width_zoom, height_shift, width_shift):
    """
    构建具有指定特征的变换矩阵
    """
    rotation        = np.deg2rad(rotation)
    shear           = np.deg2rad(shear)
    rotation_matrix = np.array([[np.cos(rotation), np.sin(rotation), 0], [-np.sin(rotation), np.cos(rotation), 0], [0, 0, 1]])
    shift_matrix    = np.array([[1, 0, height_shift], [0, 1, width_shift], [0, 0, 1]])
    shear_matrix    = np.array([[1, np.sin(shear), 0], [0, np.cos(shear), 0], [0, 0, 1]])
    zoom_matrix     = np.array([[1.0/height_zoom, 0, 0], [0, 1.0/width_zoom, 0], [0, 0, 1]])
    shift_matrix    = np.array([[1, 0, -height_shift], [0, 1, -width_shift], [0, 0, 1]])
    return np.dot(np.dot(rotation_matrix, shear_matrix), np.dot(zoom_matrix, shift_matrix))

def read_cropped_image(p, augment):
    """
    @param p : 要读取的图片的名称
    @param augment: 是否需要做图像增强
    @返回变换后的图像
    """
    # 如果给出了图像ID，则转换为文件名
    if p in h2p: p = h2p[p]
    size_x,size_y = p2size[p]

    # 根据边界框确定要捕获的原始图像的区域。
    x0,y0,x1,y1   = p2bb[p]
    if p in rotate: x0, y0, x1, y1 = size_x - x1, size_y - y1, size_x - x0, size_y - y0
    dx            = x1 - x0
    dy            = y1 - y0
    x0           -= dx*crop_margin
    x1           += dx*crop_margin + 1
    y0           -= dy*crop_margin
    y1           += dy*crop_margin + 1
    if (x0 < 0     ): x0 = 0
    if (x1 > size_x): x1 = size_x
    if (y0 < 0     ): y0 = 0
    if (y1 > size_y): y1 = size_y
    dx            = x1 - x0
    dy            = y1 - y0
    if dx > dy*anisotropy:
        dy  = 0.5*(dx/anisotropy - dy)
        y0 -= dy
        y1 += dy
    else:
        dx  = 0.5*(dy*anisotropy - dx)
        x0 -= dx
        x1 += dx

    # 生成变换矩阵
    trans = np.array([[1, 0, -0.5*img_shape[0]], [0, 1, -0.5*img_shape[1]], [0, 0, 1]])
    trans = np.dot(np.array([[(y1 - y0)/img_shape[0], 0, 0], [0, (x1 - x0)/img_shape[1], 0], [0, 0, 1]]), trans)
    if augment:
        trans = np.dot(build_transform(
            random.uniform(-5, 5),
            random.uniform(-5, 5),
            random.uniform(0.8, 1.0),
            random.uniform(0.8, 1.0),
            random.uniform(-0.05*(y1 - y0), 0.05*(y1 - y0)),
            random.uniform(-0.05*(x1 - x0), 0.05*(x1 - x0))
            ), trans)
    trans = np.dot(np.array([[1, 0, 0.5*(y1 + y0)], [0, 1, 0.5*(x1 + x0)], [0, 0, 1]]), trans)

    # 读取图像，转换为黑白再转换为numpy数组
    img   = read_raw_image(p).convert('L')
    img   = img_to_array(img)

    # 使用仿射变换
    matrix = trans[:2,:2]
    offset = trans[:2,2]
    img    = img.reshape(img.shape[:-1])
    img    = affine_transform(img, matrix, offset, output_shape=img_shape[:-1], order=1, mode='constant', cval=np.average(img))
    img    = img.reshape(img_shape)

    # 归一化为零均值和单位方差
    img  -= np.mean(img, keepdims=True)
    img  /= np.std(img, keepdims=True) + K.epsilon()
    return img

def read_for_training(p):
    """
    使用数据增强（随机变换）读取和预处理图像。
    """
    return read_cropped_image(p, True)

def read_for_validation(p):
    """
    在没有数据增强的情况下读取和预处理图像（用于测试）。
    """
    return read_cropped_image(p, False)

p = list(tagged.keys())[312]
imgs = [
    read_raw_image(p),
    array_to_img(read_for_validation(p)),
    array_to_img(read_for_training(p))
]
show_whale(imgs, per_row=3)

左图是原始图片。中心图像进行测试转换。右图增加了随机数据增强转换。

Siamese网络架构

Siamese网络通过比较两个图像来决定这两个图像是出自同一条鲸鱼还是不同的鲸鱼。通过测试每个来自测试集的图像，与训练集中每个图片进行比较，就可以通过相似性进行排序来识别最匹配的鲸鱼。
Siamese网络有两部分组成。一个CNN将输入图像转化为描述鲸鱼的特征向量。具有相同权重的相同CNN作用于两个图像，我称这个CNN为branch model。我使用的是一个类似于ResNet的模型。
另一个模型称作head model，用于比较来自CNN的特征向量并确定鲸鱼是否匹配。

Head model

Head model比较来自branch model的特征向量，判断图片是否来自同一条鲸鱼。典型的方法是使用距离测度（如 L1 范数）作为损失函数，但这里有几个理由去尝试不同的东西：

距离测度会认为两个值为0的特征是最完美的匹配（值为0，距离测度也为0 ），而特征值很大，测度略微不同的特征将被视为良好，但不是很好，因为它们不完全相等。尽管如此，我觉得活动特征中的正信号比负信号更多，尤其是经过ReLu激活函数，距离测度会丢失概念。
此外，距离测度不能提供负相关的特征，考虑一直情况，如果两个图像都具有特征X，则他们必须是相同的鲸鱼，除非它们都具有特征Y，在这种情况下X就不那么清晰了。
同时，有一个隐含的假设，即交换两个图像必须产生相同的结果：如果A和B是相同的鲸鱼，那么B和A也是相同的鲸鱼。

为了解决这些问题，我做了以下处理：

对于每个特征，我计算了总和，乘积， L1 和 L2 范数（ x+y,xy,|x−y|,(x−y)2 )。
这四个值通过一个较小的神经网络传递，它可以学习如何权衡零和非零值之间的匹配。每个特征使用具有相同权重的相同神经网络。
输出是转换后的特征的加权和，带有sigmoid激活。权重的值是多余的，因为权重只是特征的缩放因子，可以由另一层学习，但是，它允许负权重，因为使用ReLu激活函数时无法产生负权重。

Branch model

Branch model是常规的CNN模型。以下是其设计的关键要素：

由于训练数据集很小，我试图保持网络参数的数量相对较小，同时保持模型有足够的表达性。例如，ResNet之类的架构比VGG类网络更合适。
由于存储限制，大多数存储用于存储前馈传递的激活值，用于在反向传播期间计算梯度。使用Windows 10和GTX 1080，可提供大约6.8GB的显存，这个限制了模型的选择。

Branch model由6个Block组成，由于中间具有池化层，每个Block处理的分辨率越来越小。

Block 1 - 384 × 384
Block 2 - 96 × 96
Block 3 - 48 × 48
Block 4 - 24 × 24
Block 5 - 12 × 12
Block 6 - 6 × 6

Block 1 具有单个stride为2的卷积层，接着是2 × 2最大池化。由于分辨率高，它使用了大量的存储空间，因此为了节省后续Block的存储空间，这里做了最少的工作。
Block 2 有两个类似于VGG的3 × 3卷积。这些卷积比后续的ResNet模块更节省存储空间。请注意，在此之后，张量的尺寸为96 × 96 × 64，与初始的384 × 384 × 1图像的体积相同，因此我们可以假设没有丢失重要信息。
Block3到6执行ResNet类型的卷积，我建议阅读原始论文，其想法是使用1 × 1卷积的子块来减少特征数量，3 × 3卷积核另一个1 × 1卷积用来恢复原始特征的数量。然后将这些卷积的输出添加到原始张量（旁路连接），我再每一个block都使用这样的子块，再加上一个1 × 1卷积来增加每个池化层后的特征数。
Branch model的最后一步是全局最大池化，这可以使模型鲁棒地可以忽略侥幸的不够好的特征。

代码

以下是该模型的Keras代码

from keras import regularizers
from keras.optimizers import Adam
from keras.engine.topology import Input
from keras.layers import Activation, Add, BatchNormalization, Concatenate, Conv2D, Dense, Flatten, GlobalMaxPooling2D, Lambda, MaxPooling2D, Reshape
from keras.models import Model

def subblock(x, filter, **kwargs):
    x = BatchNormalization()(x)
    y = x
    y = Conv2D(filter, (1, 1), activation='relu', **kwargs)(y) # 减少特征数量
    y = BatchNormalization()(y)
    y = Conv2D(filter, (3, 3), activation='relu', **kwargs)(y) # 扩展特征域
    y = BatchNormalization()(y)
    y = Conv2D(K.int_shape(x)[-1], (1, 1), **kwargs)(y) # 无激活函数 # 恢复原始特征的数量
    y = Add()([x,y]) # Add the bypass connection
    y = Activation('relu')(y)
    return y

def build_model(lr, l2, activation='sigmoid'):

    ##############
    # BRANCH MODEL
    ##############
    regul  = regularizers.l2(l2)
    optim  = Adam(lr=lr)
    kwargs = {'padding':'same', 'kernel_regularizer':regul}

    inp = Input(shape=img_shape) # 384x384x1
    x   = Conv2D(64, (9,9), strides=2, activation='relu', **kwargs)(inp)

    x   = MaxPooling2D((2, 2), strides=(2, 2))(x) # 96x96x64
    for _ in range(2):
        x = BatchNormalization()(x)
        x = Conv2D(64, (3,3), activation='relu', **kwargs)(x)

    x = MaxPooling2D((2, 2), strides=(2, 2))(x) # 48x48x64
    x = BatchNormalization()(x)
    x = Conv2D(128, (1,1), activation='relu', **kwargs)(x) # 48x48x128
    for _ in range(4): x = subblock(x, 64, **kwargs)

    x = MaxPooling2D((2, 2), strides=(2, 2))(x) # 24x24x128
    x = BatchNormalization()(x)
    x = Conv2D(256, (1,1), activation='relu', **kwargs)(x) # 24x24x256
    for _ in range(4): x = subblock(x, 64, **kwargs)

    x = MaxPooling2D((2, 2), strides=(2, 2))(x) # 12x12x256
    x = BatchNormalization()(x)
    x = Conv2D(384, (1,1), activation='relu', **kwargs)(x) # 12x12x384
    for _ in range(4): x = subblock(x, 96, **kwargs)

    x = MaxPooling2D((2, 2), strides=(2, 2))(x) # 6x6x384
    x = BatchNormalization()(x)
    x = Conv2D(512, (1,1), activation='relu', **kwargs)(x) # 6x6x512
    for _ in range(4): x = subblock(x, 128, **kwargs)

    x             = GlobalMaxPooling2D()(x) # 512
    branch_model  = Model(inp, x)

    ############
    # HEAD MODEL
    ############
    mid        = 32
    xa_inp     = Input(shape=branch_model.output_shape[1:])
    xb_inp     = Input(shape=branch_model.output_shape[1:])
    x1         = Lambda(lambda x : x[0]*x[1])([xa_inp, xb_inp])
    x2         = Lambda(lambda x : x[0] + x[1])([xa_inp, xb_inp])
    x3         = Lambda(lambda x : K.abs(x[0] - x[1]))([xa_inp, xb_inp])
    x4         = Lambda(lambda x : K.square(x))(x3)
    x          = Concatenate()([x1, x2, x3, x4])
    x          = Reshape((4, branch_model.output_shape[1], 1), name='reshape1')(x)

    # 使用合适的步幅，让2D卷积实现具有共享权重的特征神经网络.
    x          = Conv2D(mid, (4, 1), activation='relu', padding='valid')(x)
    x          = Reshape((branch_model.output_shape[1], mid, 1))(x)
    x          = Conv2D(1, (1, mid), activation='linear', padding='valid')(x)
    x          = Flatten(name='flatten')(x)

    # Dense layer的实现为加权和.
    x          = Dense(1, use_bias=True, activation=activation, name='weighted-average')(x)
    head_model = Model([xa_inp, xb_inp], x, name='head')

    ########################
    # SIAMESE NEURAL NETWORK
    ########################
    # 通过在每个输入图像上调用branch model来构建完整模型,
    # 然后是生成512个向量的head model.
    img_a      = Input(shape=img_shape)
    img_b      = Input(shape=img_shape)
    xa         = branch_model(img_a)
    xb         = branch_model(img_b)
    x          = head_model([xa, xb])
    model      = Model([img_a, img_b], x)
    model.compile(optim, loss='binary_crossentropy', metrics=['binary_crossentropy', 'acc'])
    return model, branch_model, head_model

model, branch_model, head_model = build_model(64e-5,0)
head_model.summary()

Layer (type)　　　　　　　　　Output Shape　　　　Param #　　　　Connected to

==================================================================================================
input_2 (InputLayer)　　　　　　(None, 512)　　　　0

input_3 (InputLayer)　　　　　　(None, 512)　　　　0

lambda_3　(Lambda) 　　　　　(None, 512)　　　　０　　　　　　　input_2[0][0]
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　input_3[0][0]

lambda_1 (Lambda)　　　　　　(None, 512)　　　　0　　　　　　　input_2[0][0]
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　input_3[0][0]

lambda_2 (Lambda)　　　　　　(None, 512)　　　　0　　　　　　　input_2[0][0]
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　input_3[0][0]

lambda_4 (Lambda)　　　　　　(None, 512)　　　　0　　　　　　　lambda_3[0][0]

concatenate_1 (Concatenate) 　 (None, 2048)　　　　0 　　　　　　lambda_1[0][0]
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 lambda_2[0][0]
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　lambda_3[0][0]
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　lambda_4[0][0]

reshape1 (Reshape)　　　　　(None, 4, 512, 1) 　　 0　　　　　　concatenate_1[0][0]

conv2d_56 (Conv2D)　　　　(None, 1, 512, 32)　　　160 　　　　reshape1[0][0]

reshape_1 (Reshape)　　　　(None, 512, 32, 1)　　　0 　　　　　conv2d_56[0][0]

conv2d_57 (Conv2D)　　　　(None, 512, 1, 1)　　　33 　　　　　reshape_1[0][0]

flatten (Flatten)　　　　　　　(None, 512)　　　　　0　　　　　　conv2d_57[0][0]

weighted-average (Dense)　　(None, 1)　　　　　　513　　　　　flatten[0][0]

==================================================================================================
Total params: 706
Trainable params: 706
Non-trainable params: 0

from keras.utils import plot_model
plot_model(head_model, to_file='head-model.png')
pil_image.open('head-model.png')

branch_model.summary()

这部分太长了，就不贴了，直接看可视化的网络

# Oops, this is HUGE!
plot_model(branch_model, to_file='branch-model.png')
img = pil_image.open('branch-model.png')
img.resize([x//2 for x in img.size])

训练数据架构

正如摘要部分所强调的那样，这是提升模型精度最重要的部分。
我们希望Siamese网络从训练集中的所有可能的鲸鱼中挑选一条正确的鲸鱼。虽然需要给正确的鲸鱼打较高的分，但它必须同时给所有其他鲸鱼的较低的得分。将随机的鲸鱼得分降低是不够的。为了迫使所有其他鲸鱼达到低概率，训练算法需要提供给模型难度逐渐增加的图像对，这个难度是模型在任意给定的时间评估出来的。从本质上讲，我们把模型的训练当成是一种对抗训练的形式。
同时，我们希望模型识别鲸鱼而不是图片鉴于训练数据集中的图片数量很少，要模型识别波浪的形状或者飞鸟是不切实际的。为防止这种情况，提交给模型的数据必须是无偏的。如果某一张图片在负例中频繁地出现，那么模型会简单地学习，在任何图片出现时都猜错，而不是学习如何正确地比较鲸鱼。通过提供相同出现次数的具有50%正例和50%负例的每个图像，该模型就没有学习识别特定图片的动机，一次会更关注与需要识别的鲸鱼。（这里指的是不平衡的数据导致模型预测时会偏向多的那一类

图像选择

首先，我们减少训练集中图像的数量：

黑名单中的图片都被删除
重复的图片都被删除
所有属于‘new_whale’类别的图像都被删除（triplet loss中其他类无法作为Anchor ）
所有只有单个图像的鲸鱼都被移除

黑名单是通过发现对训练无益的图像手动构建的。比如尾巴的底面不可见。或者我们在海滩上看到只有尾巴的碎片，图中有两条鲸鱼等等，这份清单并不详尽。

with open('../input/humpback-whale-identification-model-files/exclude.txt', 'rt') as f: exclude = f.read().split('\n')[:-1]   
len(exclude)

34

show_whale([read_raw_image(p) for p in exclude], per_row=5)

匹配鲸鱼的例子

训练时使用的一半样本是一对图像。对应训练集中的每只鲸鱼，计算其图片的Derangement，使用原始顺序图片作为图片A，将Derangement作为图片B。这会创建一个随机数量的匹配图像对，每个图像只采样两次。

不同鲸鱼的例子

通过计算来自训练集的所有图片的Derangement来生成不同的鲸鱼示例，但须满足：

图像对必须属于不同的鲸鱼;
图像对必须让模型难以区分。

总结：模型同时接收4张图片，即2个图像对(A, B), (A’, B’)，前者属于同一个鲸鱼，label为1，后者属于不同鲸鱼，label为0

以下算法用于生成图像对：

使用当前模型的状态计算每对图像之间的相似性。这个计算的复杂度为 n(n−1)2 ， n 为训练集图片的数量。幸运的是，只有head model才计算这个值，而且速度非常快，可以针对每个图像预先计算512维的特征向量，即复杂度为 O(n) 。
对应于同一鲸鱼的图像对，相似度设置为 −∞
Linear sum assignment algorithm 用于找到最难匹配的图像对。
为了使选择随机化并控制匹配难度，我们在步骤1的cost matrix中添加随机矩阵。随机矩阵的值均匀分布在0和K之间。K越大，匹配越随机。 K越小，模型的配对就越困难。
为了在连续的epoch的产生不同匹配，矩阵中的所选条目用 −∞ 覆盖以强制替代选择用于下一个匹配。

代码

上述逻辑基本由TrainingData类实现，该类实时地执行数据增强和匹配计算。

# 找到与图像ID关联的所有鲸鱼。 它可能不明确，因为重复的图像可能有不同的鲸鱼ID。
h2ws = {}
new_whale = 'new_whale'
for p,w in tagged.items():
    if w != new_whale: # 仅使用已识别的鲸鱼
        h = p2h[p]
        if h not in h2ws: h2ws[h] = []
        if w not in h2ws[h]: h2ws[h].append(w)
for h,ws in h2ws.items():
    if len(ws) > 1:
        h2ws[h] = sorted(ws)
len(h2ws)

8412

# 对于每条鲸鱼，找到明确的图像ID。
w2hs = {}
for h,ws in h2ws.items():
    if len(ws) == 1: # 仅使用明确的图片
        if h2p[h] in exclude:
            print(h) # 跳过排除的图像
        else:
            w = ws[0]
            if w not in w2hs: w2hs[w] = []
            if h not in w2hs[w]: w2hs[w].append(h)
for w,hs in w2hs.items():
    if len(hs) > 1:
        w2hs[w] = sorted(hs)
len(w2hs)

ebf094854a2bb1d6
f86bcf9487653848
d931c4768ebf9098
807b19b6766d09ce
bc984f67a31b48a6
aa557d0ad40f807f
c5313ec3c0343bcf
9dc39bb4833cc3c8
fb8c85f18c67131c
afa994d4416b2ab6
c0352f2194b7fcca
c4cc196f46bc8cce
c0c0753e9fcf4368
e5d11a1e86c47979
cdc0363cc23c3ecb
d8dc91b13fae8a18
f3ad8c8cb2b38c8c
f18c966fb836c90c
f8908e4ee223f758
a2d5d5eae64f2a01
96c949b632e90d3e
88d1a0eee07ce9da
e8d1960f60b13fca
d08f9d61729e8d61
90376cc843f6b9a3
e92d90d2616f0f9c
c96d1296e96b16b4
c7882c3359ec7327
9467679c9b638c98
f43183739a8f53c4
4239

# 获取训练图像列表，里面只保留至少有两个图像的鲸鱼
train = [] # A list of training image ids
for hs in w2hs.values():
    if len(hs) > 1:
        train += hs
random.shuffle(train)
train_set = set(train)

w2ts = {} # 将训练中的图像ID与每个鲸鱼ID相关联。
for w,hs in w2hs.items():
    for h in hs:
        if h in train_set:
            if w not in w2ts: w2ts[w] = []
            if h not in w2ts[w]: w2ts[w].append(h)
for w,ts in w2ts.items(): w2ts[w] = np.array(ts)

t2i = {} # 训练图像ID在训练集中的位置
for i,t in enumerate(train): t2i[t] = i

len(train),len(w2ts)

(6038, 1905)

from keras.utils import Sequence

# 首先尝试使用更快的lapjv解决Linear Assignment Problem。
# 在我写这篇文章时，带有自定义包的kaggle kernel无法提交。
# scipy可以当做备用，但在时间限制下运行此kernel太慢
# 使用scipy进行数据分区来作为一种解决方法。
# 因为算法复杂度为O(n^3), 分成小块会快的多，但生成的不是真正得解决方案。
try:
    from lap import lapjv
    segment = False
except ImportError:
    print('Module lap not found, emulating with much slower scipy.optimize.linear_sum_assignment')
    segment = True
    from scipy.optimize import linear_sum_assignment

class TrainingData(Sequence):
    def __init__(self, score, steps=1000, batch_size=32):
        """
        @param score 图片匹配的cost matrix
        @param steps epoch数，用来设计score matrix
        """
        super(TrainingData, self).__init__()
        self.score      = -score # 最大化分数与最小化负分数相同。
        self.steps      = steps
        self.batch_size = batch_size
        for ts in w2ts.values():
            idxs = [t2i[t] for t in ts]
            for i in idxs:
                for j in idxs:
                    self.score[i,j] = 10000.0 # 为匹配鲸鱼设置一个很大的值 - 消除了这种潜在的配对
        self.on_epoch_end()
    def __getitem__(self, index):
        start = self.batch_size*index
        end   = min(start + self.batch_size, len(self.match) + len(self.unmatch))
        size  = end - start
        assert size > 0
        a     = np.zeros((size,) + img_shape, dtype=K.floatx())
        b     = np.zeros((size,) + img_shape, dtype=K.floatx())
        c     = np.zeros((size,1), dtype=K.floatx())
        j     = start//2
        for i in range(0, size, 2):
            a[i,  :,:,:] = read_for_training(self.match[j][0])
            b[i,  :,:,:] = read_for_training(self.match[j][1])
            c[i,  0    ] = 1 # This is a match
            a[i+1,:,:,:] = read_for_training(self.unmatch[j][0])
            b[i+1,:,:,:] = read_for_training(self.unmatch[j][1])
            c[i+1,0    ] = 0 # Different whales
            j           += 1
        return [a,b],c
    def on_epoch_end(self):
        if self.steps <= 0: return # 跳过最后一个epoch
        self.steps     -= 1
        self.match      = []
        self.unmatch    = []
        if segment:
            # 使用较慢的scipy，用较小的batch
            # 因为算法复杂度为O(n^3), 小batch更快
            # 然而，这并不能找到真正的最优解，只是近似值。
            tmp   = []
            batch = 512
            for start in range(0, score.shape[0], batch):
                end = min(score.shape[0], start + batch)
                _, x = linear_sum_assignment(self.score[start:end, start:end])
                tmp.append(x + start)
            x = np.concatenate(tmp)
        else:
            _,_,x = lapjv(self.score) # 解决 linear assignment problem
        y = np.arange(len(x),dtype=np.int32)

        # 计算匹配鲸鱼的derangement
        for ts in w2ts.values():
            d = ts.copy()
            while True:
                random.shuffle(d)
                if not np.any(ts == d): break
            for ab in zip(ts,d): self.match.append(ab)

        # Construct unmatched whale pairs from the LAP solution.
        for i,j in zip(x,y):
            if i == j:
                print(self.score)
                print(x)
                print(y)
                print(i,j)
            assert i != j
            self.unmatch.append((train[i],train[j]))

        # Force a different choice for an eventual next epoch.
        self.score[x,y] = 10000.0
        self.score[y,x] = 10000.0
        random.shuffle(self.match)
        random.shuffle(self.unmatch)
        # print(len(self.match), len(train), len(self.unmatch), len(train))
        assert len(self.match) == len(train) and len(self.unmatch) == len(train)
    def __len__(self):
        return (len(self.match) + len(self.unmatch) + self.batch_size - 1)//self.batch_size

# 对一批32个随机cost matrix进行测试。
score = np.random.random_sample(size=(len(train),len(train)))
data = TrainingData(score)
(a, b), c = data[0]
a.shape, b.shape, c.shape

((32, 384, 384, 1), (32, 384, 384, 1), (32, 1))

# 第一对为匹配的鲸鱼
imgs = [array_to_img(a[0]), array_to_img(b[0])]
show_whale(imgs, per_row=2)

# 第二对为不匹配的鲸鱼
imgs = [array_to_img(a[1]), array_to_img(b[1])]
show_whale(imgs, per_row=2)

训练过程

本节介绍用于训练模型的过程。训练持续400个epoch，随着训练的进行，以下数值会发生变化：

学习率
L2 正则化项
常数 K ，用于测量score matrix的随机分量的比例，用于匹配相似的图像，构建困难的训练样本。

该程序本身是从早期版本的模型中的许多实验，试验和错误演变而来。
用随机权重训练大型模型很困难。实际上，如果该模型最初被提供的实例太难，则它根本不会收敛。在本文中，难区分的样本属于不同鲸鱼的类似图像。更极端地说，构建一个训练数据集，其中不同鲸鱼的图片对出现比来自同一条鲸鱼的图片对更相似，使模型学会将类似的图像分类为不同的鲸鱼，和不同的图像一样的鲸鱼。
为了防止这种情况，早期训练K的值较大，使得负面实例基本上是随机的不同鲸鱼图片对。由于模型区分鲸鱼的能力增加，K逐渐减少，呈现更难的训练案列。同样，训练从没有 L2 正则化开始。在250个epoch后，训练的准确性非常好，但也开始过拟合。此时，应用 L2 正则化，将学习率重置为较大值，再训练150个epoch。
下表显示了学习率， L2 正则化和随机score matrix的确切时间表。
还要注意，Linear Assignment Problem的score matrix是从第10个epoch后，每5个epoch计算一次。

Epochs	LR	K	L2
1-10	64e-5	+∞	0
11-15	64e-5	100.00	0
16-20	64e-5	63.10	0
21-25	64e-5	39.81	0
26-30	64e-5	25.12	0
31-35	64e-5	15.85	0
36-40	64e-5	10.0	0
41-45	64e-5	6.31	0
46-50	64e-5	3.98	0
51-55	64e-5	2.51	0
56-60	64e-5	1.58	0
61-150	64e-5	1.00	0
150-200	16e-5	0.50	0
201-240	4e-5	0.25	0
241-250	1e-5	0.25	0
251-300	64e-5	1.00	2e-4
301-350	16e-5	0.50	2e-4
351-390	4e-5	0.25	2e-4
391-400	1e-5	0.25	2e-4

# Keras生成器，仅评估branch model
class FeatureGen(Sequence):
    def __init__(self, data, batch_size=64, verbose=1):
        super(FeatureGen, self).__init__()
        self.data       = data
        self.batch_size = batch_size
        self.verbose    = verbose
        if self.verbose > 0: self.progress = tqdm_notebook(total=len(self), desc='Features')
    def __getitem__(self, index):
        start = self.batch_size*index
        size  = min(len(self.data) - start, self.batch_size)
        a     = np.zeros((size,) + img_shape, dtype=K.floatx())
        for i in range(size): a[i,:,:,:] = read_for_validation(self.data[start + i])
        if self.verbose > 0: 
            self.progress.update()
            if self.progress.n >= len(self): self.progress.close()
        return a
    def __len__(self):
        return (len(self.data) + self.batch_size - 1)//self.batch_size

# Keras生成器，用于评估head model上已预先计算的特征。
# 如果y为None，则仅计算cost matrix的上三角矩阵。
class ScoreGen(Sequence):
    def __init__(self, x, y=None, batch_size=2048, verbose=1):
        super(ScoreGen, self).__init__()
        self.x          = x
        self.y          = y
        self.batch_size = batch_size
        self.verbose    = verbose
        if y is None:
            self.y           = self.x
            self.ix, self.iy = np.triu_indices(x.shape[0],1)
        else:
            self.iy, self.ix = np.indices((y.shape[0],x.shape[0]))
            self.ix          = self.ix.reshape((self.ix.size,))
            self.iy          = self.iy.reshape((self.iy.size,))
        self.subbatch = (len(self.x) + self.batch_size - 1)//self.batch_size
        if self.verbose > 0: self.progress = tqdm_notebook(total=len(self), desc='Scores')
    def __getitem__(self, index):
        start = index*self.batch_size
        end   = min(start + self.batch_size, len(self.ix))
        a     = self.y[self.iy[start:end],:]
        b     = self.x[self.ix[start:end],:]
        if self.verbose > 0: 
            self.progress.update()
            if self.progress.n >= len(self): self.progress.close()
        return [a,b]
    def __len__(self):
        return (len(self.ix) + self.batch_size - 1)//self.batch_size

from keras_tqdm import TQDMNotebookCallback

def set_lr(model, lr):
    K.set_value(model.optimizer.lr, float(lr))

def get_lr(model):
    return K.get_value(model.optimizer.lr)

def score_reshape(score, x, y=None):
    """
    将packed matrix的'得分'转换为方阵。
    @param score the packed matrix
    @param x 第一张图像的特征张量
    @param y 第二张图像的张量，如果与x不同
    @结果为方阵
    """
    if y is None:
        # 当y为None时，得分是packed matrix的上三角矩阵。
        # 解包, 并转置形成对称的下三角矩阵。
        m = np.zeros((x.shape[0],x.shape[0]), dtype=K.floatx())
        m[np.triu_indices(x.shape[0],1)] = score.squeeze()
        m += m.transpose()
    else:
        m        = np.zeros((y.shape[0],x.shape[0]), dtype=K.floatx())
        iy,ix    = np.indices((y.shape[0],x.shape[0]))
        ix       = ix.reshape((ix.size,))
        iy       = iy.reshape((iy.size,))
        m[iy,ix] = score.squeeze()
    return m

def compute_score(verbose=1):
    """
    Compute the score matrix by scoring every pictures from the training set against every other picture O(n^2).
    """
    features = branch_model.predict_generator(FeatureGen(train, verbose=verbose), max_queue_size=12, workers=6, verbose=0)
    score    = head_model.predict_generator(ScoreGen(features, verbose=verbose), max_queue_size=12, workers=6, verbose=0)
    score    = score_reshape(score, features)
    return features, score

def make_steps(step, ampl):
    """
    执行训练
    @param step 训练的epoch数。
    @param ampl K值, score matrix的随机分量。
    """
    global w2ts, t2i, steps, features, score, histories

    # 打乱训练图片
    random.shuffle(train)

    # 将鲸鱼id映射到相关的训练图片的hash表上去。
    w2ts = {}
    for w,hs in w2hs.items():
        for h in hs:
            if h in train_set:
                if w not in w2ts: w2ts[w] = []
                if h not in w2ts[w]: w2ts[w].append(h)
    for w,ts in w2ts.items(): w2ts[w] = np.array(ts)

    # 将训练图片hash值映射到'train'数组中的索引
    t2i  = {}
    for i,t in enumerate(train): t2i[t] = i    

    # 计算每个图片对的匹配分数
    features, score = compute_score()

    # 训练模型'step'个epoch
    history = model.fit_generator(
        TrainingData(score + ampl*np.random.random_sample(size=score.shape), steps=step, batch_size=32),
        initial_epoch=steps, epochs=steps + step, max_queue_size=12, workers=6, verbose=0,
        callbacks=[
            TQDMNotebookCallback(leave_inner=True, metric_format='{value:0.3f}')
        ]).history
    steps += step

    # 收集历史数据
    history['epochs'] = steps
    history['ms'    ] = np.mean(score)
    history['lr'    ] = get_lr(model)
    print(history['epochs'],history['lr'],history['ms'])
    histories.append(history)

model_name = 'mpiotte-standard'
histories  = []
steps      = 0

if isfile('../input/humpback-whale-identification-model-files/mpiotte-standard.model'):
    tmp = keras.models.load_model('../input/humpback-whale-identification-model-files/mpiotte-standard.model')
    model.set_weights(tmp.get_weights())
else:
    # epoch -> 10
    make_steps(10, 1000)
    ampl = 100.0
    for _ in range(10):
        print('noise ampl.  = ', ampl)
        make_steps(5, ampl)
        ampl = max(1.0, 100**-0.1*ampl)
    # epoch -> 150
    for _ in range(18): make_steps(5, 1.0)
    # epoch -> 200
    set_lr(model, 16e-5)
    for _ in range(10): make_steps(5, 0.5)
    # epoch -> 240
    set_lr(model, 4e-5)
    for _ in range(8): make_steps(5, 0.25)
    # epoch -> 250
    set_lr(model, 1e-5)
    for _ in range(2): make_steps(5, 0.25)
    # epoch -> 300
    weights = model.get_weights()
    model, branch_model, head_model = build_model(64e-5,0.0002)
    model.set_weights(weights)
    for _ in range(10): make_steps(5, 1.0)
    # epoch -> 350
    set_lr(model, 16e-5)
    for _ in range(10): make_steps(5, 0.5)    
    # epoch -> 390
    set_lr(model, 4e-5)
    for _ in range(8): make_steps(5, 0.25)
    # epoch -> 400
    set_lr(model, 1e-5)
    for _ in range(2): make_steps(5, 0.25)
    model.save('mpiotte-standard.model')

生成提交文件

对于测试集中的每张图片，基本策略是这样的：

如果图像是来自训练集图像的一个或者多个复制，那么将鲸鱼（可能多于一个）从训练图像中添加为最佳候选者。
对于来自训练集的每个非new_whale类图像，计算图像分数，该分数是图像对的模型分数。
对于来自训练集的每条鲸鱼，计算得分最大的图像得分为这样鲸鱼。
根据阈值，添加new_whale类。
对鲸鱼分数进行降序排序。

假设没有标记错误，那么重复图像就是免费的答案。对于new_whale，算法首先选择高置信度预测，然后插入new_whale，然后插入低置信度预测。通过反复使用选择阈值，尽管大多数情况模型选择阈值作为最佳值，导致7100多个图像以new_whale类作为第一选择。以上结果可以在不向Kaggle提交预测的情况下测量。

# 在本文中不进行计算，因为它有点慢。 使用GTX 1080大约需要15分钟。
import gzip

def prepare_submission(threshold, filename):
    """
    Generate a Kaggle submission file.
    @param threshold the score given to 'new_whale'
    @param filename the submission file name
    """
    vtop  = 0
    vhigh = 0
    pos   = [0,0,0,0,0,0]
    with gzip.open(filename, 'wt', newline='\n') as f:
        f.write('Image,Id\n')
        for i,p in enumerate(tqdm_notebook(submit)):
            t = []
            s = set()
            a = score[i,:]
            for j in list(reversed(np.argsort(a))):
                h = known[j]
                if a[j] < threshold and new_whale not in s:
                    pos[len(t)] += 1
                    s.add(new_whale)
                    t.append(new_whale)
                    if len(t) == 5: break;
                for w in h2ws[h]:
                    assert w != new_whale
                    if w not in s:
                        if a[j] > 1.0:
                            vtop += 1
                        elif a[j] >= threshold:
                            vhigh += 1
                        s.add(w)
                        t.append(w)
                        if len(t) == 5: break;
                if len(t) == 5: break;
            if new_whale not in s: pos[5] += 1
            assert len(t) == 5 and len(s) == 5
            f.write(p + ',' + ' '.join(t[:5]) + '\n')
    return vtop,vhigh,pos

if False:
    # Find elements from training sets not 'new_whale'
    h2ws = {}
    for p,w in tagged.items():
        if w != new_whale: # Use only identified whales
            h = p2h[p]
            if h not in h2ws: h2ws[h] = []
            if w not in h2ws[h]: h2ws[h].append(w)
    known = sorted(list(h2ws.keys()))

    # Dictionary of picture indices
    h2i   = {}
    for i,h in enumerate(known): h2i[h] = i

    # Evaluate the model.
    fknown  = branch_model.predict_generator(FeatureGen(known), max_queue_size=20, workers=10, verbose=0)
    fsubmit = branch_model.predict_generator(FeatureGen(submit), max_queue_size=20, workers=10, verbose=0)
    score   = head_model.predict_generator(ScoreGen(fknown, fsubmit), max_queue_size=20, workers=10, verbose=0)
    score   = score_reshape(score, fknown, fsubmit)

    # Generate the subsmission file.
    prepare_submission(0.99, 'mpiotte-standard.csv.gz')

Bootstrapping 与 ensemble

mpiotte-standard.model的得分为0.766。
由于训练数据集较小，且测试集较大，因此bootstrapping算法是提高分数的良好方案。在本文中，bootstrapping意味着使用该模型自动生成额外的训练示例，并在较大的数据集上重新训练模型。在这个实验中，我选择了测试集中预测单个鲸鱼得分大于0.999999的图像（得分只是用于对鲸鱼进行排序的数字，它不是概率）。

Bootstrapping

with open('../input/humpback-whale-identification-model-files/bootstrap.pickle', 'rb') as f:
    bootstrap = pickle.load(f)
len(bootstrap), list(bootstrap.items())[:5]

(1885,
[(‘ea8f94e03ced18d2’, ‘w_0b775c1’),
(‘bd84d2b265199e65’, ‘w_e8bce8a’),
(‘afdad0a5e024bd23’, ‘w_3461d6d’),
(‘b61cc9598e4fea12’, ‘w_34c8690’),
(‘a1be8e613c8c5379’, ‘w_7554f44’)])

提交这些1885张照片的结果，显示准确率超过93%
将这些文件添加到训练集并从头开始重新运行训练会生成mpiotte-bootstrap.model。该模型的得分略高于0.774，这里阈值为 0.989。

Ensemble

最佳分数是通过mpiotte-standard.model和mpiotte-bootstrap.model集合而获得的。这两种模型由于它们的性质而产生不同的错误，这使它们成为合奏的良好候选者：

standard model在最小的训练集上训练，因此具有更多的过拟合的可能性。
bootstrap model在更多数据上进行训练，但由于引导数据仅准确率为93％，因此标记准确性较低。

分配策略包括计算一个score matrix（或者通过训练的测试尺度），它是standard和bootstrap模型的线性组合。使用score matrix生成提交的策略不变，试验表明standard model的权重为0.45，bootstrap model的权重为0.55。
得到的整体的精度为0.78563，阈值为0.92。值得注意的是，为什么整体的“阈值”值如此的低，这与两个模型产生不同误差的事实一致，因此整体分数通常低于单个模型，这些模型对它们的猜测非常乐观。

可视化

本节通过一些可视化来探索模型。

特征权重

如模型描述中所讨论的，head model对特征进行加权求和，允许负权重。我们可以验证我们是否看到了正负权重的组合，这些权重确认某些特征在匹配时会降低匹配鲸鱼的概率。这可能让我们匹配单一的，单色的尾巴，这可能不太正确，因为匹配鲸鱼会涉及到多重的特征。

w = head_model.layers[-1].get_weights()[0]
w = w.flatten().tolist()
w = sorted(w)
fig, axes = plt.subplots(1,1)
axes.bar(range(len(w)), w)
plt.show()

我们还可以检查“每个特征”网络对不同功能值的行为方式。
我们期望看到的是，相等的零特征应该产生比类似的大值更小的输出。同时，非常不同的值必须受到惩罚。

# 用线性激活函数构造head model
_, _, tmp_model = build_model(64e-5,0, activation='linear')
tmp_model.set_weights(head_model.get_weights())

# 用常数向量评估模型。
a = np.ones((21*21,512),dtype=K.floatx())
b = np.ones((21*21,512),dtype=K.floatx())
for i in range(21):
    for j in range(21):
        a[21*i + j] *= float(i)/10.0
        b[21*i + j] *= float(j)/10.0
x    = np.arange(0.0, 2.01, 0.1, dtype=K.floatx())
x, y = np.meshgrid(x, x)
z    = tmp_model.predict([a,b], verbose=0).reshape((21,21))
x.shape, y.shape, z.shape

((21, 21), (21, 21), (21, 21))

伪距离函数

from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(x, y, z, cmap=cm.coolwarm)
plt.show()

不是很容易看到，但仍然是匹配具有大值的特征的最大输出（最佳鲸鱼匹配）。匹配零获得更低的值。
只是色彩图可能更容易看到。这证实了初步假设。

from matplotlib.colors import BoundaryNorm
from matplotlib.ticker import MaxNLocator

levels = MaxNLocator(nbins=15).tick_values(z.min(), z.max())
fig = plt.figure()
ax = fig.add_subplot(111)
cf = ax.contourf(x, y, z, levels=levels, cmap=cm.coolwarm)
plt.show()

特征激活

本节尝试重建最大化激活特征的图像。这提供了有关特征提取过程的一些见解。
生成图像的代码是根据Francois Chollet在Deep Learning with Python中的示例进行修改而成的。

from scipy.ndimage import gaussian_filter

def show_filter(filter, blur):
    np.random.seed(1)
    noise   = 0.1 # Initial noise
    step    = 1 # Gradient step

    # 构造函数
    inp     = branch_model.layers[0].get_input_at(0)
    loss    = K.mean(branch_model.layers[-3].output[0,2:4,2:4,filter]) # Stimulate the 4 central cells
    grads   = K.gradients(loss, inp)[0]
    grads  /= K.sqrt(K.mean(K.square(grads))) + K.epsilon()
    iterate = K.function([inp],[grads])
    img     = (np.random.random(img_shape) -0.5)*noise
    img     = np.expand_dims(img, 0)

    # 使用梯度下降来形成图像
    for i in range(200):
        grads_value = iterate([img])[0]
        # Blurring a little creates nicer images by reducing reconstruction noise
        img = gaussian_filter(img + grads_value*step, sigma=blur)

    # 剪辑图像以提高对比度
    avg  = np.mean(img)
    std  = sqrt(np.mean((img - avg)**2))
    low  = avg - 5*std
    high = avg + 5*std
    return array_to_img(np.minimum(high, np.maximum(low, img))[0])

# 显示前25个特征 (全部为512个)
show_whale([show_filter(i, 0.5) for i in tqdm_notebook(range(25))], per_row=5)

题外话

训练可扩展性

如上所述，使用i7-8700 CPU和GTX 1080 GPU，训练基础模型大约需要2天，而bootstrap版本需要3天时间。超过50％的时间用于Linear Assignment Problem，因为所使用的算法具有 O(n3) 复杂性并且提供了精确的解决方案。然而，score matrix是随机的，因此投入大量时间来计算随机输入的精确解决方案是浪费的。在本次竞赛的背景下，对运行时和小数据集没有约束，这是一个实用的选择。然而，为了扩展这种方法，较低成本的随机匹配启发式将更有效。
训练可扩展性的另一种方法是将训练数据划分为不同的子集，每个子集被单独处理以匹配图像对。每次计算cost matrix时，可以随机重建子集。这不仅对 Linear Assignment Problem部分有效，而且在计算仍具有复杂度 O(n2) 的cost matrix时也是有效的。通过将子集大小固定为合理的值，复杂度随着子集的数量线性增长，从而允许更大的训练数据集。

有趣的结果和分数

分数	描述
0.786	通过standard model与bootstrap model的线性组合获得的最佳分数
0.774	bootstrapped model
0.766	standard model
0.752	VGG架构的standard model
0.728	没有 L2 正则化的standard model（250个epoch后的结果）
0.714	没有排除列表，旋转列表和bbox模型的标准模型（即没有对训练集进行手动判断）
0.423	提交结果只有重复图像和new_whale
0.325	提交结果只有new_whale
0.107	提交结果只有重复图像

验证集

到目前为止，我还没有讨论验证数据集。在研究过程中，我使用了由训练集中的570个图像组成的验证集来测试想法并调整训练过程。但是，通过使用所有数据重新训练模型，重复在验证集上成功的过程，可以实现更高的准确性。本文基本上描述了这种最终的再训练，因此没有涉及验证集。

Bounding Box模型地址：http://www.kaggle.com/martinpiotte/bounding-box-model，在这篇博客中暂不翻译 ↩
中间结果文件下载地址：https://www.kaggle.com/martinpiotte/whale-recognition-model-with-score-0-78563/data ↩

你可能感兴趣的:(kaggle,keras,图像分类,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>