炊烟袅袅岁月情

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!

Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!

文章目录

前期准备
一. Yolov3简要介绍

1.1. Yolov3网络结构图
1.2. 9种尺度的先验框
1.3. 对象分类softmax改成logistic
1.4. 边框预测
1.5. 损失函数
1.6. 利用官网权重进行检测

二. 制作VOC2007格式数据集

2.1. 数据集标注
2.2. 修改参数文件yolov3.cfg
2.3. 修改model_data下的文件

三. 模型训练train.py

3.1. 代码解读train.py
3.2. 补充：冻结网络层
3.3. 补充：目标检测之IoU计算方法
3.4. 补充：冻结网络层
3.5. 补充：1x1卷积操作与全连接

四. 对图片进行检测

4.1. 修改yolo.py代码
4.2. 代码执行过程+结果

五. 重要代码注释model.py
六. Keras中自定义损失函数的方法

6.1. 例子1:自定义loss
6.2. 例子2:自定义loss

参考文章

前期准备

主要参考github代码：https://github.com/qqwweee/keras-yolo3
主要参考CSDN文章1：https://blog.csdn.net/Patrick_Lxc/article/details/80615433
主要参考CSDN文章2：使用VOC数据集训练自己的YOLOv3模型(Keras/TensorFlow)
主要参考简书中文章3：关于Yolov3的一些细节
主要参考简书中文章4：Yolov3 深入理解
主要参考简书中文章5：Yolov1深入理解
主要参考简书中文章6：YOLOv2 / YOLO9000 深入理解
主要参考文章3(赞赞!)：keras-Yolov3 源码调试
重点内容： 介绍如何制作数据集、修改代码、不加载预权重(可以选择) 从头跑自己的训练数据
程序运行环境：Python 3.5.2; Keras 2.1.5; tensorflow 1.6.0!

一. Yolov3简要介绍

1.1. Yolov3网络结构图

YOLOV3 Homepage
Yolov3网络结构图参考作者 yolo系列之yolo v3【深度解析】，并且我再此基础了进行了一些细节性的补充，希望对您有用！

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第1张图片

Yolov3输出了3个不同尺度的feature map, 有什么作用！

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第2张图片

低层的特征语义信息比较少，但是目标位置信息准确；高层的特征语义信息比较丰富，但是目标位置信息比较粗略。
这个借鉴了FPN(feature pyramid networks)，采用多尺度来对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的物体。这样可以让网络同时学习到深层和浅层的特征，通过叠加浅层特征图相邻特征到不同通道(而非空间位置)，类似于Resnet中的identity mapping。这个方法把 $26 \times 26 \times 512$ 的特征图叠加成 $13 \times 13 \times 2048$ 的特征图，与原生的深层特征图相连接，使模型有了细粒度特征,增加对小目标的识别能力。
Yolov3采用(类似FPN)上采样(Upsample)和融合做法，融合了3个尺度( $13 \times 13 、 26 \times 26 和 52 \times 52$ )，在多个尺度的融合特征图上分别独立做检测，最终对于小目标的检测效果提升明显。(有些算法采用多尺度特征融合的方式，但是一般是采用融合后的单一特征图做预测，比如Yolov2，FPN不一样的地方在于其预测是在不同特征层进行的!)
假设以Pascal voc 为例：Yolov3设定的是每个网格单元预测 $3$ 个box，所以每个box需要有 $(x, y, w, h, c o n f i d e n c e)$ 五个基本参数，然后还要有20个类别的概率。所以 $3 \times (5 + 20) = 75$ ，这个 $75$ 就是这么来的! (还记得yolo v1的输出张量吗？ $7 \times 7 \times 30$ ，其中 $2 \times 5 + 20 = 30$ 识别 $20$ 类物体，而且每个cell只能预测 $2$ 个box，和Yolov3比起来就像老人机和iphoneX一样)

1.2. 9种尺度的先验框

随着输出的特征图的数量和尺度的变化，先验框的尺寸也需要相应的调整。Yolov2已经开始采用K-means聚类得到先验框的尺寸，Yolov3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出 $9$ 种尺寸的先验框。在COCO数据集这 $9$ 个先验框是： $(10 \times 13) ， (16 \times 30) ， (33 \times 23) ， (30 \times 61) ， (62 \times 45) ， (59 \times 119) ， (116 \times 90) ， (156 \times 198) ， (373 \times 326)$ 。
分配上，在最小的 $13 \times 13$ 特征图上（有最大的感受野）应用较大的先验框 $(116 \times 90) ， (156 \times 198) ， (373 \times 326)$ ，适合检测较大的对象。中等的 $26 \times 26$ 特征图上（中等感受野）应用中等的先验框 $(30 \times 61) ， (62 \times 45) ， (59 \times 119)$ ，适合检测中等大小的对象。较大的 $52 \times 52$ 特征图上（较小的感受野）应用较小的先验框 $(10 \times 13) ， (16 \times 30) ， (33 \times 23)$ ，适合检测较小的对象。
具体介绍可以参考作者：YOLOv3 深入理解

1.3. 对象分类softmax改成logistic

预测对象类别时不使用softmax，改成使用logistic的输出进行预测。这样能够支持多标签对象（比如一个人有Woman 和 Person两个标签）。

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第3张图片

不考虑神经网络结构细节的话，总的来说，对于一个输入图像，Yolov3将其映射到 $3$ 个尺度的输出张量，代表图像各个位置存在各种对象的概率。
我们看一下Yolov3共进行了多少个预测。对于一个 $416 \times 416$ 的输入图像，在每个尺度的特征图的每个网格设置 $3$ 个先验框，总共有 $13 \times 13 \times 3 + 26 \times 26 \times 3 + 52 \times 52 \times 3 = 10647$ 个预测。每一个预测是一个 $(4 + 1 + 80) = 85$ 维向量，这个 $85$ 维向量包含边框坐标（ $4$ 个数值），边框置信度（ $1$ 个数值），对象类别的概率（对于COCO数据集，有 $80$ 种对象）。
对比一下，Yolov2采用 $13 \times 13 \times 5 = 845$ 个预测，Yolov3的尝试预测边框数量增加了 $10$ 多倍，而且是在不同分辨率上进行，所以mAP以及对小物体的检测效果有一定的提升。

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第4张图片

图像参考：如何在PyTorch中从零开始实现YOLO（v3）对象检测器

1.4. 边框预测

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第5张图片

其中： $b_x, b_y, b_w, b_h$ 是我们预测的 $x ， y$ 中心坐标，宽度和高度； $t_x, t_y, t_w, t_h$ 是网络输出的内容。 $c_x, c_y$ 是网格的左上角坐标， $p_w$ 和 $p_h$ 是盒子的anchor box尺寸

1.5. 损失函数

这里以Yolov1为例子：损失就是网络实际输出值与样本标签值之间的偏差。举个例子，比如下图中自行车的中心点位于4行3列网格中，所以输出tensor中4行3列位置的30维向量如下图所示。

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第6张图片

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第7张图片

YOLO给出的损失函数如下

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第8张图片

公式中

a) $1_i^{obj}$ 意思是网格 $i$ 中存在对象。
b) $1_{ij}^{obj}$ 意思是网格 $i$ 的第 $j$ 个bounding box中存在对象。
c) $1_{ij}^{noobj}$ 意思是网格 $i$ 的第 $j$ 个bounding box中不存在对象。

总的来说，就是用网络输出与样本标签的各项内容的误差平方和作为一个样本的整体误差。损失函数中的几个项是与输出的30维向量中的内容相对应的。

① 对象分类的误差: 公式第5行，注意 $1_i^{obj}$ 意味着存在对象的网格才计入误差。
② bounding box的位置误差:

a) 公式第 $1$ 行和第 $2$ 行。都带有 $1_{ij}^{obj}$ 意味着只有"负责"（IOU比较大）预测的那个bounding box的数据才会计入误差。
b) 第 $2$ 行宽度和高度先取了平方根，因为如果直接取差值的话，大的对象对差值的敏感度较低，小的对象对差值的敏感度较高，所以取平方根可以降低这种敏感度的差异，使得较大的对象和较小的对象在尺寸误差上有相似的权重。
c) 乘以 $\lambda_{coord}$ 调节bounding box位置误差的权重（相对分类误差和置信度误差）。Yolo 中 $\lambda_{coord} = 5$ ，即调高位置误差的权重。

③ bounding box的置信度误差 公式第3行和第4行。

a) 第 $3$ 行是存在对象的bounding box的置信度误差。带有 $1_{ij}^{obj}$ 意味着只有"负责"（IOU比较大）预测的那个bounding box的置信度才会计入误差。
b) 第 $4$ 行是不存在对象的bounding box的置信度误差。因为不存在对象的bounding box应该老老实实的说"我这里没有对象"，也就是输出尽量低的置信度。如果它不恰当的输出较高的置信度，会与真正"负责"该对象预测的那个bounding box产生混淆。其实就像对象分类一样，正确的对象概率最好是 $1$ ，所有其它对象的概率最好是 $0$ 。
c) 第 $4$ 行会乘以 $\lambda_{noobj}$ 调节不存在对象的bounding box的置信度的权重（相对其它误差）。Yolo 中设置 $\lambda_{noobj} = 0.5$ ，即调低不存在对象的bounding box的置信度误差的权重。

1.6. 利用官网权重进行检测

yolov3.weights和yolov3-tiny.weights官网权重文件下载

wget https://pjreddie.com/media/files/yolov3.weights
wget https://pjreddie.com/media/files/yolov3-tiny.weights

转换权重文件, 执行代码中的下面命令

python convert.py yolov3.cfg yolov3.weights model_data/yolo.h5

会在model_data文件夹中生成一个yolo.h5文件，注意这个权重文件要留着，后面可能会用上；

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第9张图片

打开yolo_video.py，其用法如下：

usage: yolo_video.py [-h] [--model MODEL] [--anchors ANCHORS]
                     [--classes CLASSES] [--gpu_num GPU_NUM] [--image]
                     [--input] [--output]

positional arguments:
  --input        Video input path
  --output       Video output path

optional arguments:
  -h, --help         show this help message and exit
  --model MODEL      path to model weight file, default model_data/yolo.h5
  --anchors ANCHORS  path to anchor definitions, default
                     model_data/yolo_anchors.txt
  --classes CLASSES  path to class definitions, default
                     model_data/coco_classes.txt
  --gpu_num GPU_NUM  Number of GPU to use, default 1
  --image            Image detection mode, will ignore all positional arguments

这里以识别一个张图片为例子

python yolo_video.py --image
# 会提示输入图片的路径；输入要探测的图片路径就可以啦。

二. 制作VOC2007格式数据集

2.1. 数据集标注

首先这里简要说明，自己简单的标注了40张图片，具体的方法参考我之前的博客：DL笔记：PascalVOC 数据集介绍+数据集标注工具！最终原图片和标记产生的xml文件如下，只有一个类别；使用的工具LabelImg:链接：提取码：85y8

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第10张图片

把VOCdevkit所有文件夹里面的东西删除，保留所有文件夹的名字，如下图(左)：

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第11张图片

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第12张图片

把刚才的40张图片都复制到JPEGImages里面，如上图(右)：
把刚才标注生成的.xml文件放到Annotations目录下面；
接下来把.xml文件解析成.txt文件，在VOC2007目录下建个文件test.py，内容如下：

import os
import random

trainval_percent = 0.9               # 整个数据集中，作为训练验证集的比例数
train_percent = 0.9                  # 训练验证集中用于训练的数据的比例，根据实际情况修改
xmlfilepath = 'Annotations'
txtsavepath = 'ImageSets\Main'
total_xml = os.listdir(xmlfilepath)  # 得到整个注释文件的文件名

num = len(total_xml)                 # 文件个数
list = range(num)                    # 0到num
tv = int(num * trainval_percent)     # 训练验证文件的个数
tr = int(tv * train_percent)         # 训练文件的个数
trainval = random.sample(list, tv)   # 从0到num中随机选取tv个
train = random.sample(trainval, tr)  # 从trainval中随机选取tr个

ftrainval = open('ImageSets/Main/trainval.txt', 'w')    #写模式打开trainval.txt，下同
ftest = open('ImageSets/Main/test.txt', 'w')
ftrain = open('ImageSets/Main/train.txt', 'w')
fval = open('ImageSets/Main/val.txt', 'w')

for i in list:                       # 遍历文件
    name = total_xml[i][:-4] + '\n'  # 取不带格式的文件名
    if i in trainval:                # 分别写入不同的文件下
        ftrainval.write(name)
        if i in train:
            ftrain.write(name)
        else:
            fval.write(name)
    else:
        ftest.write(name)

ftrainval.close()                    # 关闭文件
ftrain.close()
fval.close()
ftest.close()

执行上述代码完成，会生成如下的4个文件；

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第13张图片

VOC2007数据集制作完成，但是yolov3并不直接用这个数据集；需要运行voc_annotation.py 生成yolov3所需的train.txt,val.txt,test.txt;根据自己的数据，相应的调整代码；

"""
把xml文件转换为txt
1.得到train.txt 、val.txt 、test.txt
    1.1 打开 VOCdevkit/VOC2012/ImageSets/Main/train.txt  读取为列表  ["2008_000008","2008_000019", ...]
    1.2 将path/to/VOCdevkit/VOC2012/JPEGImages/2008_000008.jpg 写入 2012_train.txt 2012_val.txt
    在这三个文件夹中分别得到对应数据集的绝对路径
2.得到标注文件
    2.1 打开图片对应的原始标注文件 VOCdevkit/VOC2012/Annotations/2008_000008.xml
    2.2 转换为yolo 的数据格式
    2.3 写入VOCdevkit/VOC2012/labels/2008_000008.xml中
"""

import xml.etree.ElementTree as ET
from os import getcwd

sets=[('2007', 'train'), ('2007', 'val'), ('2007', 'test')]
classes = ["box"]         # 自己要训练的类名字；

def convert_annotation(year, image_id, list_file):
    in_file = open('VOCdevkit/VOC%s/Annotations/%s.xml'%(year, image_id))
    tree=ET.parse(in_file)
    root = tree.getroot()

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult)==1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (int(xmlbox.find('xmin').text), int(xmlbox.find('ymin').text), int(xmlbox.find('xmax').text), int(xmlbox.find('ymax').text))
        list_file.write(" " + ",".join([str(a) for a in b]) + ',' + str(cls_id))
wd = getcwd()

for year, image_set in sets:
    image_ids = open('VOCdevkit/VOC%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split()
    list_file = open('%s_%s.txt'%(year, image_set), 'w')
    for image_id in image_ids:
        list_file.write('%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg'%(wd, year, image_id))
        convert_annotation(year, image_id, list_file)
        list_file.write('\n')
    list_file.close()

运行之后，会在主目录下多生成三个.txt文件，如图所示：

2.2. 修改参数文件yolov3.cfg

注意： 如果我们从头开始训练自己网络的话，这个文件不需要修改；这个文件的目的就是用来转换官网下载的.weights文件用，详见readme!

1. Make sure you have run `python convert.py -w yolov3.cfg yolov3.weights model_data/yolo_weights.h5`  
2. The file model_data/yolo_weights.h5 is used to load pretrained weights.

直接打开yolo3.cfg，搜索yolo，总共会搜出三个含有yolo的地方；其中如下需要修改计算的：

#  记得3处都要修改的！！！！！！
1. filters：3 * (5+len(classes)) = 18;
2. classes: len(classes) = 1, 这个是你要训练的类的数量
3. random =1 : 原来是1，显存小改为0，关闭多尺度训练，有博客说打开的话会精确一些

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第14张图片

2.3. 修改model_data下的文件

修改model_data下的文件，放入你的类别，coco,voc这两个文件都需要修改。修改如下：

三. 模型训练train.py

yolov3代码原作者在train.py做了两件事情：
会加载预先对coco数据集已经训练完成的yolov3权重文件
冻结了开始到最后倒数第N层（源代码为N=-2）
但是如果你想训练的东西，coco数据集里的voc数据集里没有，所以建议从头开始训练，对train.py做了一下修改，直接复制替换原文件就可以了，细节大家自己看吧，直接运行，loss达到10几的时候效果就可以了

3.1. 代码解读train.py

train.py，这里可以直接替换原来的文件！

"""
"""
Retrain the YOLO model for your own dataset.
@devinzhang
在train.py中主要就是构建yolov3的训练模型，这里作者使用自定义loss的方式进行模型训练并没有，在loss时输入y_true, y_pred
YOLO v3采用（类似FPN）上采样（Upsample）和融合做法，融合了3个尺度（13*13、26*26和52*52）
多个尺度的融合特征图上分别独立做检测，最终对于小目标的检测效果提升明显

"""
import numpy as np
import tensorflow as tf
import keras.backend as K
from keras.layers import Input, Lambda
from keras.models import Model
from keras.optimizers import Adam

from keras.callbacks import TensorBoard, ModelCheckpoint, ReduceLROnPlateau, EarlyStopping
from yolo3.model import preprocess_true_boxes, yolo_body, tiny_yolo_body, yolo_loss
from yolo3.utils import get_random_data


def _main():

    ############################# 设置GPU资源 ############################################################################
    import os
    os.environ["CUDA_VISIBLE_DEVICES"] = "0"                            # 几块GPU训练 “0,1”
    from keras import backend as K
    # 当allow_growth设置为True时，分配器将不会指定所有的GPU内存，而是根据需求增长
    config = tf.ConfigProto()
    config.gpu_options.allow_growth = True                              # 动态申请显存
    # config.gpu_options.per_process_gpu_memory_fraction = 0.4          # 占用40%显存
    sess = tf.Session(config=config)
    K.set_session(sess)                                                 # 程序运行完毕，关闭Session
    ####################################################################################################################
    annotation_path = '2007_train.txt'                                  # 训练数据
    log_dir = 'logs/000/'                                               # 保存的日志文件夹
    classes_path = 'model_data/voc_classes.txt'                         # 类别信息
    anchors_path = 'model_data/yolo_anchors.txt'                        # anchors
    class_names = get_classes(classes_path)                             # 类别列表
    num_classes = len(class_names)                                      # 类别数
    anchors = get_anchors(anchors_path)                                 # anchors列表

    input_shape = (416,416)                                             # 32的倍数，输入图像
    pretrained_path = 'logs/000/ep200-loss20.860-val_loss24.638.h5'     # 加载保存好的模型路径
    ####################################################################################################################
    is_tiny_version = len(anchors)==6                                   # 默认设定，yolo-tiny
    if is_tiny_version:
        model = create_tiny_model(input_shape, anchors, num_classes, freeze_body=2, weights_path=pretrained_path)
    else:
        # 创建需要训练的模型; 可以设置预训练的路径看下面的函数
        # freeze_body：冻结模式，1或2。其中，1是冻结DarkNet53网络中的层，2是只保留最后3个1x1的卷积层，其余层全部冻结；
        model = create_model(input_shape, anchors, num_classes, freeze_body=2, weights_path=pretrained_path)
    ####################################################################################################################
    logging = TensorBoard(log_dir=log_dir)
    checkpoint = ModelCheckpoint(log_dir + "ep{epoch:03d}-loss{loss:.3f}-val_loss{val_loss:.3f}.h5",
                                 monitor='val_loss', save_weights_only=True,
                                 save_best_only=True, period=100)       # 只存储weights

    # reduce_lr：当评价指标不在提升时，减少学习率，每次减少10%，当验证损失值，持续3次未减少时，则终止训练。
    reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=3, verbose=1)
    # early_stopping：当验证集损失值，连续增加小于0时，持续10个epoch，则终止训练。
    early_stopping = EarlyStopping(monitor='val_loss', min_delta=0, patience=10, verbose=1)

    val_split = 0.1                                                     # 训练和验证的比例
    with open(annotation_path) as f:
        lines = f.readlines()
    np.random.seed(47)
    np.random.shuffle(lines)
    np.random.seed(None)
    num_val = int(len(lines)*val_split)     # 验证集数量
    num_train = len(lines) - num_val        # 训练集数量

    # Train with frozen layers first, to get a stable loss.
    # Adjust num epochs to your dataset. This step is enough to obtain a not bad model.
    """
       把目标当成一个输入，构成多输入模型，把loss写成一个层，作为最后的输出，搭建模型的时候，就只需要将模型的output定义为loss，
       而compile的时候，直接将loss设置为y_pred（因为模型的输出就是loss，所以y_pred就是loss），无视y_true，训练的时候，
       y_true随便扔一个符合形状的数组进去就行了。
    """
    ####################################################################################################################
    # 第1阶段，冻结部分网络，只训练底层权重：
    # 优化器使用常见的Adam；
    if True:
        model.compile(optimizer=Adam(lr=1e-3),
                      loss={'yolo_loss': lambda y_true, y_pred: y_pred})  # 使用定制的 yolo_loss Lambda层损失函数
        batch_size = 8             # batch尺寸
        print('Train on {} samples, val on {} samples, with batch size {}.'.format(num_train, num_val, batch_size))

        # 在训练中，模型调用fit_generator方法，按批次创建数据，输入模型，进行训练。其中，数据生成器wrapper是data_generator_wrapper，
        # 用于验证数据格式，最终调用data_generator
        model.fit_generator(data_generator_wrap(lines[:num_train], batch_size, input_shape, anchors, num_classes),
                            steps_per_epoch=max(1, num_train // batch_size),
                            validation_data=data_generator_wrap(lines[num_train:], batch_size, input_shape, anchors, num_classes),
                            validation_steps=max(1, num_val // batch_size),
                            epochs=0,
                            initial_epoch=0,
                            callbacks=[logging, checkpoint])
        # 存储最终的权重，再训练过程中，通过回调存储
        model.save_weights(log_dir + 'trained_weights_stage_1.h5')
    ####################################################################################################################
    # Unfreeze and continue training, to fine-tune.
    # Train longer if the result is not good.
    # 第2阶段，使用第1阶段已训练完成的网络权重，继续训练：
    # 损失函数，直接使用模型的输出y_pred，忽略真值y_true；
    # 将全部的权重都设置为可训练，而在第1阶段中，则是冻结部分权重；
    # 优化器，仍是Adam，只是学习率有所下降，从1e-3 减少至1e-4；
    # 损失函数，仍是只使用y_pred，忽略y_true。
    if True:  # 全部训练
        for i in range(len(model.layers)):
            model.layers[i].trainable = True
        learning_rate = 1e-4
        model.compile(optimizer=Adam(lr=learning_rate),
                      loss={'yolo_loss': lambda y_true, y_pred: y_pred})    # recompile to apply the change
        print('Unfreeze all of the layers,','lr: ', learning_rate)

        batch_size = 8                 # note that more GPU memory is required after unfreezing the body
        print('Train on {} samples, val on {} samples, with batch size {}.'.format(num_train, num_val, batch_size))
        model.fit_generator(data_generator_wrap(lines[:num_train], batch_size, input_shape, anchors, num_classes),
                            steps_per_epoch=max(1, num_train//batch_size),
                            validation_data=data_generator_wrap(lines[num_train:], batch_size, input_shape, anchors, num_classes),
                            validation_steps=max(1, num_val//batch_size),
                            epochs=500,
                            initial_epoch=0,
                            callbacks=[logging, checkpoint, reduce_lr, early_stopping])
        # 至此，在第2阶段训练完成之后，输出的网络权重，就是最终的模型权重。
        model.save_weights(log_dir + 'trained_weights_final.h5')
    ####################################################################################################################


def get_classes(classes_path):
    # 输入类别文件，读取文件中所有的类别，生成list
    with open(classes_path) as f:
        class_names = f.readlines()
    class_names = [c.strip() for c in class_names]
    return class_names


def get_anchors(anchors_path):
    # 获取所有的anchors的长和宽
    with open(anchors_path) as f:
        anchors = f.readline()
    anchors = [float(x) for x in anchors.split(',')]
    return np.array(anchors).reshape(-1, 2)


def create_model(input_shape, anchors, num_classes, load_pretrained=False, freeze_body=False, weights_path='model_data/yolo_weights.h5'):
    """
        input_shape：图片尺寸；
        anchors：9个anchor box；
        num_classes：类别数；
        freeze_body：冻结模式，1是冻结DarkNet53的层，2是冻结全部，只保留最后3层；
        weights_path：预训练模型的权重。
        下面这个可以用来加载预训练模型: 'model_data/yolo_weights.h5'
    """
    '''create the training model'''
    K.clear_session()                     # 清除session
    h, w = input_shape                    # 尺寸
    image_input = Input(shape=(w, h, 3))  # 图片输入格式
    num_anchors = len(anchors)            # anchor数量
    ####################################################################################################################
    # YOLO的三种尺度，每个尺度的anchor数，类别数+边框4个+置信度1
    # 真值y_true，真值即Ground Truth, 通过循环，创建3个Input层的列表，作为y_true。y_true的张量结构，如下：
    # y_true = [shape = (?, 13, 13, 3, 25),
    #           shape = (?, 26, 26, 3, 25),
    #           shape = (?, 52, 52, 3, 25)]
    y_true = [Input(shape=(h//{0:32, 1:16, 2:8}[l], w//{0:32, 1:16, 2:8}[l], num_anchors//3, num_classes+5)) for l in range(3)]
    # 其中，在真值y_true中，第1位是输入的样本数，第2~3位是特征图的尺寸，如13x13，第4位是每个图中的anchor数，
    # 第5位是：类别(n)+4个框值(xywh)+框的置信度(是否含有物体)。

    model_body = yolo_body(image_input, num_anchors//3, num_classes)                # model
    # 其中：model_body.output = [shape=(?, 13, 13, 75), shape=(?, 26, 26, 75), shape=(?, 52, 52, 75)]
    # 其中：model_body.input  = Tensor("input_1:0", shape=(?, 416, 416, 3), dtype=float32)
    print('Create YOLOv3 model with {} anchors and {} classes.'.format(num_anchors, num_classes))
    ####################################################################################################################
    if load_pretrained:                                                             # 加载预训练模型
        model_body.load_weights(weights_path, by_name=True)                         # 加载参数，跳过错误 最后一个参数删除了, skip_mismatch=True
        print('Load weights {}.'.format(weights_path))
        # 选择冻结模式：模式1是冻结185层, 模式2是保留最底部3层，其余全部冻结。整个模型共有252层；将所冻结的层，设置为不可训练，trainable=False；
        # 其中，185层是DarkNet53网络的层数，而最底部3层是3个1x1的卷积层，用于预测最终结果。185层是DarkNet53网络的最后一个残差单元，
        # 其输入和输出如下：input: [(None, 13, 13, 1024), (None, 13, 13, 1024)]; output: (None, 13, 13, 1024)

        # 最底部3个1x1的卷积层，将3个特征矩阵转换为3个预测矩阵，其格式如下：
        # 1: (None, 13, 13, 1024) -> (None, 13, 13, 18)
        # 2: (None, 26, 26,  512) -> (None, 26, 26, 18)
        # 3: (None, 52, 52,  256) -> (None, 52, 52, 18)
        if freeze_body:
            # Freeze darknet53 body or freeze all but 3 output layers.
            num = (185, len(model_body.layers) - 3)[freeze_body - 1]
            for i in range(num):
                model_body.layers[i].trainable = False                              # 将其他层的训练关闭
            print('Freeze the first {} layers of total {} layers.'.format(num, len(model_body.layers)))

    # 构建模型的损失层model_loss; Lambda是Keras的自定义层, 输入为model_body.output和y_true，输出output_shape是(1,)，即一个损失值；
    # 自定义Lambda层的名字name为yolo_loss；ignore_thresh用于在物体置信度损失中过滤IoU较小的框；
    model_loss = Lambda(yolo_loss, output_shape=(1,), name='yolo_loss',
                        arguments={'anchors': anchors, 'num_classes': num_classes,
                                   'ignore_thresh': 0.5})(model_body.output + y_true)
    # y_true = [shape = (?, 13, 13, 3, 25),
    #           shape = (?, 26, 26, 3, 25),
    #           shape = (?, 52, 52, 3, 25)]
    # 构建完整的算法模型，步骤如下:
    # 1. 模型的输入层：model_body的输入和真值y_true；
    # 2. 模型的输出层：自定义的model_loss层，其输出是一个损失值(None,1)；
    # 3. 保存模型的网络图plot_model和打印网络结构model.summary；
    model = Model(inputs=[model_body.input] + y_true, outputs=model_loss)
    # 其中：model_body.input是任意(?)个(416,416,3)的图片
    # model.summary()                         # 打印网络结构
    return model


def create_tiny_model(input_shape, anchors, num_classes, load_pretrained=True, freeze_body=2, weights_path='model_data/tiny_yolo_weights.h5'):

    '''create the training model, for Tiny YOLOv3'''
    K.clear_session() # get a new session
    image_input = Input(shape=(None, None, 3))
    h, w = input_shape
    num_anchors = len(anchors)

    y_true = [Input(shape=(h//{0:32, 1:16}[l], w//{0:32, 1:16}[l], num_anchors//2, num_classes+5)) for l in range(2)]

    model_body = tiny_yolo_body(image_input, num_anchors//2, num_classes)
    print('Create Tiny YOLOv3 model with {} anchors and {} classes.'.format(num_anchors, num_classes))

    if load_pretrained:
        model_body.load_weights(weights_path, by_name=True, skip_mismatch=True)
        print('Load weights {}.'.format(weights_path))
        if freeze_body in [1, 2]:
            # Freeze the darknet body or freeze all but 2 output layers.
            num = (20, len(model_body.layers)-2)[freeze_body-1]
            for i in range(num): model_body.layers[i].trainable = False
            print('Freeze the first {} layers of total {} layers.'.format(num, len(model_body.layers)))

    model_loss = Lambda(yolo_loss, output_shape=(1,), name='yolo_loss',
                        arguments={'anchors': anchors, 'num_classes': num_classes,
                                   'ignore_thresh': 0.7})(model_body.output + y_true)
    model = Model(inputs=[model_body.input] + y_true, outputs=model_loss)  # 模型，inputs和outputs

    return model

def data_generator(annotation_lines, batch_size, input_shape, anchors, num_classes):
    '''data generator for fit_generator
    annotation_lines: 所有的图片名称
    batch_size：每批图片的大小
    input_shape： 图片的输入尺寸
    anchors: 大小
    num_classes： 类别数
    '''
    n = len(annotation_lines)
    i = 0
    while True:
        image_data = []
        box_data = []
        for b in range(batch_size):
            if i==0:
                # 随机排列图片顺序
                np.random.shuffle(annotation_lines)
            # image_data: (16, 416, 416, 3)
            # box_data: (16, 20, 5) # 每个图片最多含有20个框
            image, box = get_random_data(annotation_lines[i], input_shape, random=True)
            #获取真实的数据根据输入的尺寸对原始数据进行缩放处理得到input_shape大小的数据图片，
            # 随机进行图片的翻转，标记数据数据也根据比例改变
            image_data.append(image)
            box_data.append(box)
            i = (i + 1) % n
        image_data = np.array(image_data)
        box_data = np.array(box_data)
        # y_true是3个预测特征的列表
        y_true = preprocess_true_boxes(box_data, input_shape, anchors, num_classes)  # 真值
        # y_true的第0和1位是中心点xy，范围是(0~13/26/52)，第2和3位是宽高wh，范围是0~1，
        # 第4位是置信度1或0，第5~n位是类别为1其余为0。
        # [(16, 13, 13, 3, 6), (16, 26, 26, 3, 6), (16, 52, 52, 3, 6)]
        yield [image_data] + y_true, np.zeros(batch_size)


def data_generator_wrap(annotation_lines, batch_size, input_shape, anchors, num_classes):
    """
    用于条件检查
    """
    n = len(annotation_lines)  # 标注图片的行数
    if n==0 or batch_size<=0:
        return None
    return data_generator(annotation_lines, batch_size, input_shape, anchors, num_classes)


if __name__ == '__main__':
    _main()

训练过程截图：

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第15张图片

3.2. 补充：冻结网络层

在微调中，需要确定冻结的层数和可训练的层数，主要取决于，数据集相似度和新数据集的大小。原则上，相似度越高，则固定的层数越多；新数据集越大，不考虑训练时间的成本，则可训练更多的层数。然后可能也要考虑数据集本身的类别间差异度，但上面说的规则基本上还是成立的。
例如，在图片分类的网络中，底层一般是颜色、轮廓、纹理等基础结构，显然大部分问题都由这些相同的基础结构组成，所以可以冻结这些层。层数越高，所具有泛化性越高，例如这些层会包含对鞋子、裙子和眼睛等，具体语义信息，比较敏感的神经元。所以，对于新的数据集，就需要训练这些较高的层。同时，比如一个高层神经元对车的轮胎较为敏感，不等于输入其它图像，就无法激活，因而，普通问题甚至可以只训练最后全连接层。
在Keras中，通过设置每层的trainable参数，即可控制是否冻结该层，如：

model_body.layers[i].trainable = False

3.3. 补充：目标检测之IoU计算方法

首先下面的内容摘自作者黑暗星球目标检测之 IoU，表示感谢！
IoU 的全称为交并比（Intersection over Union），通过这个名称我们大概可以猜到 IoU 的计算方法。IoU 计算的是 “预测的边框” 和 “真实的边框” 的交集和并集的比值。

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第16张图片

开始计算之前，我们首先进行分析下交集和并集到底应该怎么计算：我们首先需要计算交集，然后并集通过两个边框的面积的和减去交集部分即为并集，因此 IoU 的计算的难点在于交集的计算。
为了计算交集，你脑子里首先想到的方法应该是：考虑两个边框的相对位置，然后按照相对位置（左上，左下，右上，右下，包含，互不相交）分情况讨论，来计算交集。

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第17张图片

上图就是你的直觉，这样想没有错。但计算一个交集，就要分多种情况讨论，要是程序真的按照这逻辑编写就太搞笑了。因此对这个问题进行进一步地研究显得十分有必要。
让我们重新思考一下两个框交集的计算。两个框交集的计算的实质是两个集合交集的计算，因此我们可以将两个框的交集的计算简化为：

论文阅读笔记：Tensorflow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!_第18张图片

通过简化，我们可以清晰地看到，交集计算的关键是交集上下界点（图中蓝点）的计算。我们假设集合 $\mathrm A$ 为 $\left[ x_{1}, x_{2}\right]$ ，集合 $\mathrm B$ 为 $\left[ y_{1}, y_{2}\right]$ ，然后我们来求 $\mathrm A \mathrm B$ 交集的上下界限。
交集计算的逻辑如下：
1. 交集下界 $\mathrm z_{1}: \max \left(x_{1}, y_{1}\right)$
2. 交集上界 $\mathrm z_{2}: \min \left(x_{2}, y_{2}\right)$
3. 如果 $\mathrm z_{2}-\mathrm z_{1}$ 小于 $0$ ，则说明集合 $\mathrm A$ 和集合 $\mathrm B$ 没有交集。
下面使用Python来实现两个一维集合的 IoU 的计算：

def iou(set_a, set_b):
    ''' 一维 iou 的计算  '''
    x1, x2 = set_a 		# 元素为：(left, right)
    y1, y2 = set_b 		# 元素为：(left, right)
    
    low =  max(x1, y1)
    high = min(x2, y2)
    # intersection 交集计算
    if high - low < 0:
        inter = 0
    else:
        inter = high - low
    # union 并集计算
    union = (x2 - x1) + (y2 - y1) - inter
    # iou  inter / union
    iou = inter / union
    return iou

上面，我们计算了两个一维集合的 IOU，将上面的程序进行扩展，即可得到两个框IOU计算的程序。

def iou(box1, box2):
    '''
    两个框（二维）的 iou 计算; 注意：边框以左上为原点
    box:[top, left, bottom, right] 左上角坐标，和右下角坐标！
    '''
    # box1: [box1[0], box1[1], box1[2], box1[3]]
    # box2: [box2[0], box2[1], box2[2], box2[3]]
    
    # 第一步：水平方向上面：box1水平方向区间：：(box1[0], box1[2]) box2水平区间：(box2[0], box2[2])
    max1_left = max(box1[0], box2[0])
    min1_right = min(box1[2], box2[2])
    in_h = min1_right - max1_left
   
    # 第二步：垂直方向上面：box1垂直方向区间：：(box1[1], box1[3]) box2垂直方向区间：(box2[1], box2[3])
    max2_left = max(box1[1], box2[1])
    min2_right = min(box1[3], box2[3])
    in_w = min2_right - max2_left
    
    if in_h < 0 or in_w < 0：
    	inter = 0 
	else：
		inter = in_h * in_w
    union = (box1[2] - box1[0]) * (box1[3] - box1[1]) + (box2[2] - box2[0]) * (box2[3] - box2[1]) - inter
    # 计算IOU的值！
    iou = inter / union
    return iou

3.4. 补充：冻结网络层

在微调中，需要确定冻结的层数和可训练的层数，主要取决于，数据集相似度和新数据集的大小。原则上，相似度越高，则固定的层数越多；新数据集越大，不考虑训练时间的成本，则可训练更多的层数。然后可能也要考虑数据集本身的类别间差异度，但上面说的规则基本上还是成立的。
例如，在图片分类的网络中，底层一般是颜色、轮廓、纹理等基础结构，显然大部分问题都由这些相同的基础结构组成，所以可以冻结这些层。 层数越高，所具有泛化性越高，例如这些层会包含对鞋子、裙子和眼睛等，具体语义信息，比较敏感的神经元。所以，对于新的数据集，就需要训练这些较高的层。同时，比如一个高层神经元对车的轮胎较为敏感，不等于输入其它图像，就无法激活，因而，普通问题甚至可以只训练最后全连接层。
在Keras中，通过设置每层的trainable参数，即可控制是否冻结该层，如：model_body.layers[i].trainable = False

3.5. 补充：1x1卷积操作与全连接

$1 \times 1$ 的卷积层和全连接层都可以作为最后一层的预测输出，两者之间略有不同。

第1点： $1 \times 1$ 的卷积层，比全连接层，更为灵活；

$1 \times 1$ 的卷积层，可以不考虑输入的通道数，输出固定通道数的特征矩阵；
全连接层（Dense），输入和输出都是固定的，在设计网络时，固定就不能修改；

第2点：例如：输入 $(13, 13, 1024)$ ，输出为 $(13, 13, 18)$ ，则两种操作：

$1 \times 1$ 的卷积层，参数较少，只需与输出通道匹配的参数，如 $13 \times 13 \times 1 \times 1 \times 18$ 个参数；
全连接层，参数较多，需要与输入和输出都匹配的参数，如 $13 \times 13 \times 1028 \times 18$ 个参数；

最后： $1 \times 1$ 卷积操作的优点！

这个就比较好理解了， $1 \times 1$ 的卷积核虽小，但也是卷积核，加 $1$ 层卷积，网络深度自然会增加。我们知道，卷积后生成图片的尺寸受卷积核的大小和跨度影响，但如果卷积核是 $1 \times 1$ ，跨度也是 $1$ ，那么生成后的图像大小就并没有变化。但通常一个卷积过程包括一个激活函数，比如 Sigmoid 和 Relu。所以，在输入不发生尺寸的变化下，却引入了更多的非线性，这将增强神经网络的表达能力。

四. 对图片进行检测

4.1. 修改yolo.py代码

yolo.py中需要修改的地方

        "model_path": 'logs/000/trained_weights_final.h5',  ############## 训练的模型保存文件；
        "anchors_path": 'model_data/yolo_anchors.txt',      ############## anchors
        "classes_path": 'model_data/voc_classes.txt',       ############## 类别

4.2. 代码执行过程+结果

执行检测如下：

(tf) zhangkf@john:~/johnCodes/keras-yolo3$ python yolo_video.py --image
Using TensorFlow backend.
Image detection mode
name: TITAN X (Pascal) major: 6 minor: 1 memoryClockRate(GHz): 1.531
pciBusID: 0000:03:00.0
totalMemory: 11.90GiB freeMemory: 11.67GiB
name: TITAN X (Pascal), pci bus id: 0000:03:00.0, compute capability: 6.1)
logs/000/trained_weights_final.h5 model, anchors, and classes loaded.
Input image filename:/home/zhangkf/johnCodes/keras-yolo3/VOCdevkit/VOC2007/JPEGImages/pos-219.jpg
(416, 416, 3)
Found 2 boxes for img
box 0.81 (454, 366) (468, 392)
box 0.91 (540, 440) (553, 465)
0.08477453794330359
Input image filename:/home/zhangkf/johnCodes/keras-yolo3/VOCdevkit/VOC2007/JPEGImages/pos-212.jpg
(416, 416, 3)
Found 3 boxes for img
box 0.70 (227, 225) (250, 278)
box 0.96 (494, 377) (513, 409)
box 0.98 (416, 431) (435, 469)
0.09012221498414874

检测结果分别如下：

五. 重要代码注释model.py

网络结构实现代码在model.py文件，本人加上了一些自己理解的注释，个人认为对网络结构理解特别重要！

""" YOLO_v3 Model Defined in Keras. """

from functools import wraps

import numpy as np
import tensorflow as tf
from keras import backend as K
from keras.layers import Conv2D, Add, ZeroPadding2D, UpSampling2D, Concatenate, MaxPooling2D
from keras.layers.advanced_activations import LeakyReLU
from keras.layers.normalization import BatchNormalization
from keras.models import Model
from keras.regularizers import l2

from yolo3.utils import compose

"""
Python中@wraps它是一个装饰器，它修饰函数Conv2D，这样当你调用Conv2D函数的时候，其实会调用DarknetConv2D函数，
这样你可以做一些额外的处理，然后再调用真正的Conv2D;
其中：一个是设置核函数的正则项，采用l2正则，一个是padding，之前说了，这个是用来填补数据的边缘区域。再设置好之后，
这些参数放入darknet_conv_kwargs传给Conv2D
"""
@wraps(Conv2D)
def DarknetConv2D(*args, **kwargs):
    """Wrapper to set Darknet parameters for Convolution2D.
       普通的卷积网络，带正则化，当步长为2时进行下采样
    """
    # 将核权重矩阵的正则化，使用L2正则化，参数是5e-4，即操作w参数；
    darknet_conv_kwargs = {'kernel_regularizer': l2(5e-4)}
    # Padding，一般使用same模式，只有当步长为(2,2)时，使用valid模式。避免在降采样中，引入无用的边界信息；
    darknet_conv_kwargs['padding'] = 'valid' if kwargs.get('strides')==(2,2) else 'same'
    darknet_conv_kwargs.update(kwargs)
    return Conv2D(*args, **darknet_conv_kwargs)

def DarknetConv2D_BN_Leaky(*args, **kwargs):
    """Darknet Convolution2D followed by BatchNormalization and LeakyReLU."""
    # 没有偏置，带正则项
    no_bias_kwargs = {'use_bias': False}
    no_bias_kwargs.update(kwargs)
    return compose(DarknetConv2D(*args, **no_bias_kwargs), BatchNormalization(), LeakyReLU(alpha=0.1))

def resblock_body(x, num_filters, num_blocks):
    '''A series of resblocks starting with a downsampling Convolution2D'''
    # 使用残差块， 1 + 2 * num_filters 为总的卷积层数
    # Darknet uses left and top padding instead of 'same' mode

    # ZeroPadding2D：填充x的边界为0，由(?, 416, 416, 32)转换为(?, 417, 417, 32)。因为下一步卷积操作的步长为2，所以图的边长需要是奇数；
    x = ZeroPadding2D(((1,0),(1,0)))(x)

    # DarknetConv2D_BN_Leaky：DarkNet的2维卷积操作，核是(3, 3)，步长是(2, 2)，注意，这会导致特征尺寸变小，
    # 由(?, 417, 417, 32)转换为(?, 208, 208, 64)。由于num_filters是64，所以产生64个通道。
    x = DarknetConv2D_BN_Leaky(num_filters, (3,3), strides=(2,2))(x)
    for i in range(num_blocks):
        # compose：输出预测图y，功能是组合函数，先执行1x1的卷积操作，再执行3x3的卷积操作，
        # filter先降低2倍后恢复，最后与输入相同，都是64；
        y = compose(DarknetConv2D_BN_Leaky(num_filters//2, (1,1)),
                    DarknetConv2D_BN_Leaky(num_filters, (3,3)))(x)
        # x = Add()([x, y])：残差操作，将x的值与y的值相加。残差操作可以避免，在网络较深时所产生的梯度弥散问题。
        x = Add()([x,y])
    return x

def darknet_body(x):
    '''Darknent body having 52 Convolution2D layers
       在darknet_body中，Darknet网络含有5组重复的resblock_body单元，即：
    '''
    # darknet的主体网络52层卷积网络

    # darknet_body的输出格式是(?, 13, 13, 1024)。
    x = DarknetConv2D_BN_Leaky(32, (3,3))(x)
    x = resblock_body(x, 64, 1)
    x = resblock_body(x, 128, 2)
    x = resblock_body(x, 256, 8)
    x = resblock_body(x, 512, 8)

    # Tensor("add_23/add:0", shape=(?, 13, 13, 1024), dtype=float32)
    # Darknet模型的输入是(?, 416, 416, 3)，输出是(?, 13, 13, 1024)。
    x = resblock_body(x, 1024, 4)
    return x                        # 输出是(?, 13, 13, 1024)。

def make_last_layers(x, num_filters, out_filters):
    '''6 Conv2D_BN_Leaky layers followed by a Conv2D_linear layer
       在YOLO v3网络中，输出3个不同尺度的检测图，用于检测不同大小的物体。调用3次make_last_layers，产生3个检测图，即y1、y2和y3。
    '''
    # 最后检测头部，无降采采样操作
    # 第1步，x执行多组1x1的卷积操作和3x3的卷积操作，filter先扩大再恢复，
    # 最后与输入的filter保持不变，仍为512，则x由(?, 13, 13, 1024)转变为(?, 13, 13, num_filters)；num_filters=512
    x = compose(DarknetConv2D_BN_Leaky(num_filters, (1,1)),
                DarknetConv2D_BN_Leaky(num_filters*2, (3,3)),
                DarknetConv2D_BN_Leaky(num_filters, (1,1)),
                DarknetConv2D_BN_Leaky(num_filters*2, (3,3)),
                DarknetConv2D_BN_Leaky(num_filters, (1,1)))(x)

    # x先执行3x3的卷积操作，再执行不含BN和Leaky的1x1的卷积操作，作用类似于全连接操作，生成预测矩阵y;
    y = compose(DarknetConv2D_BN_Leaky(num_filters*2, (3,3)),
                DarknetConv2D(out_filters, (1,1)))(x)
    return x, y


def yolo_body(inputs, num_anchors, num_classes):
    """Create YOLO_V3 model CNN body in Keras."""
    # yolov3的三个检测输出部分
    # Darknet网络的输入是图片数据集inputs，即(?, 416, 416, 3),


    # 第1个部分，输出维度是13x13。darknet.output：DarkNet网络的输出，即(?, 13, 13, 1024)；
    darknet = Model(inputs, darknet_body(inputs))
    # 第1个make_last_layers方法，输出的x是(?, 13, 13, 512)，输出的y1是(?, 13, 13, 75)。
    # 由于模型只有20个检测类别，因而y的第4个维度是75，即3*(20+5)=75。
    x, y1 = make_last_layers(darknet.output, 512, num_anchors*(num_classes+5)) # x是(?, 13, 13, 512); y1是(?, 13, 13, 75)


    # 第2个部分，输出维度是26x26;上采样! 通过DarknetConv2D_BN_Leaky卷积，将x由512的通道数，转换为256的通道数；
    # 通过2倍上采样UpSampling2D，将x由13x13的结构，转换为26x26的结构；
    x = compose(DarknetConv2D_BN_Leaky(256, (1,1)), UpSampling2D(2))(x)   # x: shape=(?, 26, 26, 256)
    # 将x与DarkNet的第152层拼接Concatenate;            darknet.layers[152].output:      (?, 26, 26, 512)
    """
        # 在拼接之后，输出的x的格式是(?, 26, 26, 768)。
        这样做的目的是：将Darknet最底层的高级抽象信息darknet.output，经过若干次转换之后，除了输出给第1个检测部分，
        还被用于第2个检测部分，经过上采样，与Darknet骨干中，倒数第2次降维的数据拼接，共同作为第2个检测部分的输入。
        底层抽象特征含有全局信息，中层抽象特征含有局部信息，这样拼接，两者兼顾，用于检测较小的物体。
    """
    x = Concatenate()([x,darknet.layers[152].output])    # x: shape=(?, 26, 26, 768)。
    # 最终，第2个make_last_layers方法，输出的x是(?, 26, 26, 256)，输出的y2是(?, 26, 26, 75)。
    x, y2 = make_last_layers(x, 256, num_anchors*(num_classes+5))


    # 第3个部分，输出维度是52x52，与第2个部分类似上采样
    x = compose(DarknetConv2D_BN_Leaky(128, (1,1)), UpSampling2D(2))(x)
    x = Concatenate()([x,darknet.layers[92].output])
    x, y3 = make_last_layers(x, 128, num_anchors*(num_classes+5))

    # 13x13, 26x26, 52x52
    # [y1, y2, y3]的结构如下：
    # Tensor("conv2d_59/BiasAdd:0", shape=(?, 13, 13, 75), dtype=float32)
    # Tensor("conv2d_67/BiasAdd:0", shape=(?, 26, 26, 75), dtype=float32)
    # Tensor("conv2d_75/BiasAdd:0", shape=(?, 52, 52, 75), dtype=float32)
    return Model(inputs, [y1,y2,y3])

def tiny_yolo_body(inputs, num_anchors, num_classes):
    '''Create Tiny YOLO_v3 model CNN body in keras.'''
    x1 = compose(
            DarknetConv2D_BN_Leaky(16, (3,3)),
            MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same'),
            DarknetConv2D_BN_Leaky(32, (3,3)),
            MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same'),
            DarknetConv2D_BN_Leaky(64, (3,3)),
            MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same'),
            DarknetConv2D_BN_Leaky(128, (3,3)),
            MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same'),
            DarknetConv2D_BN_Leaky(256, (3,3)))(inputs)
    x2 = compose(
            MaxPooling2D(pool_size=(2,2), strides=(2,2), padding='same'),
            DarknetConv2D_BN_Leaky(512, (3,3)),
            MaxPooling2D(pool_size=(2,2), strides=(1,1), padding='same'),
            DarknetConv2D_BN_Leaky(1024, (3,3)),
            DarknetConv2D_BN_Leaky(256, (1,1)))(x1)
    y1 = compose(
            DarknetConv2D_BN_Leaky(512, (3,3)),
            DarknetConv2D(num_anchors*(num_classes+5), (1,1)))(x2)

    x2 = compose(
            DarknetConv2D_BN_Leaky(128, (1,1)),
            UpSampling2D(2))(x2)
    y2 = compose(
            Concatenate(),
            DarknetConv2D_BN_Leaky(256, (3,3)),
            DarknetConv2D(num_anchors*(num_classes+5), (1,1)))([x2,x1])

    return Model(inputs, [y1,y2])


def yolo_head(feats, anchors, num_classes, input_shape, calc_loss=False):
    """Convert final layer features to bounding box parameters."""

    # feats的后处理函数，feats就是yolo_outputs，把输出转换到inputs的坐标系
    num_anchors = len(anchors)
    # Reshape to batch, height, width, num_anchors, box_params.
    anchors_tensor = K.reshape(K.constant(anchors), [1, 1, 1, num_anchors, 2])

    grid_shape = K.shape(feats)[1:3] # height, width
    grid_y = K.tile(K.reshape(K.arange(0, stop=grid_shape[0]), [-1, 1, 1, 1]),
        [1, grid_shape[1], 1, 1])
    grid_x = K.tile(K.reshape(K.arange(0, stop=grid_shape[1]), [1, -1, 1, 1]),
        [grid_shape[0], 1, 1, 1])
    grid = K.concatenate([grid_x, grid_y])
    grid = K.cast(grid, K.dtype(feats))

    feats = K.reshape(
        feats, [-1, grid_shape[0], grid_shape[1], num_anchors, num_classes + 5])

    # Adjust preditions to each spatial grid point and anchor size.
    # 把结果转化到每个格子中，坐标为图片的坐标系的0-1，类别预测也为0-1
    box_xy = (K.sigmoid(feats[..., :2]) + grid) / K.cast(grid_shape[::-1], K.dtype(feats))
    box_wh = K.exp(feats[..., 2:4]) * anchors_tensor / K.cast(input_shape[::-1], K.dtype(feats))
    box_confidence = K.sigmoid(feats[..., 4:5])
    box_class_probs = K.sigmoid(feats[..., 5:])

    if calc_loss == True:
        return grid, feats, box_xy, box_wh
    return box_xy, box_wh, box_confidence, box_class_probs


def yolo_correct_boxes(box_xy, box_wh, input_shape, image_shape):
    '''Get corrected boxes'''

    # 把预测的图片转换到原始图片的大小
    box_yx = box_xy[..., ::-1]
    box_hw = box_wh[..., ::-1]
    input_shape = K.cast(input_shape, K.dtype(box_yx))
    image_shape = K.cast(image_shape, K.dtype(box_yx))
    new_shape = K.round(image_shape * K.min(input_shape/image_shape))
    offset = (input_shape-new_shape)/2./input_shape
    scale = input_shape/new_shape
    box_yx = (box_yx - offset) * scale
    box_hw *= scale

    box_mins = box_yx - (box_hw / 2.)
    box_maxes = box_yx + (box_hw / 2.)
    boxes =  K.concatenate([
        box_mins[..., 0:1],  # y_min
        box_mins[..., 1:2],  # x_min
        box_maxes[..., 0:1],  # y_max
        box_maxes[..., 1:2]  # x_max
    ])

    # Scale boxes back to original image shape.
    boxes *= K.concatenate([image_shape, image_shape])
    return boxes


def yolo_boxes_and_scores(feats, anchors, num_classes, input_shape, image_shape):
    '''Process Conv layer output'''

    # 对yolo的输出进行后处理，输出合适原始图片的box和scores
    box_xy, box_wh, box_confidence, box_class_probs = yolo_head(feats,
        anchors, num_classes, input_shape)
    boxes = yolo_correct_boxes(box_xy, box_wh, input_shape, image_shape)
    boxes = K.reshape(boxes, [-1, 4])
    box_scores = box_confidence * box_class_probs
    box_scores = K.reshape(box_scores, [-1, num_classes])
    return boxes, box_scores


def yolo_eval(yolo_outputs, anchors, num_classes, image_shape, max_boxes=20, score_threshold=.6, iou_threshold=.5):
    """Evaluate YOLO model on given input and return filtered boxes."""

    # 使用yolo模型进行图片的检测，进行坐标转化，和nms处理，和
    num_layers = len(yolo_outputs)
    anchor_mask = [[6,7,8], [3,4,5], [0,1,2]] if num_layers==3 else [[3,4,5], [1,2,3]] # default setting
    input_shape = K.shape(yolo_outputs[0])[1:3] * 32
    boxes = []
    box_scores = []
    for l in range(num_layers):
        _boxes, _box_scores = yolo_boxes_and_scores(yolo_outputs[l],
            anchors[anchor_mask[l]], num_classes, input_shape, image_shape)
        boxes.append(_boxes)
        box_scores.append(_box_scores)
    boxes = K.concatenate(boxes, axis=0)
    box_scores = K.concatenate(box_scores, axis=0)

    mask = box_scores >= score_threshold
    max_boxes_tensor = K.constant(max_boxes, dtype='int32')
    boxes_ = []
    scores_ = []
    classes_ = []
    for c in range(num_classes):
        # TODO: use keras backend instead of tf.
        # 进行nms处理
        class_boxes = tf.boolean_mask(boxes, mask[:, c])
        class_box_scores = tf.boolean_mask(box_scores[:, c], mask[:, c])
        nms_index = tf.image.non_max_suppression(
            class_boxes, class_box_scores, max_boxes_tensor, iou_threshold=iou_threshold)
        class_boxes = K.gather(class_boxes, nms_index)
        class_box_scores = K.gather(class_box_scores, nms_index)
        classes = K.ones_like(class_box_scores, 'int32') * c
        boxes_.append(class_boxes)
        scores_.append(class_box_scores)
        classes_.append(classes)
    boxes_ = K.concatenate(boxes_, axis=0)
    scores_ = K.concatenate(scores_, axis=0)
    classes_ = K.concatenate(classes_, axis=0)

    return boxes_, scores_, classes_


def preprocess_true_boxes(true_boxes, input_shape, anchors, num_classes):
    '''Preprocess true boxes to training input format
    y_true的第0和1位是中心点xy，范围是(0~13/26/52)，第2和3位是宽高wh，范围是0~1，
    第4位是置信度1或0，第5~n位是类别为1其余为0。


    Parameters
    ----------
    true_boxes: array, shape=(m, T, 5)
        Absolute x_min, y_min, x_max, y_max, class_id relative to input_shape.
    input_shape: array-like, hw, multiples of 32
    anchors: array, shape=(N, 2), wh
    num_classes: integer

    Returns
    -------
    y_true: list of array, shape like yolo_outputs, xywh are reletive value

    '''
    assert (true_boxes[..., 4]<num_classes).all(), 'class id must be less than num_classes'
    num_layers = len(anchors)//3 # default setting
    anchor_mask = [[6,7,8], [3,4,5], [0,1,2]] if num_layers==3 else [[3,4,5], [1,2,3]]

    true_boxes = np.array(true_boxes, dtype='float32')
    input_shape = np.array(input_shape, dtype='int32')
    boxes_xy = (true_boxes[..., 0:2] + true_boxes[..., 2:4]) // 2
    boxes_wh = true_boxes[..., 2:4] - true_boxes[..., 0:2]
    true_boxes[..., 0:2] = boxes_xy/input_shape[::-1]
    true_boxes[..., 2:4] = boxes_wh/input_shape[::-1]

    m = true_boxes.shape[0]
    grid_shapes = [input_shape//{0:32, 1:16, 2:8}[l] for l in range(num_layers)]
    y_true = [np.zeros((m,grid_shapes[l][0],grid_shapes[l][1],len(anchor_mask[l]),5+num_classes),
        dtype='float32') for l in range(num_layers)]

    # Expand dim to apply broadcasting.
    anchors = np.expand_dims(anchors, 0)
    anchor_maxes = anchors / 2.
    anchor_mins = -anchor_maxes
    valid_mask = boxes_wh[..., 0]>0

    for b in range(m):
        # Discard zero rows.
        wh = boxes_wh[b, valid_mask[b]]
        if len(wh)==0: continue
        # Expand dim to apply broadcasting.
        wh = np.expand_dims(wh, -2)
        box_maxes = wh / 2.
        box_mins = -box_maxes

        intersect_mins = np.maximum(box_mins, anchor_mins)
        intersect_maxes = np.minimum(box_maxes, anchor_maxes)
        intersect_wh = np.maximum(intersect_maxes - intersect_mins, 0.)
        intersect_area = intersect_wh[..., 0] * intersect_wh[..., 1]
        box_area = wh[..., 0] * wh[..., 1]
        anchor_area = anchors[..., 0] * anchors[..., 1]
        iou = intersect_area / (box_area + anchor_area - intersect_area)

        # Find best anchor for each true box
        best_anchor = np.argmax(iou, axis=-1)

        for t, n in enumerate(best_anchor):
            for l in range(num_layers):
                if n in anchor_mask[l]:
                    i = np.floor(true_boxes[b,t,0]*grid_shapes[l][1]).astype('int32')
                    j = np.floor(true_boxes[b,t,1]*grid_shapes[l][0]).astype('int32')
                    k = anchor_mask[l].index(n)
                    c = true_boxes[b,t, 4].astype('int32')
                    y_true[l][b, j, i, k, 0:4] = true_boxes[b,t, 0:4]
                    y_true[l][b, j, i, k, 4] = 1
                    y_true[l][b, j, i, k, 5+c] = 1

    return y_true


def box_iou(b1, b2):
    '''
    Parameters
    ----------
    b1: tensor, shape=(i1,...,iN, 4), xywh
    b2: tensor, shape=(j, 4), xywh
    Return iou tensor
    -------
    iou: tensor, shape=(i1,...,iN, j)
    '''
    # Expand dim to apply broadcasting.
    b1 = K.expand_dims(b1, -2)
    b1_xy = b1[..., :2]
    b1_wh = b1[..., 2:4]
    b1_wh_half = b1_wh/2.
    b1_mins = b1_xy - b1_wh_half
    b1_maxes = b1_xy + b1_wh_half

    # Expand dim to apply broadcasting.
    b2 = K.expand_dims(b2, 0)
    b2_xy = b2[..., :2]
    b2_wh = b2[..., 2:4]
    b2_wh_half = b2_wh/2.
    b2_mins = b2_xy - b2_wh_half
    b2_maxes = b2_xy + b2_wh_half

    intersect_mins = K.maximum(b1_mins, b2_mins)
    intersect_maxes = K.minimum(b1_maxes, b2_maxes)
    intersect_wh = K.maximum(intersect_maxes - intersect_mins, 0.)
    intersect_area = intersect_wh[..., 0] * intersect_wh[..., 1]
    b1_area = b1_wh[..., 0] * b1_wh[..., 1]
    b2_area = b2_wh[..., 0] * b2_wh[..., 1]
    iou = intersect_area / (b1_area + b2_area - intersect_area)

    return iou


def yolo_loss(args, anchors, num_classes, ignore_thresh=.5, print_loss=False):
    '''Return yolo_loss tensor
    Parameters
    ----------
    yolo_outputs: list of tensor, the output of yolo_body or tiny_yolo_body
    y_true: list of array, the output of preprocess_true_boxes
    anchors: array, shape=(N, 2), wh
    num_classes: integer
    ignore_thresh: float, the iou threshold whether to ignore object confidence loss
    Returns
    -------
    loss: tensor, shape=(1,)
    '''
    # 构建loss
    num_layers = len(anchors)//3                    # default setting  num_layers = 3

    # 分类args: 前3个是yolo_outputs预测值，后3个是y_true真值;
    yolo_outputs = args[:num_layers]                # yolo_outputs: [(?, 13, 13, 75), (?, 26, 26, 75), (?, 52, 52, 75)]
    y_true = args[num_layers:]                      # yolo_true   : [(?, 13, 13, 75), (?, 26, 26, 75), (?, 52, 52, 75)]

    # anchor_mask：anchor box的索引数组，3个1组倒序排序，678对应13x13，345对应26x26，123对应52x52；即[[6, 7, 8], [3, 4, 5], [0, 1, 2]]；
    anchor_mask = [[6,7,8], [3,4,5], [0,1,2]] if num_layers==3 else [[3,4,5], [1,2,3]]

    # a1 = yolo_outputs[0]                    # shape: (?, 13, 13, 75)
    # a2 = K.shape(yolo_outputs[0])           # shape: (4,)
    # a3 = K.shape(yolo_outputs[0])[1:3]      # shape: (2,)  backend.shape()返回张量或变量的符号shape内容应该是(13,13)的shape
    # 第1个预测矩阵yolo_outputs[0]的结构（shape）的第1~2位，即(?, 13, 13, 18)中的(13, 13)。再x32，
    # 就是YOLO网络的输入尺寸，即(416, 416)，因为在网络中，含有5个步长为(2, 2)的卷积操作，降维32=5^2倍；
    input_shape = K.cast(K.shape(yolo_outputs[0])[1:3] * 32, K.dtype(y_true[0]))

    # grid_shapes：与input_shape类似，K.shape()[1:3]，以列表的形式，选择3个尺寸的预测图维度，即[(13, 13), (26, 26), (52, 52)]；
    grid_shapes = [K.cast(K.shape(yolo_outputs[l])[1:3], K.dtype(y_true[0])) for l in range(num_layers)]
    loss = 0
    m = K.shape(yolo_outputs[0])[0]             # m: 第1个预测图的结构的第1位，即K.shape()[0]，输入模型的图片总量，即批次数batchsize;
    mf = K.cast(m, K.dtype(yolo_outputs[0]))    # mf: m的float类型，即K.cast(m, K.dtype())

    # 在计算损失值时，循环计算每1层的损失值，累加到一起，即
    for l in range(num_layers):
        # 获取物体置信度object_mask，最后1个维度的第4位，第0~3位是框，第4位是物体置信度；
        object_mask = y_true[l][..., 4:5]
        # 类别置信度true_class_probs，最后1个维度的第5位开始；这里我用的数据集是：VOC2007,因此这里是20;
        true_class_probs = y_true[l][..., 5:]

        # 网格grid：结构是(13, 13, 1, 2)，数值为0~12的全遍历二元组
        # 预测值raw_pred：经过reshape变换，将anchors分离，结构是(?, 13, 13, 3, 25)
        # pred_xy和pred_wh归一化的起始点xy和宽高wh，xy的结构是(?, 13, 13, 3, 2)，wh的结构是(?, 13, 13, 3, 2)；
        grid, raw_pred, pred_xy, pred_wh = yolo_head(yolo_outputs[l],
             anchors[anchor_mask[l]], num_classes, input_shape, calc_loss=True)
        # 结构是(13, 13, 3, 4)
        pred_box = K.concatenate([pred_xy, pred_wh])

        # Darknet raw box to calculate loss.
        raw_true_xy = y_true[l][..., :2]*grid_shapes[l][::-1] - grid
        raw_true_wh = K.log(y_true[l][..., 2:4] / anchors[anchor_mask[l]] * input_shape[::-1])
        raw_true_wh = K.switch(object_mask, raw_true_wh, K.zeros_like(raw_true_wh)) # avoid log(0)=-inf
        box_loss_scale = 2 - y_true[l][...,2:3]*y_true[l][...,3:4]

        # Find ignore mask, iterate over each of batch.
        ignore_mask = tf.TensorArray(K.dtype(y_true[0]), size=1, dynamic_size=True)
        object_mask_bool = K.cast(object_mask, 'bool')
        def loop_body(b, ignore_mask):
            true_box = tf.boolean_mask(y_true[l][b,...,0:4], object_mask_bool[b,...,0])
            iou = box_iou(pred_box[b], true_box)
            best_iou = K.max(iou, axis=-1)
            ignore_mask = ignore_mask.write(b, K.cast(best_iou<ignore_thresh, K.dtype(true_box)))
            return b+1, ignore_mask
        _, ignore_mask = K.control_flow_ops.while_loop(lambda b,*args: b<m, loop_body, [0, ignore_mask])
        ignore_mask = ignore_mask.stack()
        ignore_mask = K.expand_dims(ignore_mask, -1)

        # K.binary_crossentropy is helpful to avoid exp overflow.
        xy_loss = object_mask * box_loss_scale * K.binary_crossentropy(raw_true_xy, raw_pred[...,0:2], from_logits=True)
        wh_loss = object_mask * box_loss_scale * 0.5 * K.square(raw_true_wh-raw_pred[...,2:4])
        confidence_loss = object_mask * K.binary_crossentropy(object_mask, raw_pred[...,4:5], from_logits=True)+ \
            (1-object_mask) * K.binary_crossentropy(object_mask, raw_pred[...,4:5], from_logits=True) * ignore_mask

        ################################################ 分类loss值 #####################################################
        # tf.keras.backend.binary_crossentropy(
        #     target, # target：与output具有相同shape的张量。
        #     output, # output：一个张量
        #     from_logits=False) 输出张量和目标张量之间的二进制交叉熵。

        aaa = true_class_probs              # shape (?, 13, 13, 3, 20)   真实类标签20
        aaa_ele = aaa[:, 0, 0, 0, :]        # 20个类标签
        label_one_hot = tf.one_hot(tf.cast(aaa_ele, dtype=tf.int32), 20)

        bbb = raw_pred                      # shape (?, ?, ?, 3, 25)
        ccc = raw_pred[..., 5:]             # shape (?, ?, ?, 3, 20)     预测类标签20
        class_loss = object_mask * K.binary_crossentropy(true_class_probs, raw_pred[...,5:], from_logits=True)

        xy_loss = K.sum(xy_loss) / mf
        wh_loss = K.sum(wh_loss) / mf
        confidence_loss = K.sum(confidence_loss) / mf
        class_loss = K.sum(class_loss) / mf
        loss += xy_loss + wh_loss + confidence_loss + class_loss
        if print_loss:
            loss = tf.Print(loss, [loss, xy_loss, wh_loss, confidence_loss, class_loss, K.sum(ignore_mask)], message='loss: ')
    return loss

六. Keras中自定义损失函数的方法

Keras是很方便，然而这种方便不是没有代价的，最为人诟病之一的缺点就是灵活性较低，难以搭建一些复杂的模型。的确，Keras确实不是很适合搭建复杂的模型，但并非没有可能，而是搭建太复杂的模型所用的代码量，跟直接用tensorflow写也差不了多少。但不管怎么说，Keras其友好、方便的特性（比如那可爱的训练进度条），使得我们总有使用它的场景。这样，如何更灵活地定制Keras模型，就成为一个值得研究的课题了。这篇文章我们来关心自定义loss。
Keras作为一个深度学习库，非常适合新手。在做神经网络时，它自带了许多常用的目标函数，优化方法等等，基本能满足新手学习时的一些需求。具体包含 目标函数 和 优化方法。但它也支持用户自定义目标函数，下边介绍一种最简单的自定义目标函数的方法。
要实现自定义目标函数，自然想到先看下Keras中的目标函数是怎么定义的。查下源码发现在Keras/objectives.py中，Keras定义了一系列的目标函数。

def mean_squared_error(y_true, y_pred):       								# 均方差mse
    return K.mean(K.square(y_pred - y_true), axis=-1)                  

def mean_absolute_error(y_true, y_pred):                                    # mae
    return K.mean(K.abs(y_pred - y_true), axis=-1)

def mean_absolute_percentage_error(y_true, y_pred):                         # mape
    diff = K.abs((y_true - y_pred) / K.clip(K.abs(y_true), K.epsilon(), np.inf))
    return 100. * K.mean(diff, axis=-1)

def mean_squared_logarithmic_error(y_true, y_pred):                         
    first_log = K.log(K.clip(y_pred, K.epsilon(), np.inf) + 1.)
    second_log = K.log(K.clip(y_true, K.epsilon(), np.inf) + 1.)
    return K.mean(K.square(first_log - second_log), axis=-1)


def squared_hinge(y_true, y_pred):                                          # 平方的hinge loss
    return K.mean(K.square(K.maximum(1. - y_true * y_pred, 0.)), axis=-1)

def hinge(y_true, y_pred):                                                  # hinge loss
    return K.mean(K.maximum(1. - y_true * y_pred, 0.), axis=-1)

def categorical_crossentropy(y_true, y_pred):                              
    '''Expects a binary class matrix instead of a vector of scalar classes.
     # 亦称作多类的对数损失，注意使用该目标函数时，需要将标签转化为形如(nb_samples, nb_classes)的二值序列
     ########################################################################################
     # 注意: 当使用"categorical_crossentropy"作为目标函数时,标签应该为多类模式,即one-hot编码的向量,而不是单个数值.
     可以使用工具中的to_categorical函数完成该转换.示例如下:
     from keras.utils.np_utils import to_categorical
     categorical_labels = to_categorical(int_labels, num_classes=None)
    '''
    return K.categorical_crossentropy(y_pred, y_true)

def sparse_categorical_crossentropy(y_true, y_pred):
    '''expects an array of integer classes.
    Note: labels shape must have the same number of dimensions as output shape.
    If you get a shape error, add a length-1 dimension to labels.
    # 如上，但接受稀疏标签。注意，使用该函数时仍然需要你的标签与输出值的维度相同，你可能需要在标签数据上增加一个维度：
    np.expand_dims(y,-1)
    '''
    return K.sparse_categorical_crossentropy(y_pred, y_true)

def binary_crossentropy(y_true, y_pred):
	'''
	亦称作对数损失，logloss）
	'''
    return K.mean(K.binary_crossentropy(y_pred, y_true), axis=-1)

def kullback_leibler_divergence(y_true, y_pred):
    y_true = K.clip(y_true, K.epsilon(), 1)
    y_pred = K.clip(y_pred, K.epsilon(), 1)
    return K.sum(y_true * K.log(y_true / y_pred), axis=-1)

def poisson(y_true, y_pred):
    return K.mean(y_pred - y_true * K.log(y_pred + K.epsilon()), axis=-1)

def cosine_proximity(y_true, y_pred):
    y_true = K.l2_normalize(y_true, axis=-1)
    y_pred = K.l2_normalize(y_pred, axis=-1)
    return -K.mean(y_true * y_pred, axis=-1)

看到源码后，事情就简单多了，我们只要仿照这源码的定义形式，来定义自己的loss就可以了。

6.1. 例子1:自定义loss

例子1：我们定义一个loss为预测值与真实值的差，则可写为：

def my_koss(y_true,y_pred):
    return K.mean((y_pred-y_true),axis=-1)

然后，将这段代码放到你的模型中编译，例如

def my_loss(y_true,y_pred):
    return K.mean((y_pred-y_true),axis = -1)
model.compile(loss=my_loss, optimizer='SGD', metrics=['accuracy'])

有一点需要注意，Keras作为一个高级封装库，它的底层(后端)可以支持theano或者tensorflow，在使用上边代码时，首先要导入这一句，这样你自定义的loss函数就可以起作用了。

from keras import backend as K

6.2. 例子2:自定义loss

例子2：我们做分类问题时，经常用的就是softmax输出，然后用交叉熵作为loss。然而这种做法也有不少缺点，其中之一就是分类太自信，哪怕输入噪音，分类的结果也几乎是非1即0，这通常会导致过拟合的风险，还会使得我们在实际应用中没法很好地确定置信区间、设置阈值。因此很多时候我们也会想办法使得分类别太自信，而修改loss也是手段之一。
如果不修改loss，我们就是使用交叉熵去拟合一个one hot的分布。交叉熵的公式是
$p)=-\sum_{i} q_{i} \log p_{i}$
其中 $p_{i}$ 是预测的分布，而 $q_{i}$ 是真实的分布，比如输出为 $z_1,z_2,z_3]$ ，真实值(目标) 为 $[1, 0, 0]$ ，那么
$-\log \Big(e^{z_1}/Z\Big),\, Z=e^{z_1}+e^{z_2}+e^{z_3}$
只要 $z_1$ 已经是 $z_1,z_2,z_3]$ 的最大值，那么我们总可以 “变本加厉” —通过增大训练参数，使得 $z_1,z_2,z_3$ 增加足够大的比例（等价地，即增大向量 $z_1,z_2,z_3]$ 的模长），从而 ${z_1}/Z$ 足够接近 $1$ (等价地，loss足够接近0)。这就是通常softmax过于自信的来源：只要盲目增大模长，就可以降低loss，训练器肯定是很乐意了，这代价太低了。为了使得分类不至于太自信，一个方案就是不要单纯地去拟合one hot分布，分一点力气去拟合一下均匀分布，即改为新loss：

$-(1-\varepsilon)\log \Big(e^{z_1}/Z\Big)-\varepsilon\sum_{i=1}^n \frac{1}{3}\log \Big(e^{z_i}/Z\Big),\, Z=e^{z_1}+e^{z_2}+e^{z_3}$

这样，盲目地增大比例使得 ${z_1}/Z$ 接近于 $1$ ，就不再是最优解了，从而可以缓解softmax过于自信的情况，不少情况下，这种策略还可以增加测试准确率(防止过拟合)。
那么，在Keras中应该怎么写呢？其实挺简单的：

from keras.layers import Input,Embedding,LSTM,Dense
from keras.models import Model
from keras import backend as K

word_size = 128
nb_features = 10000
nb_classes = 10
encode_size = 64

input = Input(shape=(None,))
embedded = Embedding(nb_features,word_size)(input)
encoder = LSTM(encode_size)(embedded)
predict = Dense(nb_classes, activation='softmax')(encoder)

# 自定义loss函数模块
def mycrossentropy(y_true, y_pred, e=0.1):
    loss1 = K.categorical_crossentropy(y_true, y_pred)
    loss2 = K.categorical_crossentropy(K.ones_like(y_pred)/nb_classes, y_pred)
    return (1-e)*loss1 + e*loss2

model = Model(inputs=input, outputs=predict)
model.compile(optimizer='adam', loss=mycrossentropy)

也就是自定义一个输入为y_pred,y_true的loss函数，放进模型compile即可。这里的mycrossentropy，第一项就是普通的交叉熵，第二项中，先通过K.ones_like(y_pred)/nb_classes构造了一个均匀分布(均匀分布介绍! )，然后算y_pred与均匀分布的交叉熵。 就这么简单～

参考文章

Keras中自定义目标函数（损失函数）的简单方法
Keras中自定义复杂的loss函数-好的介绍！

你可能感兴趣的:(Machine,Learning,Deep,Learning)

【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
一口气告诉你Deepseek与manus有什么区别？小二爱编程· ai 人工智能
DeepSeek像是个特别聪明的“顾问”，你问他问题，他能给你写论文、改合同、算数学题，甚至能讲冷笑话。但他有个特点：动嘴不动手。比如你说“帮我做个PPT”，他会给你写个特别详细的提纲，但最后你得自己打开电脑动手做。Manus更像是个“动手达人”，你只要说“帮我做个PPT”，他能直接打开软件，自己找模板、排版、插图片，最后把做好的PPT文件甩给你，全程不用你动手。具体区别在哪？擅长的事不一样Dee
DeepSeek来袭！低代码+AI竟让程序员摸鱼接私单月入5W！工业甲酰苯胺低代码人工智能
目录一、引言：开启低代码+AI新时代二、DeepSeek与低代码、AI的关联（一）DeepSeek简介（二）低代码开发概述（三）AI赋能低代码三、低代码+AI开启私单赚钱大门（一）成功案例剖析（二）私单项目类型（三）赚钱模式解析四、实战：利用DeepSeek接私单（一）工具准备与环境搭建（二）需求分析与项目规划（三）低代码开发实战（四）AI技术融合应用（五）项目测试与交付五、挑战与应对策略（一）技
Linux学习1_Linux命令及英文全称 Wang_Zhenwei —Linux 转载 linux
LinuxCommandreferences(命令全称，方便记忆)aliasCreateyourownnameforacommandarchprintmachinearchitectureashashcommandinterpreter(shell)awk(gawk)patternscanningandprocessinglanguagebasenameRemovedirectoryandsuff
AI界劳斯莱斯o1 -Pro来了！百万token收费600刀，OpenAI在AI普惠反方向狂奔？算家计算话题文章人工智能算家云 OpenAI o1-pro API OpenAI发布最贵模型 DeepSeek
刚刚，OpenAI宣布推出其最新的高性能推理模型o1-pro。当大家还在为GPT-4.5的订阅费感到肉痛时，OpenAI用一记价格暴击刷新了认知——全新推理模型o1-pro的API定价，输入每百万token收费150美元，输出每百万token收费600美元，比前代模型贵了10倍，更是将DeepSeek-R1甩出270倍价差。与OpenAI其他模型相比，o1-pro的价格高出了不止一点：目前o1-p
办公提效高阶 DeepSeek 提示词，适用于多种 AI 工具东锋17 人工智能人工智能
1、高效会议管理请根据[会议主题]和[参会人角色]生成会议议程框架，包含会前准备清单（背景材料/数据需求）、会中讨论要点（需决策事项+时间分配）、会后跟进任务表（责任人/DDL），最后用思维导图形式输出。2、周报自动生成基于我本周完成的[任务清单]和[工作数据]，请先总结3项核心成果与2个待改进点，再结合OKR目标制定下周工作计划，要求用对比柱状图呈现进度数据，以PPT分页形式输出。3、周报自动生
u-net系列算法㡽闧㔯人工智能算法
语义分割M整体结构：M概述就是编码解码过程简单但是很实用，应用广起初是做医学方向，现在也是U-net主要网络结构：还引入了特征拼接操作M以前我们都是加法，现在全都要这么简单的结构就能把分割任务做好U-net++整体网络结构：特征融合，拼接更全面其实跟densenet思想一致把能拼能凑的特征全用上就是升级版了U-net++DeepSupervision：也是很常见的事，多输出损失由多个位置计算，再更
DeepSeek带来服务器与显卡需求激增的核心逻辑 DeepSeek+NAS 人工智能服务器运维网络安全计算机网络
随着DeepSeek等开源AI模型的普及，个人开发者和小型企业正加速构建私有化AI服务器，以处理敏感数据和定制化任务。这种趋势不仅重构了算力需求的结构，更推动服务器和显卡市场进入新一轮增长周期。以下从技术迭代、行业需求、市场格局三个维度展开论述。一、私有化部署：从数据安全到算力自主的核心驱动力数据隐私与合规性需求公共AI平台的数据泄露风险促使企业选择本地化部署。例如，医疗机构的患者数据、金融企业的
【DeepSeek】全方位使用指南————简版諰. 人工智能 ai AI写作
一、平台概述DeepSeek（深度求索）是专注实现AGI的中国的人工智能公司，提供多款AI产品：智能对话（Chat）文生图（Art）代码助手（Coder）API开发接口企业定制解决方案二、注册与登录2.1账号创建访问官网https://www.deepseek.com点击右上角「注册」支持三种方式：手机号+短信验证邮箱注册（需验证邮件）第三方登录（微信/Google账号）2.2订阅计划套餐类型免费
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
ACI EP Learning Whitepaper 1. ACI EP组件 m0_54931486 思科 ACI 网络思科 ACI Endpoint ACI fabric Nexus EP 学习
1.ACIEndpointACI网络架构的Endpoint表整合了传统MAC地址表和ARP表的功能。其核心机制是通过硬件层直接学习数据包的源MAC地址与IP地址映射关系，摒弃了传统ARP协议依赖广播请求获取下一跳MAC地址的模式。这种设计优化体现在两方面：1）减少控制面ARP流量处理带来的资源消耗；2）基于终端实际流量即可实时感知主机IP/MAC地址的拓扑迁移，无需依赖GARP通告即可实现终端移动
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
Virtual Machine Platform is not enabled. Enable it using the following PowerShell script (in an admi 朋也透william docker
DockerDesktop安装指南以及Windows下WSL2和Hyper-V相关问题追查-寂寞姜大虎-博客园(cnblogs.com)https://www.cnblogs.com/qfl-blog/p/18200575
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
Pollinations AI文生图html源码酷爱码 html HTML
源码介绍用deepseek辅助制作了一个电脑端文生图小程序，html语言的，接口使用的是Pollinations，上传服务器访问首页即可一次生成4张，提示词最好用英文，点击小图可以预览大图，也可以点击下载按钮直接下载截图预览源码免费获取PollinationsAI文生图html源码
正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发 inscode_039
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE正则表达式：编程中的瑞士军刀，如何借助智能工具实现高效开发正则表达式（RegularExpression，简称regex或regexp）是一种用于匹配字符串的模式描述语言。它广泛应用于文本处理、数据验证、搜索和替换等场景中。然而，正则表达式的复杂性和晦涩性常常让编程初学者望而却步。幸运的是，随着AI技术的进步，像InsCo
深入解析 DeepSeek-R1 模型的显存与内存需求 gs80140 基础知识科谱 deepseek
DeepSeek-R1系列模型涵盖从轻量级到超大规模的多个版本，适用于不同的应用场景。了解各版本在不同量化精度下的显存和内存需求，有助于选择适合自身硬件配置的模型。模型参数与量化精度的关系模型的参数量决定了其基础大小，而量化精度（如FP16、INT8、INT4）则影响每个参数所占用的存储空间。通过降低量化精度，可以显著减少模型的显存和内存占用，但可能会对模型性能产生一定影响。以下是不同量化精度下，
《北京大学-DeepSeek系列教程（1）》电子书下载 AI智研社人工智能 ai AI写作 AIGC 生活
哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“《北京大学-DeepSeek系列教程（1）》电子书下载”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。《北京大学-DeepSeek
【微信小程序（云开发模式）变通实现DeepSeek支持语音】技术与健康微信小程序 notepad++小程序
整体架构前端（微信小程序）：使用微信小程序云开发能力，实现录音功能。将录音文件上传到云存储。调用云函数进行语音识别和DeepSeek处理。界面模仿DeepSeek，支持文本编辑。后端（云函数+Node.js）：使用云函数调用腾讯云语音识别（ASR）服务。调用DeepSeekAPI处理文本。步骤1：初始化云开发环境在微信开发者工具中创建小程序项目，并开通云开发。在project.config.jso
多家车企接入DeepSeek，AI汽车战争爆发，谁站上风口，谁会下牌桌？高工智能汽车人工智能汽车
日前，多家车企宣布接入DeepSeek。在吉利汽车、岚图汽车率先宣布后，东风汽车、零跑汽车、奇瑞、上汽集团、长城几家车企也紧随其后。其中东风汽车宣布旗下自主品牌已完成DeepSeek全系列大语言模型接入工作，并将于近期陆续搭载应用于包括东风岚图、东风猛士、东风奕派、东风风神、东风纳米在内的东风自主品牌车型。其中岚图品牌方面，岚图知音将成为汽车行业首个融合DeepSeek的量产车型，全新岚图梦想家也
职场人必存！DeepSeek提示词大合集：周报速成、爆款文案、旅行攻略一键生成阳光永恒736 AI工具人工智能 deepseek AI提示词
引言：AI时代，为什么你的提示词总“词不达意”？“同样的AI工具，同事用DeepSeek半小时写完周报还附赠数据分析图，我却只会问‘帮我总结本周工作’？”这可能是多数职场人的真实写照。AI工具的能力边界早已超越基础问答，但90%的用户仍停留在“无效提问”阶段10。而真正拉开差距的，是一套精准的提示词指令库——它能将模糊需求转化为AI可执行的“操作指南”，让效率提升10倍不止。一、职场效率：从“加班
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
【DeepSeek干货总结】对不同类型学术内容进行润色的顶级提示词汇总！ AIWritePaper官方账号 DeepSeek Prompt AIWritePaper AIWritePaper deepseek 深度学习人工智能 AIGC 论文润色
目录1.英文润色2.中文润色3.SCI润色4.润色Prompt汇总连贯性与句子逻辑提示词多参考版本提示词语法矫正提示词润色内容定位提示词修改建议提示词大家好这里是AIWritePaper官方账号！AIWritePaper官网AIWritePaper宝子们在写学术论文的过程中要想让DeepSeek发挥出最佳效能，尤其在进行文本润色时，精确和具体的提示词至关重要。很多宝子们在请求DeepSeek文本润
华为OD机试九日集训第2期 - 按算法分类，由易到难，循序渐进，提升编程能力和解题技巧，从而提高机试通过率哪吒搬砖工逆袭Java架构师华为od 算法九日集训 Java
目录一、适合人群二、本期训练时间三、如何参加四、数据结构与算法大纲五、华为OD九日集训第1期第1天、逻辑分析第2天、队列第3天、双指针第4天栈第5天滑动窗口第6天、二叉树第7天、并查集第8天、矩阵第9天、贪心算法六、国内直接使用满血ChatGPT4o、o1、o3-mini-high、Claude3.7Sonnet、满血DeepSeekR11、纯原版ChatGPT、Claude2、技术支持3、支持所
DeepSeek多语言670亿参数高效创作解析智能计算研究中心其他
内容概要本文聚焦DeepSeek系列模型的核心技术突破与应用价值，通过解析其混合专家架构（MoE）的设计逻辑与670亿参数的规模化优势，揭示其在多语言处理、视觉语言理解及代码生成领域的创新表现。从技术特性出发，文章将对比OpenAI等主流模型的性能差异，探讨参数效率与计算资源优化如何支撑低成本、高精度的内容生成场景，例如学术论文写作、智能选题规划及SEO关键词拓展。同时，通过分析DeepSeekP
【愚公系列】《高效使用DeepSeek》020-专业术语解释愚公搬代码愚公系列-书籍专栏人工智能 AI Agent deepseek 学习
【技术大咖愚公搬代码：全栈专家的成长之路，你关注的宝藏博主在这里！】开发者圈持续输出高质量干货的"愚公精神"践行者——全网百万开发者都在追更的顶级技术博主！江湖人称"愚公搬代码"，用七年如一日的精神深耕技术领域，以"挖山不止"的毅力为开发者们搬开知识道路上的重重阻碍！【行业认证·权威头衔】✔华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家✔开发者社区全满贯：CSDN博客&商业化双料
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，