JasonZhou89

搭建深度学习网络识别图片--猫狗大战

猫狗大战（项目代码：https://github.com/JasonZhou89/kaggle--Dogs-vs.-Cats-Redux-Kernels-Edition）

一. 问题的定义

1.1 项目概述

在提供大量有标签的猫狗图片的前提下，我们希望计算机可以从这些图片中学习到猫狗的特征，从而使得计算机可以正确的对不带标签、未曾见过的猫狗图片进行分类。这就涉及到计算机视觉中的图像分类问题。图像分类，计算机视觉研究领域之一，计算机通过学习图像本身的特征将不同类别的图像区分开来。

深度学习，人工智能中机器学习里的一个分支，在近几年大量带标签数据集的产生以及计算机算力得到大幅度提升的背景下迅速发展，深度学习神经网络在计算机视觉中的应用也是大放异彩，各种深度学习网络框架脱颖而出，例如VGG、ResNet、Inception、DenseNet、NASNet等。也不乏出现了tensorflow/keras等优秀的快速开发工具和接口。

本项目利用keras快速开发接口，搭建一个深度学习网络模型，利用kaggle比赛《Dogs vs. Cats Redux: Kernels Edition》中的数据集对模型进行训练、优化，利用优化后的模型对未曾见过的猫狗图片进行分类。

1.2 问题陈述

在“猫狗大战”项目中--典型的图像识别二分类问题，需要搭建了一个深度学习网络模型，利用所提供的带有标签（标签为猫或者狗）的猫狗图片对模型进行训练，用最终训练好的模型对不带标签的猫狗图片进行预测分类。

我们期望训练后的模型在测试集上的得分表现score可以达到kaggle 排行榜前 10%，也就是在 Public Leaderboard 上的 logloss 低于 0.06127。（logloss定义见评价指标）

1.3 评价指标

在此二分类问题中，模型用Binary Cross Entropy作为损失函数。

其中，

n是测试集中图片的个数
是图片预测为狗的概率
yi 图片为狗时值为1，为猫时值为0

损失函数大小对应模型的表现能力：当logloss较小时，模型表现能力强，正确预测猫狗图片的能力强；当logloss较大时，模型表现能力差，正确预测猫狗图片的能力弱。

二. 分析

2.1 数据的探索

项目中所使用的数据集来源于kaggle比赛《Dogs vs. Cats Redux: Kernels Edition》。目前该kaggle线上比赛已经结束。（感谢kaggle提供interesting、free的标签数据集）。

数据集链接:https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/data

其中，训练集包含25000张猫狗图片，随机挑选10张图片显示如下：

测试集包含12500张猫狗图片，随机挑选10张图片显示如下：

可以看到，训练集图片名中包含各自的分类（dog、cat），测试集图片是以数字命名的，图片中猫狗所占图片比例大小不一，清晰程度不一，图片大小（size）不统一。对于本项目猫狗分类问题，图片中猫狗比例，清晰程度不需要处理，但在输入模型之前，我们需要对数据集图片进行统一大小reshape操作。

随机展示的图片中没有异常值，但整个数据集中是否存在异常值呢？我们看到，各个图片的size不同，那么异常值是否和图片的size有关？对此我统计了图片size的分布情况，如图2.1所示：

图2.1 训练集图片尺寸分布情况

我们注意到在图片尺寸分布图的右上角，存在两个明显的尺寸异常值。那么他们是否是图片异常值呢？我们将这两幅图片显示如下：

我们看到，这两张尺寸异常的图片同样是正常的猫狗图片。那么我们如何定义异常值？ImageNet数据集中包含有猫狗的具体分类，对一个图片在载有ImageNet上预训练权值的xception模型上进行预测，如果其预测结果top50不包含猫狗真实的标签分类（图片预测值前50都没有正常分类），那么就将其视为异常值在输入模型之前，我们需要对数据集进行预处理：剔除掉训练集中的异常值。

2.2 算法和技术

卷积神经网络作为计算机视觉领域中最为抢眼的模型框架，近年来随着带标签数据集的出现和计算机算力的提升得到了前所未有的长足发展。不乏出现了像VGG、ResNet、Inception、DenseNet、NASNet等优秀的卷积神经网络。

本项目利用keras快速开发接口，搭建猫狗图像识别的二分类模型，fine-tune xception深度神经网络模型，对猫狗数据训练集进行训练，随后对测试集进行预测，并将预测结果提交到kaggle进行评分。项目中涉及到以下算法和技术。

2.2.1 卷积神经网络

我们知道图像具有很强的空间相关性，图像的特征也体现在像素与像素之间的关系，图片中距离较近的部分相关性大，而距离比较远的部分相关性较小。CNN卷积神经网络对图像进行了特征提取同时也保留了图像的空间信息。

一般来说，一个卷积神经网络包含一下几个部分：输入层、卷积层、激活函数、池化层、全连接层等。卷积层和池化层相互配合，逐层提取特征，最终通过几个全连接层，完成图像的分类。

输入层：

输入层主要用于处理原始数据，例如：中心化（将数据各个维度中心来回到坐标系原点）、归一化（减少数据各个维度取值范围带来的差异性）。对数据进行中心化和归一化，使得模型对参数向量不在特别敏感，weights的变动对分类器分类结果造成的扰动小，并加速模型的训练。

卷积层：

我们选取一个给定大小宽度和高度的滤波器（filter），将图片分成多个小块patch（patch大小与filter大小相同），用这个filter对图片的第一个patch做内积运算，得到一个输出；然后我们可以利用这个filter在水平方向和垂直方向进行滑动（滑动的步长称为stride）从而对图片的不同部分进行聚焦，最终得到下一层图像。如图2.2所示：假设image的size是5*5，现在用一个3*3大小的filter对其进行卷积，stride为1，卷积后最终可以得到一个3*3的convolved feature。如果希望卷积后的图片与输入大小相同，可以在原始图片外外层包裹一圈0，这个行为称之为padding。

图2.2 卷积操作

卷积层特点：

局部感知：传统神经网络中，每个神经元都要与上层所有像素链接；而卷积神经网络中每个神经元的权重个数均为卷积核的大小，即每个神经元只与图片部分像素相连接。
多核：每个卷积层可以有多个filter，每个filter对上层图片卷积操作后得到的图像就是该filter提取到特征的映射，即一个特征图（feature map）。不同的卷积核，提取到不同的特征。
参数共享：一张图片进行卷积操作时，卷积核的权重不变，一幅图片中不同位置的相同目标，提取到的特征是相同的。参数共享在降低了网络模型复杂度的同时与局部感知一样，极大程度的减少了运算量。

激活函数：

激活函数主要作用，是把卷集成输出结果转化成非线性。

池化层：

池化层，主要是为了降低数据维度，减少数据和参数的数量，并赋予了模型对轻量形变的容忍度，增强了模型的泛化能力，在一定程度上减小过拟合。

全链接层

两层之间所有的神经元都有权重链接，和传统的神经网络链接方式一样。

Dropout

典型神经网络的训练流程是，将输入通过网络正向传播，然后将误差进行反向传播，进行权值更新。Dropout是针对上述过程中，临时随机删除部分神经元（本次不训练临时删除神经元对应的链接权重）。通过dropout处理，有效减少了神经元之间的共适应性，增强了模型的鲁棒性，同时也减小了过拟合的发生。

2.2.2 fine-tune

Finetune model属于迁移学习的一种。在实际运用当中，由于训练时间的限制和训练样本过大的原因，很少有人从头开始训练网络模型，常见的作法有两种：

一是把预训练的CNN模型当做特征提取器；例如使用在ImageNet数据集上的预训练模型，去掉top的全链接层，然后将剩下的网络结构当做一个特征提取器。将数据集输入这个特征提取器中，去除top全链接层网络的输出即为我们提取到的特征，将得到的特征用线性分类器（例如svm或者softmax等）来进行分类图像。
二是fine-tune卷积网络。除了去掉top的全链接层，在网络top端搭建我们自己的分类器之外，我们需要在网络训练过程中对网络模型的后面几层或者是全部层进行权值更新。通常，由于前面几层提取到的是图像的通用特征（例如例如色彩、边缘、简单的图形等），后面几层是针对特定类别有关的特征，因此一般我们fine-tune卷积网络的后边几个层。

2.2.3 优化器

优化器用来更新和计算模型参数，使其更加逼近或者达到最优值，从而使loss损失函数最小。

神经网络中最常用优化算法是梯度下降，其核心是：对于每一个变量，按照目标函数在该变量的梯度下降的方向（梯度的反方向）进行更新，学习率决定了每次更新的步长。即在超平面上目标函数沿着斜率下降的方向前进，直到到达超平面的谷底。

梯度下降法变体：
1. 批量梯度下降（Batch GradientDescent）：在整个数据集上对每个参数求目标函数的偏导数，其反方向即为此参数变量的梯度下降方向。批量梯度下降中，每次更新都需要计算整个数据集上求出所有参数变量的偏导数，因此速度比较慢。批量梯度下降对于凸函数可以收敛到全局最小值，对于非凸函数可以收敛到局部最小值。
2. 随机梯度下降（Stochastic GradientDescent）：相对于批量梯度下降，随机梯度下降每次更新是针对数据集中的一个样本求损失函数，然后对其求相应的偏导数，SGD运行速度大大加快。SGD更新值的方差很大，在频繁的更新之下，目标函数会有剧烈的波动。当降低学习率的时候，SGD表现出了与批量梯度下降相似的过程。
3. 小批量梯度下降法（Mini-batch GradientDescent）:在每次更新中，对n个样本构成的一批数据，计算损失函数，并对相应的参数求导；这种算法降低了参数的方差，使得收敛过程更稳定。小批量梯度下降法，通常使我们训练神经网络的首先算法。

梯度下降存在一些难题：

学习率大小的选择：太小收敛速度慢，太大学习率会阻碍收敛，并会造成损失函数在最小值处的震荡，甚至导致发散；所有参数都采用相同的学习率：如果数据比较稀疏，我们希望较少出现的特征有更大的学习率；在对神经网络优化非凸函数时，目标函数可能会被困在“鞍点”，鞍点在各个方向的梯度值都为0，SGD很难从这些鞍点中脱开。

为了解决以上问题，就有了以下这些梯度下降的优化算法。

梯度下降优化算法：
1. 动量法：SGD很难在陡谷（ravines）中找到正确更新方向，SGD在陡谷周围震荡想局部极值处缓慢前进。动量法，就像从高坡推下一个小球，小球在滚动过程中积累了动量，在途中他变得越来越快（直到达到峰值速度）。算法中，参数的更新也是如此，动量项在梯度指向方向相同的方向逐渐增大，对梯度指向改变的方向逐渐减小。由此，将会加快收敛以及减小震荡。
2. Adagrad法：主要功能是，对不同的参数调整学习率，对低频出现的参数进行大的更新，对高频出现的学习率进行小的更新。Adagrad法大大提升了SGD的鲁棒性。Adagrad主要优势之一是它不需要对每个学习率进行手工调节。劣势在于，Adagrad会导致学习率不断的缩小，并最终变为一个无限小值，算法将不能从数据中学到额外的信息。
3. Adadelta、RMSprop：adagrad的改进，解决学习率不断单调下降的问题。
4. 适应性动量估计法（Adam）：另一种对不同参数计算适应性学习率的方法。除了存储类似于Adadelta法和RMSprop中指数衰减的过去梯度平方均值外，Adam法也存储像动量法中的指数衰减的过去梯度值均值。

总体来说，如果输入数据比较稀疏，那么使用适应性学习率类型的算法会有助于得到好的结果，此外，使用该方法的另一个好处是，在不调参、直接使用默认值的情况下，就能得到最好的结果。SGD配合“a simple learning rate annealing schedule”，最终也能找到最小值，但花费时间要远远多于适应性学习率类型的算法的时间。

2.2.4 批量标准化（Batch Normalization）

数据带入模型之前，通常会有预处理过程，将输入数据中心化、归一化处理，以帮助模型进行学习训练，随着参数更新，除了输入层之外的其他各层网络的输入数据分布都会发生变化，这将影响网络的训练速度。

BN算法就是为了解决再训练过程中，中间层数据分布发生变化的情况下的数据归一化。

批量标准化对每小批数据都从新进行标准化，在模型中加入批量标准化后，能使用更高的学习率而且不在对初始化参数特别敏感。

批量标准化可以看做是一种正则化手段，提高了网络泛化能力。

2.2.5 残差网络

CNN网络能够提取不同级别的特征，而且特征的等级会随着网络的深度的加深而变高，网络层数越多，也意味着能提取到不同级别的特征越丰富。然而随着网络深度的加深，梯度消失/爆炸成为了训练深层次的网络的障碍，并导致无法收敛。归一初始化和中间归一化在很大程度上解决了这一问题，它使得可收敛的网络层数增加到数十层。

但深度网络收敛时，出现了一个退化问题，随着网络层数的增加，模型的准确率下降了，这种退化并不是由过拟合造成的，在一个合理的深度模型中增加更多的层却导致了更高的错误了。如图2.3所示:

图2.3 20层和56层的“plain”网络在CIFAR-10上的训练错误率

为了解决这个问题，就有了残差网络：通过在一个浅层网络基础上叠加y=x层（identity mappings，恒等映射）。残差网络模块如图2.4所示：

图2.4 残差网络模块

残差网络有效解决了退化问题，其在CIFAR-10测试集上取得了相当好的成绩，如图2.5：

图2.5 CIFAR-10测试集上分类错误率

2.2.5 xception

Xception设计思路可以从inception模块设计思路开始说起。在卷积神经网络中，每个卷积层会通过卷积操作从输入数据或上一层中提取更高级特征，而卷积核大小的不同选择直接影响了提取到的特征表象，google提出Inception模块：对上一层进行1*1、3*3、5*5、maxpool然后进行concat操作，从而得到更为全面的特征表象（增加了网络的宽度）。inception模块结构如图2.6：

图2.6 最初的inception模块

基于Inception模块提出了InceptionV2，将5*5用两个3*3卷积核代替，从而降低了参数数量，并提出了BN算法。结构如图2.7：

图2.7 Inception模块中5x5用2个3x3卷积代替

InceptionV3中又提出了因式分解，即将N*N卷积核用一个1*N和一个N*1卷积核替代，进一步提快了计算速度，结构如图2.8所示：

图2.8 NxN卷积因子分解后的Inception模块

随后又将ResNet残差网络加入到网络中，提出了Inception-ResNet，有效防止了梯度消失的问题。

图2.9 一般Inception-resnet模块的架构

相对于图2.6的inception模块来说，图2.10为一个简单化的inception模块（没有pooling）：

图2.10 简单的inception模块

进而可以延伸出图2.11，某种角度来看图2.11等价于（重构）图2.10。这次先对input进行1x1卷积，然后再对1x1卷积输出channels平均分为3部分，随后对每部分进行3x3卷积操作，最后对各部分进行concat操作：

图2.11 一个严格等价重构的简单的inception模块

对于图2.11，有一种极端的情况，即对1x1卷积输出的每个channel进行单独的卷积，然后再进行concat操作，如图2.12所示：

图2.12 对1x1卷积输出的每个channel进行独立的卷积的inception模块

图2.12中所示的“极端的”inception模块和depthwise separable convolution的主要区别有两点：

操作顺序不同：depthwise separable convolution先执行channel-wise spatial convolution，然后再执行1x1卷积；而图7是先执行的1x1卷积。
分线性激活函数是否存在：图7中每一步后边都有Relu非线性激活函数，而depthwise separable convolution后边通常不会设置分线性激活函数。

2017年google基于depthwise separable convolution结构重新设计了Inception模块，即为Xception，进一步在减少模型参数的前提下增加了模型的表现能力。下图为Xception的网络架构（图中的SeparableConv即为depthwise separable convolution）：主要包括14个block，其中Entry flow包括4个block，Middle flow包括8个block，Exit flow包括2个block。除了第一个和最后一个block之外，其余每个block都有residule connection（图中+号）。

图2.13 Xcepiton网络架构

Xception论文中已经明确对比测试，单模型对比测试数据如下图所示，可以看出Xception在ImageNet数据集上的表现要优越于其他模型。在猫狗大战项目中，将使用迁移学习，对Xception进行fine-tune，由于ImageNet数据集中有猫狗的具体分类，因此我相信，这种做法可以取得不错的成绩。

图2.13 各个模型在ImageNet数据机上的准确率

2.3 基准模型

我们期望训练后的模型在测试集上的得分表现score可以达到kaggle 排行榜前 10%，也就是在 Public Leaderboard 上的 logloss 低于 0.06127。

三. 方法

3.1 数据预处理

3.1.1 剔除异常值

数据探索时发现，训练集中存在异常值（非猫非狗的图片），在将数据输入模型之前，需要对这些异常值进行处理。

项目中利用装载Imagenet数据集上的预训练权值的Xception模型来实现异常值的检测。ImageNet数据集中包含有猫狗的具体分类，对一个图片在载有ImageNet上预训练权值的xception模型上进行预测，如果其预测结果top50不包含猫狗真实的标签分类（图片预测值前50都没有正常分类），那么就将其视为异常值。

我们对25000张训练集图片进行top50预测，得到共60张异常值图片，我们可以看出被判定为异常值的图片多为非猫非狗图片、或者是背景特别模糊的猫狗图片、亦或者是猫狗同时存在的图片。不包含cat/dog正常标签的图片（异常值）入下图所示：

将异常值从训练集中剔除。

3.1.2 读入图片、统一size、shuffle

对剔除后的训练集进行shuffle操作：

import random
random.shuffle(train_image_list)

读入内存并reshape统一大小（299*299*3）：

def read_batch_img(batch_imgpath_list):
    '''read batch img and resize'''
    images = np.zeros((len(batch_imgpath_list), 299, 299, 3), dtype=np.uint8)
    for i in range(len(batch_imgpath_list)):
        img = cv2.imread(batch_imgpath_list[i])
        img = img[:,:,::-1]
        img = cv2.resize(img, (299,299))
        images[i] = img
    return images

3.1.3 生成标签、划分训练集/验证集

利用图片的命名获取对应的label，然后将训练集平均分为5份，一份作为验证集其余四份作为训练集。

#生成对应label
def get_lables(image_list):
    labels = np.zeros(len(image_list), dtype=np.uint8)
    for i,item in enumerate(image_list):
        if "dog" in item:
            labels[i] = 1
        else:
            labels[i] = 0
    return labels
Y = get_lables(train_image_list)
#划分成训练集和验证集
val_X = X[:math.ceil(len(train_image_list)/5)]
val_Y = Y[:math.ceil(len(train_image_list)/5)]
train_X = X[math.ceil(len(train_image_list)/5):]
train_Y = Y[math.ceil(len(train_image_list)/5):]

3.1.2 中心化

数据集在输入模型训练之前，将利用xception自带的preprocess_input进行预处理，对输入数据的各个channel分别减去各自channel的均值，即分别对各个channel中心化处理。

3.2 模型构建

base model选用Xception，加载在 ImageNet 上预训练的权值，包含顶端的全局平均池化层，不包含top的分类器，随后在base model后边加一个二分类分类器。

# create the base pre-trained model
base_model = xception.Xception(weights='imagenet', input_shape = (299,299,3), 
                           include_top=False, pooling='avg')

x = base_model.output

from keras.models import Model
from keras.layers import Dense
# 二分类分类器
predictions = Dense(1, activation='sigmoid')(x)
# this is the model we will train
model = Model(inputs=base_model.input, outputs=predictions)

3.3 图像增强

为了更好的训练模型，增加训练集的图片数量，我们利用keras官网提供的ImageDataGenerator对训练集合图片进行图像增强。

#图片数据增强
from keras.preprocessing.image import ImageDataGenerator
#训练数据增强
train_datagen = ImageDataGenerator( preprocessing_function=xception.preprocess_input, 
                               shear_range=0.2, 
                               zoom_range=0.2, 
                               horizontal_flip=True)
#验证数据增强
validation_datagen = ImageDataGenerator(preprocessing_function=xception.preprocess_input)

train_generator = train_datagen.flow(x = train_X,
                                     y = train_Y,
                                     batch_size = batch_size,
                                     shuffle=True)
validation_generator = validation_datagen.flow( x = val_X,
                                       y = val_Y,
                                       batch_size = batch_size, 
                                       shuffle=False)

3.4 执行过程

卷积神经网络中前几层学到的是通用特征（例如色彩、边缘、简单的图形等）这些通用特征对很多任务都适用，后面几层提取到的是特定类别相关的特征，因此这里我们只对模型的后边4个block进行fine-tune。（以下所有运行数据是在aws云的p2.xlarge主机训练所得）。

所有训练中，epochs设置为30，batch_size设置为32，并利用keras中的EarlyStopping回调函数，当val_loss经过3个训练轮数不在优化时停止训练（即patience设置为3），并保存每个epoch训练后的model。

模型一：

起初，我选取了adam优化器，lr设置为0.0001，fine-tune 模型。模型训练分三个步骤：

第一步，只训练顶端的二分类分类器：

训练历经11个epoch，用时5641s，loss与acc变化如下图所示：

第二步，选取上一步中表现最好的（val_loss最低的）epoch训练后的模型（epoch8所对应的模型），放开xception的13/14block（顶部2个block）继续训练：

训练历经5个epoch，用时2939s，loss与acc变化如下图所示：

第三步，选取上一步中表现最好的那个epoch训练后的模型（epoch2所对应的模型），放开xception顶部4个blcok继续训练：

训练历经5个epoch，用时3461s，loss与acc变化如下图所示：

选取epoch2对应的模型为本次训练最终模型，这里记为模型一。我们可以看到整个训练用时200多分钟，所得模型对应的val_loss为0.0143。

模型取得的val_loss比较满意，但用时较长，如果提高学习率是否可以在保证val_loss不变或者取得更优异的成绩的前提下缩短训练时间呢？

模型二：

选取adam优化器，lr设置为0.001，fine-tune 模型。模型训练分三个步骤：

第一步，只训练顶端的二分类分类器：

训练历经10个epoch，用时4879s，loss与acc变化如下图所示：

第二步，选取上一步中表现最好的（val_loss最低的）epoch训练后的模型（epoch7所对应的模型），放开xception的13/14block（顶部2个block）继续训练：

训练历经14个epoch，用时7898s，loss与acc变化如下图所示：

第三步，选取上一步中表现最好的那个epoch训练后的模型（epoch8所对应的模型），放开xception顶部4个blcok继续训练：

训练历经5个epoch，用时3393s，loss与acc变化如下图所示：

选取epoch2对应的模型为本次训练最终模型，这里记为模型二。我们可以看到整个训练用时269分钟，所得模型对应的val_loss为0.0100。模型二在验证集上val_loss比模型一更低，但在训练过程中呈现锯齿状波动切用时比模型一更长。利用模型二在测试集上进行预测，将结果提交到kaggle得到了0.04734、top3.1%的成绩（1314排名第41名）。

模型一、模型二都是分三步进行训练，每次只多放开top的两个block，如果一次性放开top4个block进行训练是否可以保证val_loss不变或者取得更优异的成绩呢？

模型三：

选取adam优化器，lr设置为0.0001，fine-tune 模型。一次性放开模型top的4个block进行训练：

训练历经8个epoch，用时5580s，loss与acc变化如下图所示：

选取epoch5对应的模型为本次训练最终模型，这里记为模型三。我们可以看到整个训练用时93分钟，所得模型对应的val_loss为0.0105。

模型三在验证集上val_loss比模型二稍微高一点，但在训练过程用时比模型一、模型二要短很多。利用模型三在测试集上进行预测，将结果提交到kaggle得到了0.04833、top3.8%的成绩（1314排名第50名）。

模型一、模型二、模型三都是选用adam优化器进行训练，如果选用其他优化器是否可以得到更好的成绩呢？

模型四：

选取SGD优化器，lr设置为0.0001，momentum设置为0.9，fine-tune 模型。一次性放开模型top的4个block进行训练：

训练历经30个epoch，用时19588s，loss与acc变化如下图所示：

选取epoch30对应的模型为本次训练最终模型，记为模型四。我们可以看到整个训练用时326分钟，所得模型对应的val_loss为0.0136。

模型四在验证集上val_loss比模型二、模型三稍微高一点，训练时间要更长，但在训练过程val_loss平滑收敛。利用模型四在测试集上进行预测，将结果提交到kaggle得到了0.03974、top1.1%的成绩（1314排名第15名）。

这个成绩比预期的top10%已经高出很多啦，我们将模型四作为项目最终模型。

四. 结果

4.1 模型的评价与验证

我们将模型四最为最终模型，其训练过程中val_loss很平滑的收敛，并且在kaggle上得分达到了0.003974的成绩。

为了检验模型的鲁棒性，从网络上随机挑选了20张猫狗图片（非训练集、非验证集、非测试集中的图片）用最终模型进行预测，预测结果如下所示：

可以看出，20个张图片全部预测正确，并且预测得分都很高，最终模型具有良好的泛化能力，在预测猫狗上足够稳健可靠。

4.2 合理性分析

最终模型在kaggle上得分为0.03974：

得分超越了top1.1%的成绩（1314排名第15名），比项目开始制定的基准模型top10%表现的要好。

最终模型已经完成了项目最初制定的目标，成功完成了“计算机可以正确的对不带标签、未曾见过的猫狗图片进行分类”的期望。

五. 项目结论

5.1 试验成绩对比结论

模型一、模型二对比：

采用相同优化器adam，模型一lr=0.0001，模型二lr=0.01。分三步进行训练：第一步，只训练top顶端的分类器；第二步，取上一步最优模型，在此基础上放开top2个blcok继续训练；第三步，取上一步最优模型，在此基础上放开top4个block继续训练。

模型一、训练过程loss变化模型二、训练过程loss变化

结论：lr比较小的模型一收敛的比较平滑，lr相对大的模型二在训练过程中锯齿抖动比较严重。相同模型的前提下，学习率越小模型训练越平滑。

模型一、模型三对比：

优化器采用adam、其他参数完全一致，模型一是分三步进行训练，每次只多放开top的两个block；模型三一次性放开top4个block进行训练。

模型一、训练过程loss变化模型三、训练过程loss变化

实验一整个训练用时200多分钟，所得模型对应的val_loss为0.0143；模型三整个训练用时93分钟，所得模型对应的val_loss为0.0105，但5个epoch过后出现了过拟合现象。提交kaggle得分，模型二比模型三稍好一点。

结论：相同优化器，相同参数的情况下，一次性放开顶端4个block取得的模型在测试集上泛化能力稍差一点，但模型训练用时更短。相对于模型在测试集上的logloss相差0.001的表现，训练时间大幅度的缩减相当可观。

模型三、模型四对比：模型三adam优化器、lr=0.0001，模型四SGD优化器、lr=0.0001、momentum=0.9，一次性放开top4个block进行训练。

模型三、训练过程loss变化模型四、训练过程loss变化

模型四在验证集上val_loss比模型三稍微高一点，训练时间要更长，但在训练过程val_loss平滑收敛，且没有出现像模型三训练过程中明显的过拟合现象。利用模型四在测试集上进行预测，将结果提交到kaggle得到了0.03974、top1.1%的成绩（1314排名第15名）。

结论：学习率都为相同的情况下，SGD模型的loss收敛更加平滑，其在测试集上的泛化能力更强；而Adam模型在取得相对不错成绩的基础上，模型训练所需用时更短。

模型四在测试集上取得的成绩比预期的top10%已经高出很多，我们将模型四作为项目最终模型。

5.1 项目重要技术

本项目中fine-tune Xception模型取得了良好的成绩，并且其计算速度之快得力于Xception中的depthwise separable convolution结构。

depthwise separable convolution概念是在mobileNets中提出的，其核心概念是原来的卷积操作进行因子分解，即将原来的卷积操作（如下图a所示）分为两步：第一步，先用每一个卷积核只对输入的一个channel进行卷积，而不进行求和操作（如下图b所示）；第二步，对上一步得到的结果进行pointwise卷积操作（如下图c所示）。

上图a中标准卷积操作的计算量为Dk*Dk*M*Df*Df*N(Df*Df特征图大小、N为输出的channels、M为input的channels、kernel大小Dk*Dk)；而b图中Depthwise convolution的计算量为Dk*Dk*1*Df*Df*M，图c 中pointwise convolution的计算量为1*1*M*Df*Df*N。那么，对比标准卷积操作，depthwise separable convolution的计算量减少了：

由上式可以看出，如果卷积核选为3*3，那么计算量大概减少为标准卷积计算量的八分之一到九分之一。depthwise separable convolution大大减少了模型中的参数，从而减少了模型的训练时间。

5.2 对项目的思考

项目归属于图像识别类，主要解决的问题是图像分类中的二分类问题。合适的模型选择与搭建是解决问题的关键。当然，无论是解决任何问题，搭建的是哪种模型，采用的是什么算法，对数据集的探索总是少不了的。将数据集规范化的输入、剔除掉部分异常值等预处理，并利用图像增强技术训练搭建的模型，尝试不同的超参数组合并选择表现能力最强的模型作为我们的最终模型。

整个项目过程中也遇到了不少的困难，比如：aws云主机上环境的搭建、notebook链接断开导致重新训练模型问题、各个深度学习模型的学习、keras接口的学习、使用图像增强技术增加训练图片数量、调参等等。

令人兴奋的是，最终模型所取得的成绩大大超出了项目开始时制定的基准线。

5.3 需要作出的改进

项目中只是采用了单模型的训练预测，如果采用多个模型融合可能会取得更好的成绩。此外，虽然取得了不错的成绩，但整个模型的训练过程是漫长的，每次调参的会面临漫长的重新训练过程。如果先利用model.predict_generator函数来提取出训练集的特征向量（bottleneck features）,然后再利用这些特征向量训练、调参、优化模型，会大大减少训练时间。

参考文献：

ImageNet Classification with Deep Convolutional Neural Networks. Alex etc， 2012.
Rethinking the Inception Architecture for Computer Vision. Christian Szegedy etc,2015.
Deep Residual Learning for Image Recognition. Kaiming He etc,2015.
Xception: Deep Learning with Depthwise Separable Convolutions. François Chollet, 2017.
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. Andrew G. Howard etc,2017.
Keras中文文档：https://keras.io/zh
项目所用数据集： https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/data
斯坦福大学课程：CS231n Convolutional Neural Networks for Visual Recognition.
An overview of gradient descent optimization algorithms. Sebastian Ruder,2017
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. Sergey Ioffe etc, 2015.

你可能感兴趣的:(machine,learning)

大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
无法删除或者修改注册表权限不够，如何修改注册表的权限番知了注册表 Windows 权限更改设置 Windows权限
目录1如何找到注册表项（详细步骤）方法步骤（图文步骤）此方法适用于你遇到的以下问题：2为什么这里不是文件位置？3执行修改时务必谨慎如何找到注册表项（详细步骤）方法步骤（图文步骤）打开注册表编辑器按键盘组合键Win+R输入命令：regedit点击确定，打开注册表编辑器。定位你需要修改的注册表项，如：注册表左侧面板树状结构中定位到路径：HKEY_LOCAL_MACHINE\SOFTWARE\Micro
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
面试必问之JVM原理 teayear 面试 jvm 职场和发展
1：什么是JVMJVM是JavaVirtualMachine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以
DeepFM算法原理及应用场景
DeepFM（DeepFactorizationMachine）是一种结合了因子分解机（FactorizationMachines,FM）和深度神经网络（DNN）的混合模型，主要用于处理高维稀疏数据（如推荐系统中的点击率预测）。其核心思想是同时捕捉低阶（线性）和高阶（非线性）特征交互。1.算法原理模型结构如下：FM部分：负责捕捉低阶特征交互（如一阶和二阶特征组合）。一阶项：线性特征权重。二阶项：通
jvm原理和调优实战故事很腻i java jvm java
一、JVM核心基础1.1JVM架构概述Java虚拟机（JavaVirtualMachine，JVM）是Java程序的运行核心，其核心架构包含四大模块：1.1.1类加载子系统功能：负责将class文件加载到JVM内存中，通过ClassLoader实现加载流程：加载：通过类的全限定名获取二进制字节流验证：确保字节流符合JVM规范准备：为类变量分配内存并设置初始值解析：将符号引用替换为直接引用初始化：执
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
CVPR 2024 图像、视频处理总汇（视频字幕、图像超分辨率、图像分类和压缩等）点云SLAM 图形图像处理深度学习计算机视觉图像处理视频处理 3DGS CVPR2024
1、Image/VideoCaptioning(图像/视频字幕)VisualFactChecker:EnablingHigh-FidelityDetailedCaptionGenerationPolos:MultimodalMetricLearningfromHumanFeedbackforImageCaptioning⭐codeprojectPanda-70M:Captioning70MVide
【集成学习】Bagging、Boosting、Stacking算法详解
文章目录1.相关算法详解：2.算法详细解释：2.1Bagging：2.2Boosting：2.3Stacking：2.4K-foldMulti-levelStacking：集成学习（EnsembleLearning）是一种通过结合多个模型的预测结果来提高整体预测性能的技术。它通过将多个学习器的结果集成起来，使得最终的模型性能更强，具有更好的泛化能力。常见的集成学习框架包括：Bagging、Boos
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
【分布式】自定义统一状态机流转设计沉着的码农分布式 Java 分布式 java spring boot
自定义统一状态机流转设计StateMachine接口通用状态机BaseStateMachine举例实现状态事件OrderStateMachine(BaseStateMachine实现类)使用状态机用于描述一个系统在不同状态之间的转换和行为，是状态模式的一种具体应用。状态机是一种抽象的计算模型，它包含有限个状态和转换规则，用于描述系统在不同状态下如何响应输入以及在不同输入下如何进行状态转换。一个状态
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
[读论文] Towards Machine Learning for Placement and Routing in Chip Design: a Methodological Overview SP FA #EDA+AI 机器学习人工智能
Abstract在现代芯片设计流程中，放置和布线是两个不可或缺且具有挑战性的NP-hard问题。与使用启发式算法或专家精心设计的算法的传统求解器相比，机器学习凭借其数据驱动的性质显示出了广阔的前景，它可以减少对知识和先验的依赖，并且通过其先进的计算范式具有更大的可扩展性(例如GPU加速的深度网络)。本调查首先介绍了基本的布局（Placement）和布线（Routing），并简要介绍了经典的无学习解
配置uwsgi为系统服务遇到State ‘stop-sigterm‘ timed out解决方法 fangeqin linux系统服务 linux uwsgi systemctl
[root@localhostlearning_log]#systemctlstartuwsgi启动服务[root@localhostlearning_log]#systemctlstatusuwsgi●uwsgi.service-TheuWSGIserverLoaded:loaded(/usr/lib/systemd/system/uwsgi.service;disabled;vendorpre
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
MySQL 8.0 OCP 1Z0-908 题目解析(17) 一只fish MYSQL OCP mysql 数据库
题目65Choosetwo.Whichtwoarecharacteristicsofsnapshot-basedbackups?□A)Thefrozenfilesystemcanbeclonedtoanothervirtualmachineimmediatelyintoactiveservice.□B)ThereisnoneedforInnoDBtablestoperformitsownrecov
GraalVM 与 JVM：深度对比分析 twinsshehp jvm
在现代Java开发中，GraalVM和传统的JVM（JavaVirtualMachine）是两个非常重要的运行时环境。本文将从概念讲解、应用场景区分、优缺点分析、多线程影响以及GraalVM缺少的JDK功能等多个维度进行深入对比，帮助开发者全面理解两者的技术差异和适用场景。一、概念讲解1.JVM（JavaVirtualMachine）JVM是Java运行的核心，负责执行字节码并管理程序的生命周期。
kedro-mlflow 项目教程薄琼茵Angelic
kedro-mlflow项目教程kedro-mlflowAkedro-pluginforintegrationofmlflowcapabilitiesinsidekedroprojects(especiallymachinelearningmodelversioningandpackaging)项目地址:https://gitcode.com/gh_mirrors/ke/kedro-mlflow1
Pyarmor 项目使用教程
Pyarmor项目使用教程pyarmorAtoolusedtoobfuscatepythonscripts,bindobfuscatedscriptstofixedmachineorexpireobfuscatedscripts.项目地址:https://gitcode.com/gh_mirrors/py/pyarmor1.项目目录结构及介绍Pyarmor项目的目录结构如下：pyarmor/├──
强化学习RLHF详解贝塔西塔强化学习大模型人工智能深度学习机器学习算法语言模型
RLHF（ReinforcementLearningfromHumanFeedback）模型详解一、背景1.传统强化学习的局限性传统的强化学习（ReinforcementLearning,RL）依赖于预定义的奖励函数（RewardFunction），但在复杂任务（如自然语言生成、机器人控制）中，设计精确的奖励函数极为困难。例如：模糊目标：生成“高质量文本”难以量化，无法用简单的指标（如BLEU、R
机器学习：集成学习方法之随机森林(Random Forest) 慕婉0307 机器学习集成学习机器学习随机森林
一、集成学习与随机森林概述1.1什么是集成学习集成学习(EnsembleLearning)是机器学习中一种强大的范式，它通过构建并结合多个基学习器(baselearner)来完成学习任务。集成学习的主要思想是"三个臭皮匠，顶个诸葛亮"，即通过组合多个弱学习器来获得一个强学习器。集成学习方法主要分为两大类：Bagging(BootstrapAggregating)：并行训练多个基学习器，然后通过投票
提示词工程推荐阅读论文司南锤 LLM prompt 人工智能自然语言处理
论文目录提示工程少样本提示思维链提示自洽性生成知识提示自动提示工程多模态提示提示技巧对抗提示提示工程PromptEngineeringforText-BasedGenerativeModels论文链接:https://arxiv.org/abs/2107.13586简介:本文概述了提示工程，并讨论了它在各种基于文本的生成模型中的应用。少样本提示Few-shotLearningwithRetriev
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
长尾形分布论文速览【80-119】木木阳 Long-tailed 人工智能
为便于理解和应用，以下将30篇关于长尾分布的研究文献按主题进行分类整理。每一大类包含相应的工作，帮助我们从整体上把握各方向的研究进展。1.长尾半监督学习与伪标签优化Paper90:Uncertainty-awareSamplingforLong-tailedSemi-supervisedLearning提出了一种动态阈值选择方法（UDTS），能有效改善尾部分类性能，适用于不平衡类别的半监督学习。P
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
Certificate-based web services message security之感性认识 weixin_33755554 ux 5g ui
下面的.netconsoleapplication，添加System.ServiceModel.dll程序集引用即可，不需要配置文件。/*===SETCERT===makecert.exe-asha1-nCN=MyService.com-srLocalMachine-ssMy-skyexchange-skMyServicecertmgr.exe-add-c-nMyService.com-s-rlo
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比