AI科技大本营

5大典型模型测试单机训练速度超对标框架，飞桨如何做到？

原文链接： https://www.paddlepaddle.org.cn

导读：飞桨（PaddlePaddle）致力于让深度学习技术的创新与应用更简单。在单机训练速度方面，通过高并行、低开销的异步执行策略和高效率的核心算子，优化静态图训练性能，在Paddle Fluid v1.5.0的基准测试中，在7个典型模型上进行了测试（图像领域5个，NLP领域2个），其中5个模型的速度显著优于对标框架（大于15%），2个模型与对标框架持平（5%之内）。如果想让单机训练速度更快，可以根据这篇文档的建议从网络构建、数据准备、模型训练三个方向了解飞桨单机训练中常用的优化方法。来一组测试数据先睹为快。

模型名称		对标开源框架	飞桨	对标开源框架	吞吐量对比（%）飞桨VS对标开源框架
模型名称		对标开源框架	飞桨	对标开源框架	吞吐量对比（%）飞桨VS对标开源框架	1	DeepLab V3+	TensorFlow	13.70 examples/s	6.40 examples/s	+ 113.98%
2	YOLOv3	MXNet	29.90 examples/s	18.58 examples/s	+ 60.95%
3	BERT	TensorFlow	4.04 steps/s	3.42 steps/s	+ 18.23%
4	Mask-RCNN	PyTorch	3.81 examples/s	3.24 examples/s	+ 17.62%
5	CycleGAN	TensorFlow	7.51 examples/s	6.45 examples/s	+ 16.44%
6	SE-ResNeXt50	PyTorch	168.33 examples/s	163.13 examples/s	+ 3.19%
7	Transformer	TensorFlow	4.87 examples/s	4.75 examples/s	+ 2.42%

测试环境如下：

PaddlePaddle version：1.5.0
Tensorflow version：1.12.0
PyTorch version：1.1.0
MXNet version：1.4.1
GPU：Tesla V100-SXM2
CPU：Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz，38核
Nvida driver: 418.39
CUDNN VERSION：7.4.2.24
CUDA VERSION：9.0.176，单卡模式

1. 网络构建过程中的配置优化

1.1 减少模型中Layer的个数

为方便用户使用，飞桨提供一些不同粒度的Layer，其中有些Layer的组合可以通过单个Layer完成。比如：
(1) fluid.layers.softmax_with_cross_entropy，该操作其实是fluid.layers.softmax和fluid.layers.cross_entropy的组合，因此如果模型中有出现fluid.layers.softmax和fluid.layers.cross_entropy的组合，可以直接用fluid.layers.softmax_with_cross_entropy替换；
(2) 如果模型中需要对数据进行标准化，可以直接使用 fluid.layers.data_norm，而不用通过一系列layer组合出数据的标准化操作。因此，建议在构建模型时优先使用飞桨提供的单个Layer完成所需操作，这样减少模型中Layer的个数，并因此加速模型训练。

2. 数据准备优化

数据准备通常分为两部分：第一部分是数据加载，即程序从磁盘中加载训练/预测数据；第二部分是数据预处理，程序对加载的数据进行预处理，比如图像任务通常需要进行数据增强、Shuffle等。这两部分需要用户根据自己的模型需要进行设置，只需要最后得到Data Reader接口即可。Data Reader返回iterable对象，可以每次返回一条样本或者一组样本。代码示例如下：

def data_reader (width, height):    def reader():        while True:             yield np.random.uniform(-1, 1, size=width*height), \                np.random.randint(0,10)     return readertrain_data_reader = data_reader(32, 32)
    def reader():
        while True:
             yield np.random.uniform(-1, 1, size=width*height), \
                np.random.randint(0,10)
     return reader
train_data_reader = data_reader(32, 32)

飞桨提供了两种方式从Data Reader中读取数据：同步数据读取和异步数据读取。

2.1 同步数据读取

同步数据读取是一种简单并且直观的数据准备方式，代码示例如下：

Image = paddle.layer.data("image", ...)label = paddle.layer.data("label", ...)# 模型定义# ……prediction = fluid.layers.fc(input= image, size=10)loss = fluid.layers.cross_entropy(input= prediction, label= label)avg_loss = fluid.layers.mean(loss)# ……# 读取数据# paddle.dataset.mnist.train()返回数据读取的Reader,每次可以从Reader中读取一条样本，batch_size为128train_reader = paddle.batch(paddle.dataset.mnist.train(), 128)end = time.time()for batch_id, batch in enumerate(train_reader):    data_time = time.time() - end    # 训练网络    executor.run(feed=[...], fetch_list=[...])    batch_time = time.time() - end    end = time.time()
label = paddle.layer.data("label", ...)
# 模型定义
# ……
prediction = fluid.layers.fc(input= image, size=10)
loss = fluid.layers.cross_entropy(input= prediction, label= label)
avg_loss = fluid.layers.mean(loss)
# ……
# 读取数据
# paddle.dataset.mnist.train()返回数据读取的Reader,每次可以从Reader中读取一条样本，batch_size为128
train_reader = paddle.batch(paddle.dataset.mnist.train(), 128)
end = time.time()
for batch_id, batch in enumerate(train_reader):
    data_time = time.time() - end
    # 训练网络
    executor.run(feed=[...], fetch_list=[...])
    batch_time = time.time() - end
    end = time.time()

用户首先需要通过fluid.layers.data定义模型的输入，然后根据输入构建模型，最后从事先自定义的Reader函数中获取一个batch的数据，并将数据传递给执行器。可以看出，采用同步数据读取方式时，用户可通过加入计时函数来统计数据准备部分和执行部分所占用的时间。由于数据准备和执行是顺序进行的，所以程序的执行速度可能较慢。如果用户想进行模型调试的话，同步数据读取是一个不错的选择。更多同步数据读取的介绍请参考： https://www.paddlepaddle.org.cn/documentation/docs/en/1.5/user_guides/howto/prepare_data/reader.html

2.2异步数据读取

飞桨里面使用py_reader接口来实现异步数据读取，代码示例如下：

train_py_reader = fluid.layers.py_reader(        capacity=10,        shapes=((-1, 784), (-1, 1)),        dtypes=('float32', 'int64'),        name="train_reader",        use_double_buffer=True)# 使用 read_file() 方法从py_reader中获取模型的输入image, label = fluid.layers.read_file(reader)# 模型定义# ……prediction = fluid.layers.fc(input= image, size=10)loss = fluid.layers.cross_entropy(input= prediction, label= label)avg_loss = fluid.layers.mean(loss)# ……# 读取数据train_reader = paddle.batch(paddle.dataset.mnist.train(), 128)train_py_reader.decorate_paddle_reader(train_reader)# 启动py_readertrain_py_reader.start()try:    end = time.time()    while True:        print("queue size: ", train_py_reader.queue.size())        loss, = executor.run(fetch_list=[...])        # ...        batch_time = time.time() - end        end = time.time()        batch_id += 1except fluid.core.EOFException:    train_py_reader.reset()
        shapes=((-1, 784), (-1, 1)),
        dtypes=('float32', 'int64'),
        name="train_reader",
        use_double_buffer=True)
# 使用 read_file() 方法从py_reader中获取模型的输入
image, label = fluid.layers.read_file(reader)
# 模型定义
# ……
prediction = fluid.layers.fc(input= image, size=10)
loss = fluid.layers.cross_entropy(input= prediction, label= label)
avg_loss = fluid.layers.mean(loss)
# ……
# 读取数据
train_reader = paddle.batch(paddle.dataset.mnist.train(), 128)
train_py_reader.decorate_paddle_reader(train_reader)
# 启动py_reader
train_py_reader.start()
try:
    end = time.time()
    while True:
        print("queue size: ", train_py_reader.queue.size())
        loss, = executor.run(fetch_list=[...])
        # ...
        batch_time = time.time() - end
        end = time.time()
        batch_id += 1
except fluid.core.EOFException:
    train_py_reader.reset()

用户首先需要通过fluid.layers.py_reader定义py_reader对象，并使用 read_file() 方法从py_reader中获取模型的输入，然后根据输入构建模型，再然后用decorate_paddle_reader将自定义的Reader与py_reader绑定。在训练开始之前，通过调用start()方法来启动数据读取。在数据读取结束之后，executor.run会抛出fluid.core.EOFException，表示训练已经遍历完Reader中的所有数据。采用异步数据读取时，Python端和C++端共同维护一个数据队列，Python端启动一个线程，负责向队列中插入数据，C++端在训练/预测过程中，从数据队列中获取数据，并将该数据从对队列中移除。用户可以在程序运行过程中，监测数据队列是否为空，如果队列始终不为空，表明数据准备的速度比模型执行的速度快，这种情况下数据读取可能不是瓶颈。另外，飞桨提供的一些FLAGS也能很好的帮助分析性能。如果用户希望评估一下在完全没有数据读取开销情况下模型的性能，可以设置一下环境变量：FLAGS_reader_queue_speed_test_mode，在该变量为True情况下，C++端从数据队列中获取数据之后，不会从数据队列中移除，这样能够保证数据队列始终不为空，从而避免了C++端读取数据时的等待开销。 需要特别注意的是，FLAGS_reader_queue_speed_test_mode只能在性能分析时打开，正常训练/预测模型时需要关闭。 为降低训练的整体时间，建议用户使用异步数据读取的方式，并开启 use_double_buffer=True 。用户可根据模型的实际情况设置数据队列的大小。如果数据准备的时间大于模型执行的时间，或者出现了数据队列为空的情况，就需要考虑对数据读取Reader进行加速。常用的方法是使用多进程准备数据，可以参考 https://github.com/PaddlePaddle/models/blob/develop/PaddleCV/yolov3/reader.py 更多异步数据读取的介绍请参考： https://www.paddlepaddle.org.cn/documentation/docs/en/1.5/user_guides/howto/prepare_data/use_py_reader_en.html

3. 模型训练相关优化

3.1 飞桨的执行器介绍

目前Python API中，飞桨提供了fluid.compiler.CompiledProgram 的概念，用户可以通过CompiledProgram将传入的program(飞桨中的网络模型)进行编译，如果希望采用数据并行模式训练，只需要将CompiledProgram返回的对象调用一下with_data_parallel即可，最后统一通过executor.run(…)执行compiled_program。虽然统一通过executor.run(…)接口来执行，实际底层的执行策略有两种，对应C++部分的两个执行器，即Executor和ParallelExecutor，如果用户采用数据并行模式，C++部分使用的是ParallelExecutor，除此之外都是使用Executor。这两个执行器的差别：

执行器	执行对象	执行策略
Executor	Program	根据 Program 中Operator定义的先后顺序依次运行
ParallelExecutor	SSA Graph	根据Graph中各个节点之间的依赖关系，通过多线程运行

可以看出，Executor的内部逻辑非常简单，但性能可能会弱一些，因为Executor对于program中的操作是串行执行的。而Parallel Executor首先会将program转变为计算图,并分析计算图中节点间的连接关系，对图中没有相互依赖的节点（OP），通过多线程并行执行。因此，Executor是一个轻量级的执行器，目前主要用于参数初始化、模型保存、模型加载。Parallel Executor是Executor的升级版本，目前Parallel Executor主要用于模型训练，包括单机单卡、单机多卡以及多机多卡训练。 Parallel Executor执行计算图之前，可以对计算图进行一些优化，比如使计算图中的一些操作是In-place的、将计算图中的参数更新操作进行融合等。用户还可以调整Parallel Executor执行过程中的一些配置，比如执行计算图的线程数等。这些配置分别是构建策略（BuildStrategy）和执行策略（ExecutionStrategy）参数来设置的。一个简单的使用示例如下：

build_strategy = fluid.BuildStrategy()build_strategy.enable_inplace = Truebuild_strategy.fuse_all_optimizer_ops=Trueexec_strategy = fluid.ExecutionStrategy() exec_strategy.num_threads = 4train_program = fluid.compiler.CompiledProgram(main_program).with_data_parallel(                loss_name=loss.name,                build_strategy=build_strategy,                exec_strategy=exec_strategy)place = fluid.CUDAPlace(0)exe = Executor(place)# 使用py_reader读取数据，因此执行时不需要feedfetch_outs = exe.run(train_program, fetch_list=[loss.name],)
build_strategy.fuse_all_optimizer_ops=True

exec_strategy = fluid.ExecutionStrategy() 
exec_strategy.num_threads = 4

train_program = fluid.compiler.CompiledProgram(main_program).with_data_parallel(
                loss_name=loss.name,
                build_strategy=build_strategy,
                exec_strategy=exec_strategy)

place = fluid.CUDAPlace(0)
exe = Executor(place)
# 使用py_reader读取数据，因此执行时不需要feed
fetch_outs = exe.run(train_program, fetch_list=[loss.name],)

更多关于Parallel Executor的介绍请参考： https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/api_guides/low_level/parallel_executor.html
更多关于CompiledProgram的介绍请参考： https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/api_guides/low_level/compiled_program.html

3.2 构建策略（BuildStrategy）配置参数介绍

BuildStrategy中提供了一些关于计算图优化的策略，这些策略可以在不同程度上提升模型的训练速度，但是其中一些策略与模型的结构有关，比如fuse_all_optimizer_ops不支持sparse梯度，我们正在积极的完善这些策略，并在下一个版本将这些策略默认打开。
构建策略的详细介绍如下：

选项	类型	默认值	说明
reduce_strategy	fluid.BuildStrategy.ReduceStrategy	fluid.BuildStrategy.ReduceStrategy.AllReduce	使用数据并行训练模型时选用 AllReduce 模式训练还是 Reduce 模式训练。
enable_backward_optimizer_op_deps	bool	FALSE	在反向操作和参数更新操作之间添加依赖，保证在所有的反向操作都运行结束之后才开始运行参数更新操作。
fuse_all_optimizer_ops	bool	FALSE	对模型中的参数更新算法进行融合
fuse_all_reduce_ops	bool	FALSE	多卡训练时，将all_reduce 操作进行融合
fuse_relu_depthwise_conv	bool	FALSE	如果模型中存在relu和depthwise_conv操作，并且是连接的，即relu->depthwise_conv，将这两个操作合并为一个
fuse_broadcast_ops	bool	FALSE	在 Reduce 模式下，对最后的多个Broadcast操作融合为一个
mkldnn_enabled_op_types	list	{}	如果是CPU训练，可以用 mkldnn_enabled_op_types指明模型中的哪些操作可以使用mkldnn库，默认情况下，模型中用到的操作如果在飞桨目前支持的可以使用mkldnn库计算的列表中，这些操作都会调用mkldnn库的接口进行计算
debug_graphviz_path	str	“”	将Graph以graphviz格式输出到debug_graphviz_path所指定的文件

参数说明：
（1）关于 reduce_strategy ， Parallel Executor 对于数据并行支持两种参数更新模式：AllReduce 和 Reduce 。在 AllReduce 模式下，各个节点上计算得到梯度之后，调用 AllReduce 操作，梯度在各个节点上聚合，然后各个节点分别进行参数更新。在 Reduce 模式下，参数的更新操作被均匀的分配到各个节点上，即各个节点计算得到梯度之后，将梯度在指定的节点上进行 Reduce ，然后在该节点上进行参数的更新，最后将更新之后的参数Broadcast到其他节点。
即：如果模型中有100个参数需要更新，训练使用的节点数为4，在 AllReduce 模式下，各个节点需要分别对这100个参数进行更新；在 Reduce 模式下，各个节点需要分别对这25个参数进行更新，最后将更新的参数Broadcast到其他节点。注意：如果是使用CPU进行数据并行训练，在Reduce模式下，不同CPUPlace 上的参数是共享的，所以在各个CPUPlace 上完成参数更新之后不用将更新后的参数Broadcast到其他CPUPlace。
（2）关于 enable_backward_optimizer_op_deps ，在多卡训练时，打开该选项可能会提升训练速度。
（3）关于 fuse_all_optimizer_ops ，目前只支持SGD、Adam和Momentum算法。注意：目前不支持sparse参数梯度。
（4）关于 fuse_all_reduce_ops ，多GPU训练时，可以对 AllReduce 操作进行融合，以减少 AllReduce 的调用次数。默认情况下会将同一layer中参数的梯度的 AllReduce 操作合并成一个，比如对于 fluid.layers.fc 中有Weight和Bias两个参数，打开该选项之后，原本需要两次 AllReduce 操作，现在只用一次 AllReduce 操作。
此外，为支持更大粒度的参数梯度融合，飞桨提供了 FLAGS_fuse_parameter_memory_size 选项，用户可以指定融合AllReduce操作之后，每个 AllReduce 操作的梯度字节数，比如希望每次 AllReduce 调用传输64MB的梯度，export FLAGS_fuse_parameter_memory_size=64 。注意：目前不支持sparse参数梯度。
（5）关于 mkldnn_enabled_op_types ，目前飞桨的Op中可以使用mkldnn库计算的操作包括：transpose, sum, softmax, requantize, quantize, pool2d, lrn, gaussian_random, fc, dequantize, conv2d_transpose, conv2d, conv3d, concat, batch_norm, relu, tanh, sqrt, abs.

3.3 执行策略（ExecutionStrategy）配置参数介绍

ExecutionStrategy中提供了关于计算图执行时的一些配置，这些配置可能会影响模型的训练速度。同时，这些配置与模型的结构有关，如果用户希望模型训练速度更快，可以调整一下这些配置。在后续的优化中，我们会对这部分进行优化，根据输入模型结构动态调整这些设置。 ExecutionStrategy配置选项说明：

选项

类型

默认值

说明

num_iteration_per_drop_scope

INT

经过多少次迭代之后清理一次local execution scope

num_threads

INT

经验值：

对于CPU：2*dev_count；对于GPU：4*dev_count.

ParallelExecutor 中执行所有Op使用的线程池大小

参数说明：
（1）关于 num_iteration_per_drop_scope ，框架在运行过程中会产生一些临时变量，通常每经过一个batch就要清理一下临时变量，但是由于GPU是异步设备，在清理之前需要对所有的GPU调用一次同步操作，因此耗费的时间较长。为此我们在 execution_strategy 中添加了 num_iteration_per_drop_scope 选项。用户可以指定经过多少次迭代之后清理一次。
（2）关于 num_threads ，ParallelExecutor 根据OP之间的依赖关系确定OP的执行顺序，即：当OP的输入都已经变为ready状态之后，该OP会被放到一个队列中，等待被执行。ParallelExecutor 内部有一个任务调度线程和一个线程池，任务调度线程从队列中取出所有Ready的OP，并将其放到线程队列中。num_threads 表示线程池的大小。根据以往的经验，对于CPU任务，num_threads=2*dev_count 时性能较好，对于GPU任务，num_threads=4*dev_count 时性能较好。注意：线程池不是越大越好。

4. 运行时FLAGS设置优化

Fluid中有一些FLAGS可以有助于性能优化：

（1）FLAGS_cudnn_exhaustive_search表示在调用cuDNN中的卷积操作时，根据输入数据的shape等信息，采取穷举搜索的策略从算法库中选取到更快的卷积算法，进而实现对模型中卷积操作的加速。需要注意的是：
a. 在搜索算法过程中需要使用较多的显存，如果用户的模型中卷积操作较多，或者GPU卡显存较小，可能会出现显存不足问题。
b. 通过穷举搜索选择好算法之后，该算法会进入Cache，以便下次运行时，如果输入数据的shape等信息不变，直接使用Cache中算法。
（2）FLAGS_enable_cublas_tensor_op_math表示是否使用TensorCore加速cuBLAS等NV提供的库中的操作。需要注意的是，这个环境变量只在Tesla V100以及更新的GPU上适用，且可能会带来一定的精度损失，通常该损失不会影响模型的收敛性。

5.最佳实践（Best Practise）

（1）尽可能的使用飞桨提供的单个layer实现所需操作。（2）采用异步数据读取。（3）模型训练相关优化：
a. 使用ParallelExecutor作为底层执行器，代码示例：

compiled_prog = compiler.CompiledProgram(         fluid.default_main_program()).with_data_parallel(                  loss_name=loss.name)
                  loss_name=loss.name)

如果是单卡训练，也可以调用with_data_parallel方法。
b. 如果模型中参数的梯度都是非sparse的，可以打开fuse_all_optimizer_ops选项，将多个参数更新操作融合为一个。
c. 如果是多卡训练，可以打开enable_backward_optimizer_op_deps、fuse_all_reduce_ops选项。如果想指定每次每次AllReduce操作的数据大小，可以设置FLAGS_fuse_parameter_memory_size，比如 export FLAGS_fuse_parameter_memory_size=1，表示每次 AllReduce 调用传输1MB的梯度。
d. 使用CPU做数据并行训练时，推荐使用Reduce模型，因为在使用CPU进行数据并行训练时，在Reduce模式下，不同CPUPlace 上的参数是共享的，所以在各个CPUPlace 上完成参数更新之后不用将更新后的参数Broadcast到其他CPUPlace上，这对提升速度也有很大帮助。
e. 如果是Reduce模式，可打开fuse_broadcast_ops选项。
f. 如果用户的模型较小，比如mnist、language_model等，可以将num_threads设为1。
g. 在显存足够的前提下，建议将 exec_strategy.num_iteration_per_drop_scope 设置成一个较大的值，比如设置为100 ，这样可以避免反复地申请和释放内存。目前我们正在推进这些配置自动化的工作：即根据输入的模型结构自动配置这些选项，争取在下一个版本中实现，敬请期待。（4）FLAGS设置
FLAGS_cudnn_exhaustive_search = True FLAGS_enable_cublas_tensor_op_math = True

6.典型案例

不同的模型计算特征不同，最优运行时配置也就不尽相同。大体来说，主要是两种情况，第一种情况：模型组网OP数量少、OP的计算量大，常见的如ResNet、VGG模型，通过设置合适的batch_size，这类模型很容易就可以将最大限度的利用GPU计算资源，因此设置不同的执行器参数对总体速度影响可能不是很明显。第二种情况：模型由大量的计算量很小的OP组成，比如RNN模型，这类模型则需要用户通过实验来选择运行时参数的最佳配置。因此，我们以典型的语言模型（language model）为例，了解一下上述优化策略的实际效果。 6.1 LSTM language model原理介绍
飞桨提供了论文《Recurrent Neural Network Regularization》中基于LSTM循环神经网络（RNN）的language model的开源实现。相比于传统的语言模型方法，基于循环神经网络的语言模型方法能够更好地解决稀疏词的问题。该模型的目的是给定一个输入的词序列，预测下一个词出现的概率。模型中采用了序列任务常用的RNN网络，实现了一个两层的LSTM网络，然后使用LSTM的结果去预测下一个词出现的概率。由于数据的特殊性，每一个batch的last hidden和last cell会作为下一个batch的init hidden和init cell。

6.2 language_model单GPU训练性能优化效果
language_model中提供了4种RNN运行模式，分别为：static、padding、cudnn和lstm_basic。本案例中测试的为static模式。language_model中同样提供了small、medium、large三种模型配置，主要差别在于隐层的大小、RNN的步数、dropout比例上。我们对这个案例在模型配置、执行选项和数据读取三个方面都进行了优化，我们依次测试了如下优化版本的结果：

(1) Baseline版本

(2) 设置exec_strategy.num_threads = device_count

(3) 设置exec_strategy.num_iteration_per_drop_scope = 100

(4) 设置build_strategy.enable_inplace = True，build_strategy.memory_optimize = False

(5) 设置build_strategy.fuse_all_optimizer_ops = True

(6) 使用py_reader进行异步数据读取

(7) 配置优化

- reshape中设置inplace=True

- 使用split操作代替多次slice

优化前：

for index in range(len):      input = layers.slice(input_embedding, axes=[1], starts=[index], ends=[index + 1])       …index in range(len):
      input = layers.slice(input_embedding, axes=[1], starts=[index], ends=[index + 1])
       …

优化后：

sliced_inputs = layers.split(input_embedding, num_or_sections=len, dim=1)for index in range(len):      input = sliced_inputs[index]      ...len, dim=1)
for index in range(len):
      input = sliced_inputs[index]
      ...

- 减少reshape的次数

优化前：

for index in range(len):    …    res.append(layers.reshape(input, shape=[1, -1, hidden_size]))real_res = layers.concat(res, 0)real_res = layers.transpose(x=real_res, perm=[1, 0, 2])in range(len):
    …
    res.append(layers.reshape(input, shape=[1, -1, hidden_size]))
real_res = layers.concat(res, 0)
real_res = layers.transpose(x=real_res, perm=[1, 0, 2])

优化后：

for index in range(len):    …    res.append(input)real_res = layers.concat(res, 0)real_res = layers.reshape(real_res, shape=[len, -1, hidden_size], inplace=True)real_res = layers.transpose(x=real_res, perm=[1, 0, 2])
    res.append(input)
real_res = layers.concat(res, 0)
real_res = layers.reshape(real_res, shape=[len, -1, hidden_size], inplace=True)
real_res = layers.transpose(x=real_res, perm=[1, 0, 2])

经过7个版本的优化，small和large模型最终分别获得了1.64x和1.35x的加速。从实验结果可以看出，即使是类似的网络结构，调整运行参数产生加速效果也不同，如设置exec_strategy.num_threads = device_count，small模型获得了4.9%的加速，large模型只获得0.8%的加速。另外，异步数据读取对该模型总体训练时间的减少也不明显，主要是因为这个模型的所使用的PTB数据集很小，可以提前将所有数据读取到内存里，因此训练时，数据准备部分对整体时延的影响较小。
有兴趣的同学，可以加入官方QQ群，您将遇上大批志同道合的深度学习同学。官方QQ群： 432676488 。如果您想详细了解更多飞桨PaddlePaddle的相关内容，请点击文末阅读原文或参阅以下文档。官网地址： https://www.paddlepaddle.org.cn
本文提到的项目地址：

模型名称		项目地址
模型名称		项目地址	1	DeepLab V3+	https://github.com/PaddlePaddle/models/tree/v1.5/PaddleCV/deeplabv3%2B
2	YOLOv3	https://github.com/PaddlePaddle/models/tree/v1.5/PaddleCV/yolov3
3	BERT	https://github.com/PaddlePaddle/ERNIE
4	Mask-RCNN	https://github.com/PaddlePaddle/models/tree/v1.5/PaddleCV/rcnn
5	CycleGAN	https://github.com/PaddlePaddle/models/tree/v1.5/PaddleCV/PaddleGAN/cycle_gan
6	SE-ResNeXt50	https://github.com/PaddlePaddle/models/tree/v1.5/PaddleCV/image_classification
7	Transformer	https://github.com/PaddlePaddle/models/tree/v1.5/PaddleNLP/models/neural_machine_translation/transformer

你可能感兴趣的:(5大典型模型测试单机训练速度超对标框架，飞桨如何做到？)

人工智能前沿技术进展与应用前景探究戒了9 搜索引擎
一、引言1.1研究背景与意义人工智能作为一门极具变革性的前沿技术，正深刻地改变着人类社会的各个层面。从其诞生之初，人工智能便承载着人类对智能机器的无限遐想与探索。自20世纪中叶起，人工智能踏上了它的发展征程，历经了多个重要阶段，每一阶段都伴随着理论的突破、技术的革新以及应用领域的拓展。在初级阶段（1943-1956），沃伦・麦卡洛克和沃尔特・皮茨提出的人工神经网络基本模型，为人工智能的发展奠定了初
2025年React前端路线图：从初级到高级
2025年React前端路线图：从初级到高级原文链接：2025ReactFrontendRoadmap:BeginnertoSeniorLevel作者：tak089译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！1.初级（入门级）目标：
基于Python的多元医疗知识图谱构建与应用研究（下） Allen_LVyingbo 医疗高效编程研发 python python 知识图谱健康医疗
五、基于医疗知识图谱的医疗知识图谱程序构建5.1数据层构建5.1.1数据源选择与获取在构建基于医疗知识图谱的医疗知识图谱数据层时，数据源的选择与获取至关重要。数据源的质量和丰富度直接决定了知识图谱的可靠性和实用性。医学文献是重要的数据源之一，包括学术期刊论文、医学研究报告等。这些文献包含了大量经过科学验证的医学知识，如疾病的发病机制、诊断标准、治疗方法等。可以通过专业的医学文献数据库，如PubMe
Typesrcipt泛型约束详细解读黑码小帅自己总结前端 javascript vue.js typescript vue jquery react.js
代码示例：//如果我们直接对一个泛型参数取length属性,会报错,因为这个泛型根本就不知道它有这个属性(()=>{//定义一个接口,用来约束将来的某个类型中必须要有length这个属性interfaceILength{//接口中有一个属性lengthlength:number}functiongetLength(x:T):number{returnx.length}console.log(get
tcp/ip协议和ip协议，tcp/ip协议 ip协议 zzyh123456 tcp/ip 网络智能路由器
TCP/IP协议和IP协议在网络通信中扮演着重要的角色，它们之间既有联系又有区别。以下是对两者的详细解释：TCP/IP协议定义：TCP/IP协议（TransmissionControlProtocol/InternetProtocol）是网络通信协议的一种，也被称为“Internet协议”，是Internet上运行的基本协议，是Internet上使用的最为广泛的协议。它定义了电子设备如何连入因特网
如何在Next.js使用Blitz.js的功能
如何在Next.js使用Blitz.js的功能前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！@blitzjs/next@blitzjs/next适配器公开了特定于Next.js框架的函数和组件。概览@blitzjs/next适配器公开了特定于Next
REST风格（SPRINGBOOT框架）一只藏羚吖 SPRINGBOOT框架 java spring boot
目录一、核心概念二、主要特点三、优点四、缺点五、应用实例1.添加SpringBootStarterWeb依赖2.创建RESTful控制器3.配置和测试4.部署和运行REST（RepresentationalStateTransfer）风格是一种针对网络应用设计和开发的架构风格，它强调资源的表示、无状态通信以及统一接口，它定义了一种在网络上创建、读取、更新和删除资源（通常指数据）的方式。以下从多个方
探索 Meissonic：文本到图像生成的新星 zhangjiaofa 大模型文生图大模型 Meissonic
目录前言模型概述主要功能技术架构应用场景在线体验本地部署克隆存储库创建虚拟环境安装扩散器启动GradioWeb用户界面文本到图像生成结语项目地址一、前言在人工智能迅猛发展的今天，文本到图像生成技术已成为科技前沿的热点。从艺术创作到商业设计，从学术研究到工业应用，这一技术正以惊人的速度改变着我们与数字内容的交互方式。众多研究机构和企业纷纷投入这一领域，不断推动技术的边界。然而，尽管已有许多优秀的模型
独立&安全 | 企业选择系统定制化开发的最主要优势编辑器
随着信息化和互联网的迅猛发展，网络经济给企业带来了巨大的好处。越来越多的企业选择利用第三方平台来建设网店系统，这也导致竞争变得越来越激烈。另一方面，选择定制开发独立商城对企业也有很多好处。这些好处包括以下几点：1.独特性：独立商城的定制开发使得企业的网店与众不同，拥有自己独一无二的风格和特色。这有助于企业在激烈的市场竞争中脱颖而出，并树立自己的品牌形象。2.灵活性：定制开发的独立商城可以根据企业的
餐饮行业如何做私域流量，这里有妙招（建议收藏） javascript
在数字化浪潮下，餐饮行业的竞争愈发激烈。私域流量的构建和管理成为企业提升品牌影响力、增强客户黏性、提高营业额的重要途径。而数据作为21世纪的“石油”，其价值在私域流量的运营中更是不可忽视。本文将重点探讨如何从挖掘数据价值的角度，助力餐饮企业做好私域流量。一、数据驱动的客户洞察数据是了解客户需求、喜好和消费习惯的窗口。通过收集和分析客户的行为数据、消费数据、反馈数据等，企业可以构建更精准的客户画像，
使用 @NoRepositoryBean 简化数据库访问 java后端
在SpringDataJPA应用程序中管理跨多个存储库接口的数据库访问逻辑可能会变得乏味且容易出错。开发人员经常发现自己为常见查询和方法重复代码，从而导致维护挑战和代码冗余。幸运的是，SpringDataJPA为这个问题提供了一个强大的解决方案：@NoRepositoryBean注解。在本文中，我们将探讨@NoRepositoryBean如何允许我们在超级接口中定义通用查询和方法，然后可以由所有基
咱们一起学 LINUX（六）：揭秘内核文件表的实现机制 lilye66 咱们一起学习LINUX linux 运维服务器
咱们一起学LINUX（六）：揭秘内核文件表的实现机制在Linux知识的探索旅程中，我们不断深入挖掘其内部的奥秘。今天，我们将聚焦于内核文件表的实现，这是Linux文件管理体系中极为关键的一部分。我希望通过分享这些知识，能与大家共同进步，进一步提升对Linux系统的理解深度。一、内核文件表的核心结构剖析在Linux内核中，每个进程都有一个对应的task_struct结构体，而进程的文件表就保存在ta
JVM垃圾回收器的原理和调优详解！喵手零基础学Java jvm
全文目录：开篇语前言摘要概述垃圾回收器分类及原理1.Serial垃圾回收器2.Parallel垃圾回收器3.CMS垃圾回收器4.G1垃圾回收器源码解析示例代码使用案例分享案例1：Web服务的GC调优案例2：大数据任务的GC优化应用场景案例垃圾回收调优策略优缺点分析优点缺点核心类方法介绍测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/5
长三角国家算力枢纽节点赋能制造业数字化转型的机理与路径罗伯特之技术屋大数据与数字化的设计应用专栏人工智能
摘要长三角作为先进制造业最集聚、发展基础最雄厚、创新型经济最活跃和最具潜力的国家级创新策源地，“东数西算”工程中国家算力枢纽节点的建设，对加快推动长三角先进制造业实现升级转型具有重要意义。因此，结合当前制造业数字化转型过程中遇到的困境与问题，探寻长三角国家算力枢纽节点赋能制造业数字化转型的逻辑机理、现实挑战和实现路径，以期推动制造业转型升级和长三角区域一体化绿色高质量发展。关键词：东数西算;算力网
Spring注解篇：@RequestParam详解！喵手 Springboot spring java 后端
全文目录：开篇语前言摘要概述源码解析使用案例分享应用场景案例优缺点分析核心类方法介绍测试用例测试用例分析使用场景优缺点分析测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一个人虽可以走的更快，但一群人可以走的更远。
超强、超详细Redis入门教程：从基础到实战！喵手数据库 redis 数据库缓存
全文目录：开篇语前言：Redis——现代应用的灵魂目录什么是Redis？Redis的常见应用场景Redis的安装与环境配置1.Linux环境下安装2.MacOS环境下安装3.Windows环境下安装Redis核心数据结构剖析字符串（String）哈希（Hash）列表（List）️集合（Set）与有序集合（SortedSet）⚙️Redis的持久化机制Redis的高可用架构（主从复制与哨兵模式）Re
深度解析：MyBatis-Plus实现分页查询的封装！喵手零基础学Java mybatis
全文目录：开篇语前言摘要概述什么是分页查询？为什么选择MyBatis-Plus？本文目标源码解析分页插件核心逻辑使用案例分享1.配置MyBatis-Plus分页插件2.定义分页查询方法3.Controller层调用应用场景案例优缺点分析优点缺点核心类方法介绍测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛
链表与数组-选择合适的数据结构进行高效存储一键难忘算法之翼链表与数组算法数据结构
链表与数组-选择合适的数据结构进行高效存储在编程和算法的学习中，链表和数组是两种常见且基础的数据结构。它们各自有着独特的优势和劣势，选择合适的数据结构对于提升程序的性能至关重要。本文将深入探讨链表与数组的特性、应用场景以及如何根据具体需求选择合适的数据结构。一、数据结构概述1.1数组数组是一种线性数据结构，通常用于存储固定大小的相同类型的元素。数组在内存中是连续分布的，每个元素都有一个固定的索引，
python识别复杂验证码2020_python 验证码识别示例（二）复杂验证码识别 y921112y921112
在这篇博文中手把手教你如何去分割验证，然后进行识别。一：下载验证码验证码分析，图片上有折线，验证码有数字，有英文字母大小写，分类的时候需要更多的样本，验证码的字母是彩色的，图片上有雪花等噪点，因此识别改验证码难度较大二：二值化和降噪：三：切割：四：分类：五：测试识别率六：总结：综合识别率在70%左右，对于这个识别率我觉得还是挺高的，因为这个验证码的识别难度还是很大代码：一.下载图片：#-*-cod
【Linux】强大的文本编辑器vim Errol_King Linux从入门到接着入门 linux vim
文章目录vi与vim简介正常模式进入输入模式i/I/a/A/o/O光标移动复制、粘贴、剪切撤销其他命令模式保存、退出查找、替换设置vim可视模式vi与vim简介vi编辑器是所有Unix及Linux系统下标准的编辑器，就相当于windows系统中的记事本一样，它的强大不逊色于任何最新的文本编辑器。是我们使用Linux系统不能缺少的工具。由于对Unix及Linux系统的任何版本，vi编辑器是完全相同的
系统架构设计中的非功能需求分析与设计 Evaporator Core 系统架构设计师 Oracle Python开发经验系统架构需求分析
引言在系统架构设计中，非功能需求（Non-FunctionalRequirements,NFRs）与功能需求同样重要。非功能需求定义了系统的质量属性，如性能、可用性、安全性、可扩展性等。这些需求虽然不直接描述系统的功能，但它们对系统的成功与否起着决定性作用。本文将深入探讨非功能需求的分析与设计方法，帮助读者理解如何在系统架构设计中有效地处理非功能需求。第一章：非功能需求的分类与重要性非功能需求通常
SpringAI基于API对大语言模型调用 _沉浮_ AI 语言模型人工智能 springAI
引言随着人工智能技术的迅猛发展，大型语言模型（LLM）在各个领域的应用越来越广泛。SpringAI作为一个旨在简化AI集成的框架，为开发者提供了高效、便捷的工具来连接和调用这些大模型。本文将详细探讨如何使用SpringAI整合通义千问等大语言模型，并通过实例演示这一过程，最后提供一些扩展建议。一、SpringAI简介SpringAI是一个专为AI工程设计的应用框架，旨在将Spring生态系统设计原
JavaFX - 文本遗憾皆是温柔 JavaFX学习区学习 java 开发语言 ide
JavaFX应用程序可以包含许多元素，包括各种媒体，如图像、视频、GIF和所有维度的形状、文本等。这是为了提高应用程序的用户体验质量。所有这些元素都由JavaFX场景图上的节点表示。在本章中，我们将学习如何使用JavaFX在应用程序上显示Text节点。JavaFXText节点JavaFX中的文本节点由名为Text的类表示，该类属于包javafx.scene.text。此类包含多个属性，用于在Jav
自定义数据集使用框架的线性回归方法对其进行拟合〖是♂我〗线性回归算法回归
代码：#导入必要的库importtorchimportnumpyasnpimportmatplotlib.pyplotasplt#定义数据集：二维数据，其中第一列是特征x，第二列是目标值ydata=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1.8,-49.1],[1.5,75.6],[0.4,3
12、数据系统内置功能（字符串、数组、时间、Math、遍历器、对象成员检测、Object静态方法、对象序列化、正则表达式）爱喝牛奶~ javascript 开发语言 ecmascript
目录12.1字符串12.1.1特效标签12.1.2字符串截子串12.2数组12.3时间12.4Math12.5遍历器1、for循环2、forin循环（es5的技术）3、while循环4、do-while循环5、ArrayforEach循环6、Arraymap()方法7、Arrayfilter()方法8、Arraysome()方法10、Arrayreduce()方法11、ArrayreduceRig
C++程序设计题解：日期排序小朋友爱学习我的算法题解 c++程序设计
C++程序设计题解：日期排序题目描述：有一些日期，日期格式为“MM/DD/YYYY”。编程将其按日期大小排列。样例输入：12/31/200510/21/200302/12/200410/22/200311/30/200515/12/1999样例输出：15/12/199910/21/200310/22/200302/12/200411/30/200512/31/2005我的代码:#includeus
从日程安排到区间合并：探索合并区间问题｜LeetCode 56 合并区间忍者算法_ leetcode 算法职场和发展面试跳槽
LeetCode56合并区间点此看全部题解LeetCode必刷100题：一份来自面试官的算法地图（题解持续更新中）更多干货，请关注公众号【忍者算法】，回复【刷题清单】获取完整题解目录～生活中的算法想象你是一位活动策划师，桌上摆着许多便利贴，每张写着不同的活动时间段：9:00-11:00的晨会、10:30-12:00的培训、14:00-16:00的项目汇报、15:00-17:00的团队建设…有些活动
使用 PyTorch 实现逻辑回归：从数据到模型保存与加载弥树子 pytorch 逻辑回归人工智能
在机器学习中，逻辑回归是一种经典的分类算法，广泛应用于二分类问题。本文将通过一个简单的示例，展示如何使用PyTorch框架实现逻辑回归模型，从数据准备到模型训练、保存和加载，最后进行预测。1.数据准备逻辑回归的核心是通过学习数据中的特征与标签之间的关系来进行分类。在本示例中，我们手动创建了一个简单的二维数据集，包含两类数据点。第一类数据点的标签为0，第二类数据点的标签为1。class1_point
[网络通信原理]——OSI模型与TCP/IP模型牛逼的路上跑了一半计算机网络 tcp/ip 网络网络协议运维语言模型
前言在计算机网络领域中，OSI7层模型和TCP/IP模型是两个重要的概念。本文将对这两个模型进行介绍和比较，让大家了解它们的区别和联系。OSI模型与TCP/IP模型前言一、OSI模型1、OSI模型是什么？2、OSI七层模型二、TCP/IP模型三、OSI七层模型与TCP/IP模型的区别总结一、OSI模型1、OSI模型是什么？OSI(OpenSystemInterconnection)参考模型是国际标
银河麒麟--aarch64 编译安装Qt5.9.9+QtCreator4.8.2 mastlw 学习记录 qt 开发语言 arm kylin
银河麒麟aarch64编译安装Qt5.9.9+QtCreator4.8.21.Qt5.9.9编译安装1.1下载Qt5.9.9源码1.2确保系统中g++,gcc,python,perl及环境符合安装要求1.3编译与安装2.QtCreator编译安装2.1下载Qt-Creator-4.8.2源码2.2编译与安装1.Qt5.9.9编译安装目前在银河麒麟V10arm处理器下编译安装后可用的最高版本是Qt5
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一