都督美州诸军事

keras之父《python深度学习》笔记第七章

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

keras高级功能实践

前言
一、Keras 函数式API
- 1.Sequential 模型的局限性
- 2.函数式API 简介
- 3.多输出模型
- 4.层组成的有向无环图
- 5.共享层权重
- 6.将模型作为层
二、使用Keras 回调函数和TensorBoard 来检查并监控深度学习模型
- 1.训练过程中将回调函数作用于模型
- 2.TensorBoard 简介：TensorFlow 的可视化框架
三、让模型性能发挥到极致
- 1.高级架构模式
- 2.超参数优化
- 3.模型集成
总结

前言

本章将介绍几种强大的工具，可以让你朝着针对困难问题来开发最先进模型这一目标更近
一步。利用Keras 函数式API，你可以构建类图（graph-like）模型、在不同的输入之间共享某一层，
并且还可以像使用Python 函数一样使用Keras 模型。Keras 回调函数和TensorBoard 基于浏览器
的可视化工具，让你可以在训练过程中监控模型。我们还会讨论其他几种最佳实践，包括批标
准化、残差连接、超参数优化和模型集成。。

一、Keras 函数式API

1.Sequential 模型的局限性

本书之前的例子都是用Sequential 模型实现的，基本是就是简单的堆叠层，而且网络只有一个输入输出。

对于普通的常见的问题，这种模型是可以处理的。但是有些任务需要多个输入、多个输出。或者网络层与层之间有分支，这种网络更像是层构成的图，而不是层的线性堆叠。

很常见的例子，有些任务是多模态输入，可能有多个数据源。比如预测一件衣服的价格，可能的数据源有商品本身的元数据（商品品牌、使用年限）、用户的文字描述以及衣服照片。元数据可以onehot之后用全连接神经网络处理，文本描述可以用循环神经网络或者一维卷积网络处理。而图像可以用二维卷积网络来处理。而这三个数据源同时处理的话，可能就需要联合学习，三个输入分支训练一个新的模型。

同样，有些任务需要预测输入数据的多个目标属性。给定一部小说的文本，你可能希望将
它按类别自动分类（比如爱情小说或惊悚小说），同时还希望预测其大致的写作日期。当然，你
可以训练两个独立的模型：一个用于划分类别，一个用于预测日期。但由于这些属性并不是统
计无关的，你可以构建一个更好的模型，用这个模型来学习同时预测类别和日期。这种联合模
型将有两个输出，或者说两个头（head）。因为类别和日期之间具有相关性，所以知
道小说的写作日期有助于模型在小说类别的空间中学到丰富而又准确的表示，反之亦然。

此外，许多最新开发的神经架构要求非线性的网络拓扑结构，即网络结构为有向无环图。
比如，Inception 系列网络（由Google 的Szegedy 等人开发）依赖于Inception 模块，其输入被
多个并行的卷积分支所处理，然后将这些分支的输出合并为单个张量。最近还有一种趋势是向模型中添加残差连接（residual connection），它最早出现于ResNet 系列网络（由微软的何恺明等人开发）。残差连接是将前面的输出张量与后面的输出张量相加，从而将前面的表示重新注入下游数据流中，这有助于防止信息处理流程中的信息损失。这种类图网络还有许多其他示例。

这三个重要的使用案例（多输入模型、多输出模型和类图模型），只用Keras 中的Sequential
模型类是无法实现的。但是还有另一种更加通用、更加灵活的使用Keras 的方式，就是函数式
API（functional API）。本节将会详细介绍函数式API 是什么、能做什么以及如何使用它。

2.函数式API 简介

使用函数式API，你可以直接操作张量，也可以把层当作函数来使用，接收张量并返回张
量（因此得名函数式API）。

from keras import Input, layers
input_tensor = Input(shape=(32,))
dense = layers.Dense(32, activation='relu')
output_tensor = dense(input_tensor)

我们首先来看一个最简单的示例，并列展示一个简单的Sequential 模型以及对应的函数
式API 实现。

from keras.models import Sequential, Model
from keras import layers
from keras import Input
seq_model = Sequential()
seq_model.add(layers.Dense(32, activation='relu', input_shape=(64,)))
seq_model.add(layers.Dense(32, activation='relu'))
seq_model.add(layers.Dense(10, activation='softmax'))
input_tensor = Input(shape=(64,))
x = layers.Dense(32, activation='relu')(input_tensor)
x = layers.Dense(32, activation='relu')(x)
output_tensor = layers.Dense(10, activation='softmax')(x)
model = Model(input_tensor, output_tensor)
model.summary()
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) (None, 64) 0
_________________________________________________________________
dense_1 (Dense) (None, 32) 2080
_________________________________________________________________
dense_2 (Dense) (None, 32) 1056
_________________________________________________________________

dense_3 (Dense) (None, 10) 330
=================================================================
Total params: 3,466
Trainable params: 3,466
Non-trainable params: 0
_________________________________________________________________

这里只有一点可能看起来有点神奇，就是将Model 对象实例化只用了一个输入张量和
一个输出张量。Keras 会在后台检索从input_tensor 到output_tensor 所包含的每一层，
并将这些层组合成一个类图的数据结构，即一个Model。当然，这种方法有效的原因在于，
output_tensor 是通过对input_tensor 进行多次变换得到的。如果你试图利用不相关的输
入和输出来构建一个模型，那么会得到RuntimeError。

>>> unrelated_input = Input(shape=(32,))
>>> bad_model = model = Model(unrelated_input, output_tensor)
RuntimeError: Graph disconnected: cannot
obtain value for tensor Tensor("input_1:0", shape=(?, 64), dtype=float32) at layer
"input_1".

这个报错告诉我们，Keras 无法从给定的输出张量到达input_1。
对这种Model 实例进行编译、训练或评估时，其API 与Sequential 模型相同。

model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
import numpy as np
x_train = np.random.random((1000, 64))
y_train = np.random.random((1000, 10))
model.fit(x_train, y_train, epochs=10, batch_size=128)
score = model.evaluate(x_train, y_train)

函数式API 可用于构建具有多个输入的模型。通常情况下，这种模型会在某一时刻用一个
可以组合多个张量的层将不同的输入分支合并，张量组合方式可能是相加、连接等。这通常利
用Keras 的合并运算来实现，比如keras.layers.add、keras.layers.concatenate 等。
我们来看一个非常简单的多输入模型示例——一个问答模型。
典型的问答模型有两个输入：一个自然语言描述的问题和一个文本片段（比如新闻文章），
后者提供用于回答问题的信息。然后模型要生成一个回答，在最简单的情况下，这个回答只包
含一个词，可以通过对某个预定义的词表做softmax 得到

接下来我们将用函数式API给上图任务构建模型。我们设置两个分支，将文本和问题输入，然后使用文本向量化进行编码，经过处理最后用一个softmax分类器。

from keras.models import Model
from keras import layers
from keras import Input
text_vocabulary_size = 10000
question_vocabulary_size = 10000
answer_vocabulary_size = 500
text_input = Input(shape=(None,), dtype='int32', name='text')
embedded_text = layers.Embedding(
text_vocabulary_size, 64)(text_input)
encoded_text = layers.LSTM(32)(embedded_text)
question_input = Input(shape=(None,),
dtype='int32',
name='question')
embedded_question = layers.Embedding(
question_vocabulary_size, 32)(question_input)
encoded_question = layers.LSTM(16)(embedded_question)
concatenated = layers.concatenate([encoded_text, encoded_question],
axis=-1)
answer = layers.Dense(answer_vocabulary_size,
activation='softmax')(concatenated)
model = Model([text_input, question_input], answer)
model.compile(optimizer='rmsprop',
loss='categorical_crossentropy',
metrics=['acc'])

接下来要如何训练这个双输入模型呢？有两个可用的API：我们可以向模型输入一个由
Numpy 数组组成的列表，或者也可以输入一个将输入名称映射为Numpy 数组的字典。当然，
只有输入具有名称时才能使用后一种方法。

import numpy as np
num_samples = 1000
max_length = 100
text = np.random.randint(1, text_vocabulary_size,
size=(num_samples, max_length))
question = np.random.randint(1, question_vocabulary_size,
size=(num_samples, max_length))
answers = np.random.randint(answer_vocabulary_size, size=(num_samples))
answers = keras.utils.to_categorical(answers, answer_vocabulary_size)
model.fit([text, question], answers, epochs=10, batch_size=128)
model.fit({
     'text': text, 'question': question}, answers,
epochs=10, batch_size=128)

3.多输出模型

利用同样的操作，我们也可以构建多输出模型。一个简单的例子就是用神经网络来预测一个对象的多重属性。比如输入某位人士的社交媒体发帖，然后用神经网络去预测这个人的一些属性：比如年龄、性别和收入水平。

from keras import layers
from keras import Input
from keras.models import Model
vocabulary_size = 50000
num_income_groups = 10
posts_input = Input(shape=(None,), dtype='int32', name='posts')
embedded_posts = layers.Embedding(256, vocabulary_size)(posts_input)
x = layers.Conv1D(128, 5, activation='relu')(embedded_posts)
x = layers.MaxPooling1D(5)(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.MaxPooling1D(5)(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.GlobalMaxPooling1D()(x)
x = layers.Dense(128, activation='relu')(x)
age_prediction = layers.Dense(1, name='age')(x)
income_prediction = layers.Dense(num_income_groups,
activation='softmax',
name='income')(x)
gender_prediction = layers.Dense(1, activation='sigmoid', name='gender')(x)
model = Model(posts_input,
[age_prediction, income_prediction, gender_prediction])

对于多输出问题要指定多个损失函数，根据不同任务的特点来确定。下面两种方式都可以，由于梯度下降问题是要求标量最小化，所以为了满足要求我们将这些损失求和，然后就可以得到一个损失，我们训练的目标就是把这个损失最小化。

model.compile(optimizer='rmsprop',
loss=['mse', 'categorical_crossentropy', 'binary_crossentropy'])
model.compile(optimizer='rmsprop',
loss={
     'age': 'mse',
'income': 'categorical_crossentropy',
'gender': 'binary_crossentropy'})

直接相加是一种简单粗暴的处理。因为每个任务的损失值取值范围可能不一样，在keras中多任务可以给定各自的取值范围。比如年龄回归的均方误差通常为3~5，性别的MSE损失只有0.1，为了平衡不同损失的贡献，我们让交叉熵的损失权重为10，而MSE的权重为0.5。

model.compile(optimizer='rmsprop',
loss=['mse', 'categorical_crossentropy', 'binary_crossentropy'],
loss_weights=[0.25, 1., 10.])
model.compile(optimizer='rmsprop',
loss={
     'age': 'mse',
'income': 'categorical_crossentropy',
'gender': 'binary_crossentropy'},
loss_weights={
     'age': 0.25,
'income': 1.,
'gender': 10.})

model.fit(posts, [age_targets, income_targets, gender_targets],
epochs=10, batch_size=64)
model.fit(posts, {
     'age': age_targets,
'income': income_targets,
'gender': gender_targets},
epochs=10, batch_size=64)

4.层组成的有向无环图

利用函数式API，我们不仅可以构建多输入和多输出的模型，而且还可以实现具有复杂
的内部拓扑结构的网络。Keras 中的神经网络可以是层组成的任意有向无环图（directed acyclic
graph）。无环（acyclic）这个限定词很重要，即这些图不能有循环。张量x 不能成为生成x 的
某一层的输入。唯一允许的处理循环（即循环连接）是循环层的内部循环。
一些常见的神经网络组件都以图的形式实现。两个著名的组件是Inception 模块和残差连接。
为了更好地理解如何使用函数式API 来构建层组成的图，我们来看一下如何用Keras 实现这二者。

（1）Inception 模块
Inception 是一种流行的卷积神经网络的架构类型，它由Google 的Christian Szegedy 及其
同事在2013—2014 年开发，其灵感来源于早期的network-in-network 架构。它是模块的堆叠，
这些模块本身看起来像是小型的独立网络，被分为多个并行分支。Inception 模块最基本的形式
包含3~4 个分支，首先是一个1×1 的卷积，然后是一个3×3 的卷积，最后将所得到的特征连
接在一起。这种设置有助于网络分别学习空间特征和逐通道的特征，这比联合学习这两种特征更
加有效。Inception 模块也可能具有更复杂的形式，通常会包含池化运算、不同尺寸的空间卷积
（比如在某些分支上使用5×5 的卷积代替3×3 的卷积）和不包含空间卷积的分支（只有一个
1×1 卷积）。下图给出这种模型的结构示例：

from keras import layers
branch_a = layers.Conv2D(128, 1,
activation='relu', strides=2)(x)
branch_b = layers.Conv2D(128, 1, activation='relu')(x)
branch_b = layers.Conv2D(128, 3, activation='relu', strides=2)(branch_b)
branch_c = layers.AveragePooling2D(3, strides=2)(x)
branch_c = layers.Conv2D(128, 3, activation='relu')(branch_c)
branch_d = layers.Conv2D(128, 1, activation='relu')(x)
branch_d = layers.Conv2D(128, 3, activation='relu')(branch_d)
branch_d = layers.Conv2D(128, 3, activation='relu', strides=2)(branch_d)
output = layers.concatenate(
[branch_a, branch_b, branch_c, branch_d], axis=-1)

注意，完整的Inception V3架构内置于Keras中，位置在keras.applications.inception_v3.
InceptionV3，其中包括在ImageNet 数据集上预训练得到的权重。与其密切相关的另一个模
型是Xception，它也是Keras 的applications 模块的一部分。Xception 代表极端Inception
（extreme inception），它是一种卷积神经网络架构，其灵感可能来自于Inception。Xception 将分别进行通道特征学习与空间特征学习的想法推向逻辑上的极端，并将Inception 模块替换为深度
可分离卷积，其中包括一个逐深度卷积（即一个空间卷积，分别对每个输入通道进行处理）和
后面的一个逐点卷积（即一个1×1 卷积）。这个深度可分离卷积实际上是Inception 模块的一种
极端形式，其空间特征和通道特征被完全分离。Xception 的参数个数与Inception V3 大致相同，
但因为它对模型参数的使用更加高效，所以在ImageNet 以及其他大规模数据集上的运行性能更
好，精度也更高。

（2）残差连接

残差连接（residual connection）是一种常见的类图网络组件，在2015 年之后的许多网络架构
（包括Xception）中都可以见到。2015 年末，来自微软的何恺明等人在ILSVRC ImageNet 挑战赛
中获胜b，其中引入了这一方法。残差连接解决了困扰所有大规模深度学习模型的两个共性问题：
梯度消失和表示瓶颈。通常来说，向任何多于10 层的模型中添加残差连接，都可能会有所帮助。
残差连接是让前面某层的输出作为后面某层的输入，从而在序列网络中有效地创造了一条
捷径。前面层的输出没有与后面层的激活连接在一起，而是与后面层的激活相加（这里假设两
个激活的形状相同）。如果它们的形状不同，我们可以用一个线性变换将前面层的激活改变成目
标形状（例如，这个线性变换可以是不带激活的Dense 层；对于卷积特征图，可以是不带激活
1×1 卷积）。
如果特征图的尺寸相同，在Keras 中实现残差连接的方法如下，用的是恒等残差连接（identity
residual connection）。这个例子假设我们有一个四维输入张量x。

from keras import layers
x = ...
y = layers.Conv2D(128, 3, activation='relu', padding='same')(x)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.add([y, x])

如果特征图的尺寸不同，实现残差连接的方法如下，用的是线性残差连接（linear residual
connection）。同样，假设我们有一个四维输入张量x。

from keras import layers
x = ...
y = layers.Conv2D(128, 3, activation='relu', padding='same')(x)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.MaxPooling2D(2, strides=2)(y)
residual = layers.Conv2D(128, 1, strides=2, padding='same')(x)
y = layers.add([y, residual])

5.共享层权重

函数式API 还有一个重要特性，那就是能够多次重复使用一个层实例。如果你对一个层实
例调用两次，而不是每次调用都实例化一个新层，那么每次调用可以重复使用相同的权重。这
样你可以构建具有共享分支的模型，即几个分支全都共享相同的知识并执行相同的运算。也就
是说，这些分支共享相同的表示，并同时对不同的输入集合学习这些表示。
举个例子，假设一个模型想要评估两个句子之间的语义相似度。这个模型有两个输入（需
要比较的两个句子），并输出一个范围在0~1 的分数，0 表示两个句子毫不相关，1 表示两个句
子完全相同或只是换一种表述。这种模型在许多应用中都很有用，其中包括在对话系统中删除
重复的自然语言查询。
在这种设置下，两个输入句子是可以互换的，因为语义相似度是一种对称关系，A 相对
于B 的相似度等于B 相对于A 的相似度。因此，学习两个单独的模型来分别处理两个输入句
子是没有道理的。相反，你需要用一个LSTM 层来处理两个句子。这个LSTM 层的表示（即它
的权重）是同时基于两个输入来学习的。我们将其称为连体LSTM（Siamese LSTM）或共享
LSTM（shared LSTM）模型。
使用Keras 函数式API 中的层共享（层重复使用）可以实现这样的模型，其代码如下所示。

from keras import layers
from keras import Input
from keras.models import Model
lstm = layers.LSTM(32)
left_input = Input(shape=(None, 128))
left_output = lstm(left_input)
right_input = Input(shape=(None, 128))
right_output = lstm(right_input)
merged = layers.concatenate([left_output, right_output], axis=-1)
predictions = layers.Dense(1, activation='sigmoid')(merged)
model = Model([left_input, right_input], predictions)
model.fit([left_data, right_data], targets)

自然地，一个层实例可能被多次重复使用，它可以被调用任意多次，每次都重复使用一组
相同的权重。

6.将模型作为层

重要的是，在函数式API 中，可以像使用层一样使用模型。实际上，你可以将模型看作“更
大的层”。Sequential 类和Model 类都是如此。这意味着你可以在一个输入张量上调用模型，
并得到一个输出张量。
y = model(x)
如果模型具有多个输入张量和多个输出张量，那么应该用张量列表来调用模型。
y1, y2 = model([x1, x2])
在调用模型实例时，就是在重复使用模型的权重，正如在调用层实例时，就是在重复使用
层的权重。调用一个实例，无论是层实例还是模型实例，都会重复使用这个实例已经学到的表示，
这很直观。
通过重复使用模型实例可以构建一个简单的例子，就是一个使用双摄像头作为输入的视觉
模型：两个平行的摄像头，相距几厘米（一英寸）。这样的模型可以感知深度，这在很多应用中
都很有用。你不需要两个单独的模型从左右两个摄像头中分别提取视觉特征，然后再将二者合并。
这样的底层处理可以在两个输入之间共享，即通过共享层（使用相同的权重，从而共享相同的
表示）来实现。在Keras 中实现连体视觉模型（共享卷积基）的代码如下所示。

from keras import layers
from keras import applications
from keras import Input
xception_base = applications.Xception(weights=None,
include_top=False)
left_input = Input(shape=(250, 250, 3))
right_input = Input(shape=(250, 250, 3))
left_features = xception_base(left_input)
right_input = xception_base(right_input)
merged_features = layers.concatenate(
[left_features, right_input], axis=-1)

font color=#999AAA >示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、使用Keras 回调函数和TensorBoard 来检查并监控深度学习模型

本节将介绍在训练过程中如何更好地访问并控制模型内部过程的方法。使用model.fit()
或model.fit_generator() 在一个大型数据集上启动数十轮的训练，有点类似于扔一架纸飞
机，一开始给它一点推力，之后你便再也无法控制其飞行轨迹或着陆点。如果想要避免不好的
结果（并避免浪费纸飞机），更聪明的做法是不用纸飞机，而是用一架无人机，它可以感知其环
境，将数据发回给操纵者，并且能够基于当前状态自主航行。我们下面要介绍的技术，可以让
model.fit() 的调用从纸飞机变为智能的自主无人机，可以自我反省并动态地采取行动。

1.训练过程中将回调函数作用于模型

训练模型时，很多事情一开始都无法预测。尤其是你不知道需要多少轮才能得到最佳验证
损失。前面所有例子都采用这样一种策略：训练足够多的轮次，这时模型已经开始过拟合，根
据这第一次运行来确定训练所需要的正确轮数，然后使用这个最佳轮数从头开始再启动一次新
的训练。当然，这种方法很浪费。
处理这个问题的更好方法是，当观测到验证损失不再改善时就停止训练。这可以使用Keras
回调函数来实现。回调函数（callback）是在调用fit 时传入模型的一个对象（即实现特定方法
的类实例），它在训练过程中的不同时间点都会被模型调用。它可以访问关于模型状态与性能的
所有可用数据，还可以采取行动：中断训练、保存模型、加载一组不同的权重或改变模型的状态。
回调函数的一些用法示例如下所示。
模型检查点（model checkpointing）：在训练过程中的不同时间点保存模型的当前权重。
提前终止（early stopping）：如果验证损失不再改善，则中断训练（当然，同时保存在训
练过程中得到的最佳模型）。
在训练过程中动态调节某些参数值：比如优化器的学习率。
在训练过程中记录训练指标和验证指标，或将模型学到的表示可视化（这些表示也在不
断更新）：你熟悉的Keras 进度条就是一个回调函数！
keras.callbacks 模块包含许多内置的回调函数，下面列出了其中一些，但还有很多没
有列出来。
keras.callbacks.ModelCheckpoint
keras.callbacks.EarlyStopping
keras.callbacks.LearningRateScheduler
keras.callbacks.ReduceLROnPlateau
keras.callbacks.CSVLogger
下面介绍其中几个回调函数，让你了解如何使用它们：ModelCheckpoint、EarlyStopping
和ReduceLROnPlateau。

（1） ModelCheckpoint 与EarlyStopping 回调函数
如果监控的目标指标在设定的轮数内不再改善，可以用EarlyStopping 回调函数来中断
训练。比如，这个回调函数可以在刚开始过拟合的时候就中断训练，从而避免用更少的轮次重
新训练模型。这个回调函数通常与ModelCheckpoint 结合使用，后者可以在训练过程中持续
不断地保存模型（你也可以选择只保存目前的最佳模型，即一轮结束后具有最佳性能的模型）。

import keras
callbacks_list = [
keras.callbacks.EarlyStopping(
monitor='acc',
patience=1,
),
keras.callbacks.ModelCheckpoint(
filepath='my_model.h5',
monitor='val_loss',
save_best_only=True,
)
]
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['acc'])
model.fit(x, y,
epochs=10,
batch_size=32,
callbacks=callbacks_list,
validation_data=(x_val, y_val))

（2） ReduceLROnPlateau 回调函数
如果验证损失不再改善，你可以使用这个回调函数来降低学习率。在训练过程中如果出现
了损失平台（loss plateau），那么增大或减小学习率都是跳出局部最小值的有效策略。下面这个
示例使用了ReduceLROnPlateau 回调函数。

callbacks_list = [
keras.callbacks.ReduceLROnPlateau(
monitor='val_loss'
factor=0.1,
patience=10,
)
]
model.fit(x, y,
epochs=10,
batch_size=32,
callbacks=callbacks_list,
validation_data=(x_val, y_val))

（3）编写你自己的回调函数
如果你需要在训练过程中采取特定行动，而这项行动又没有包含在内置回调函数中，那么
可以编写你自己的回调函数。回调函数的实现方式是创建keras.callbacks.Callback 类的
子类。然后你可以实现下面这些方法（从名称中即可看出这些方法的作用），它们分别在训练过
程中的不同时间点被调用。

on_epoch_begin 在每轮开始时被调用
on_epoch_end 在每轮结束时被调用
on_batch_begin 在处理每个批量之前被调用
on_batch_end 在处理每个批量之后被调用
on_train_begin 在训练开始时被调用
on_train_end 在训练结束时被调用

这些方法被调用时都有一个logs 参数，这个参数是一个字典，里面包含前一个批量、前
一个轮次或前一次训练的信息，即训练指标和验证指标等。此外，回调函数还可以访问下列属性。
self.model：调用回调函数的模型实例。
self.validation_data：传入 fit作为验证数据的值。
下面是一个自定义回调函数的简单示例，它可以在每轮结束后将模型每层的激活保存到硬
盘（格式为Numpy 数组），这个激活是对验证集的第一个样本计算得到的。
下面是一个自定义回调函数的简单示例，它可以在每轮结束后将模型每层的激活保存到硬
盘（格式为Numpy 数组），这个激活是对验证集的第一个样本计算得到的。

import keras
import numpy as np
class ActivationLogger(keras.callbacks.Callback):
def set_model(self, model):
self.model = model
layer_outputs = [layer.output for layer in model.layers]
self.activations_model = keras.models.Model(model.input,
layer_outputs)
def on_epoch_end(self, epoch, logs=None):
if self.validation_data is None:
raise RuntimeError('Requires validation_data.')
validation_sample = self.validation_data[0][0:1]
activations = self.activations_model.predict(validation_sample)
f = open('activations_at_epoch_' + str(epoch) + '.npz', 'w')
np.savez(f, activations)
f.close()

关于回调函数你只需要知道这么多，其他的都是技术细节，很容易就能查到。现在，你已
经可以在训练过程中对一个Keras 模型执行任何类型的日志记录或预定程序的干预。

2.TensorBoard 简介：TensorFlow 的可视化框架

想要做好研究或开发出好的模型，在实验过程中你需要丰富频繁的反馈，从而知道模型内
部正在发生什么。这正是运行实验的目的：获取关于模型表现好坏的信息，越多越好。取得进
展是一个反复迭代的过程（或循环）：首先你有一个想法，并将其表述为一个实验，用于验证
你的想法是否正确。你运行这个实验，并处理其生成的信息。这又激发了你的下一个想法。在
这个循环中实验的迭代次数越多，你的想法也就变得越来越精确、越来越强大。Keras 可以帮你
在最短的时间内将想法转化成实验，而高速GPU 可以帮你尽快得到实验结果。但如何处理实验
结果呢？这就需要TensorBoard 发挥作用了。

本节将介绍TensorBoard，一个内置于TensorFlow 中的基于浏览器的可视化工具。注意，只
有当Keras 使用TensorFlow 后端时，这一方法才能用于Keras 模型。
TensorBoard 的主要用途是，在训练过程中帮助你以可视化的方法监控模型内部发生的一切。
如果你监控了除模型最终损失之外的更多信息，那么可以更清楚地了解模型做了什么、没做什么，
并且能够更快地取得进展。TensorBoard 具有下列巧妙的功能，都在浏览器中实现。
在训练过程中以可视化的方式监控指标
将模型架构可视化
将激活和梯度的直方图可视化
以三维的形式研究嵌入
我们用一个简单的例子来演示这些功能：在IMDB 情感分析任务上训练一个一维卷积神经
网络。

import keras
from keras import layers
from keras.datasets import imdb
from keras.preprocessing import sequence
max_features = 2000
max_len = 500
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
x_train = sequence.pad_sequences(x_train, maxlen=max_len)
x_test = sequence.pad_sequences(x_test, maxlen=max_len)
model = keras.models.Sequential()
model.add(layers.Embedding(max_features, 128,
input_length=max_len,
name='embed'))
model.add(layers.Conv1D(32, 7, activation='relu'))
model.add(layers.MaxPooling1D(5))
model.add(layers.Conv1D(32, 7, activation='relu'))
model.add(layers.GlobalMaxPooling1D())
model.add(layers.Dense(1))
model.summary()
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['acc'])

使用tensorboard首先要创建一个目录
mkdir my_log_dir
我们将日志事件写入硬盘的指定位置。

callbacks = [
keras.callbacks.TensorBoard(
log_dir='my_log_dir',
histogram_freq=1,
embeddings_freq=1,
)
]
history = model.fit(x_train, y_train,
epochs=20,
batch_size=128,
validation_split=0.2,
callbacks=callbacks)

现在，你可以在命令行启动TensorBoard 服务器，指示它读取回调函数当前正在写入的日志。
在安装TensorFlow 时（比如通过pip），tensorboard 程序应该已经自动安装到计算机里了。
$ tensorboard --logdir=my_log_dir
然后可以用浏览器打开http://localhost:6006，并查看模型的训练过程。除了训
练指标和验证指标的实时图表之外，你还可以访问HISTOGRAMS（直方图）标签页，并查看
美观的直方图可视化，直方图中是每层的激活值

EMBEDDINGS（嵌入）标签页让你可以查看输入词表中2000 个单词的嵌入位置和空间关系，
它们都是由第一个Embedding 层学到的。因为嵌入空间是128 维的，所以TensorBoard 会使用
你选择的降维算法自动将其降至二维或三维，可选的降维算法有主成分分析（PCA）和t-分布
随机近邻嵌入（t-SNE）。在下图所示的点状云中，可以清楚地看到两个簇：正面含义的词和
负面含义的词。从可视化图中可以立刻明显地看出，将嵌入与特定目标联合训练得到的模型是
完全针对这个特定任务的，这也是为什么使用预训练的通用词嵌入通常不是一个好主意。

GRAPHS（图）标签页显示的是Keras 模型背后的底层TensorFlow 运算图的交互式可视化
。可见，图中的内容比之前想象的要多很多。对于你刚刚构建的模型，在Keras 中
定义模型时可能看起来很简单，只是几个基本层的堆叠；但在底层，你需要构建相当复杂的图
结构来使其生效。其中许多内容都与梯度下降过程有关。你所见到的内容与你所操作的内容之
间存在这种复杂度差异，这正是你选择使用Keras 来构建模型、而不是使用原始TensorFlow 从
头开始定义所有内容的主要动机。Keras 让工作流程变得非常简单。

注意，Keras 还提供了另一种更简洁的方法——keras.utils.plot_model 函数，它可以
将模型绘制为层组成的图，而不是TensorFlow 运算组成的图。使用这个函数需要安装Python 的
pydot 库和pydot-ng 库，还需要安装graphviz 库。我们来快速看一下。

from keras.utils import plot_model
plot_model(model, to_file='model.png')

你还可以选择在层组成的图中显示形状信息。下面这个例子使用plot_model 函数及
show_shapes 选项将模型拓扑结构可视化。

from keras.utils import plot_model
plot_model(model, show_shapes=True, to_file='model.png')

Keras 回调函数提供了一种简单方法，可以在训练过程中监控模型并根据模型状态自动
采取行动。
使用 TensorFlow 时，TensorBoard 是一种在浏览器中将模型活动可视化的好方法。在
Keras 模型中你可以通过TensorBoard 回调函数来使用这种方法。

三、让模型性能发挥到极致

读完前几章之后读者应该对神经网络已经做到入门了，接下来要学习如何构建高性能的神经网络。随便跑几个demo不是我们追求的目标，更高更快更强，才是我们追求的目标，而且神经网络是可以做到的。

1.高级架构模式

（1）批标准化
标准化（normalization）是一大类方法，用于让机器学习模型看到的不同样本彼此之间更加
相似，这有助于模型的学习与对新数据的泛化。最常见的数据标准化形式就是你已经在本书中
多次见到的那种形式：将数据减去其平均值使其中心为0，然后将数据除以其标准差使其标准
差为1。实际上，这种做法假设数据服从正态分布（也叫高斯分布），并确保让该分布的中心为0，同时缩放到方差为1。
normalized_data = (data - np.mean(data, axis=…)) / np.std(data, axis=…)
前面的示例都是在将数据输入模型之前对数据做标准化。但在网络的每一次变换之后都应
该考虑数据标准化。即使输入Dense 或Conv2D 网络的数据均值为0、方差为1，也没有理由
假定网络输出的数据也是这样。
批标准化（batch normalization）是Ioffe 和Szegedy 在2015 年提出的一种层的类型a（在
Keras 中是BatchNormalization），即使在训练过程中均值和方差随时间发生变化，它也可以
适应性地将数据标准化。批标准化的工作原理是，训练过程中在内部保存已读取每批数据均值
和方差的指数移动平均值。批标准化的主要效果是，它有助于梯度传播（这一点和残差连接很
像），因此允许更深的网络。对于有些特别深的网络，只有包含多个BatchNormalization 层
时才能进行训练。例如，BatchNormalization 广泛用于Keras 内置的许多高级卷积神经网络
架构，比如ResNet50、Inception V3 和Xception。

BatchNormalization 层通常在卷积层或密集连接层之后使用。

conv_model.add(layers.Conv2D(32, 3, activation='relu'))
conv_model.add(layers.BatchNormalization())
dense_model.add(layers.Dense(32, activation='relu'))
dense_model.add(layers.BatchNormalization())

BatchNormalization 层接收一个axis 参数，它指定应该对哪个特征轴做标准化。这
个参数的默认值是-1，即输入张量的最后一个轴。对于Dense 层、Conv1D 层、RNN 层和将
data_format 设为"channels_last"（通道在后）的Conv2D 层，这个默认值都是正确的。
但有少数人使用将data_format 设为"channels_first"（通道在前）的Conv2D 层，这时
特征轴是编号为1 的轴，因此BatchNormalization 的axis 参数应该相应地设为1。

（2）深度可分离卷积

深度可分离卷积在很多模型上可以替代卷积模型的，而且跟普通卷积比更轻量更快性能更好。
深度可分离卷积的原理是对输入的每个通道执行空间卷积，然后通过逐点卷积（1X1卷积）将输出通道混合。这样做把空间特征学习和通道特征学习分开。如果你输入中的空间位置高度相关，但是不同通道之间相对独立，那么这么做很有意义。

如果只用有限的数据从头开始训练小型模型，这些优点就变得尤为重要。例如，下面这个
示例是在小型数据集上构建一个轻量的深度可分离卷积神经网络，用于图像分类任务（softmax
多分类）。

from keras.models import Sequential, Model
from keras import layers
height = 64
width = 64
channels = 3
num_classes = 10
model = Sequential()
model.add(layers.SeparableConv2D(32, 3,
activation='relu',
input_shape=(height, width, channels,)))
model.add(layers.SeparableConv2D(64, 3, activation='relu'))
model.add(layers.MaxPooling2D(2))
model.add(layers.SeparableConv2D(64, 3, activation='relu'))
model.add(layers.SeparableConv2D(128, 3, activation='relu'))
model.add(layers.MaxPooling2D(2))
model.add(layers.SeparableConv2D(64, 3, activation='relu'))
model.add(layers.SeparableConv2D(128, 3, activation='relu'))
model.add(layers.GlobalAveragePooling2D())
model.add(layers.Dense(32, activation='relu'))
model.add(layers.Dense(num_classes, activation='softmax'))
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')

对于规模更大的模型，深度可分离卷积是Xception 架构的基础，Xception 是一个高性能的
卷积神经网络，内置于Keras 中。在作者的论文“Xception: deep learning with depthwise separableconvolutions”中，你可以进一步了解深度可分离卷积和Xception 的理论基础。

2.超参数优化

构建深度学习模型时，你必须做出许多看似随意的决定：应该堆叠多少层？每层应该
包含多少个单元或过滤器？激活应该使用relu 还是其他函数？在某一层之后是否应该使用
BatchNormalization ？应该使用多大的dropout 比率？还有很多。这些在架构层面的参数叫
作超参数（hyperparameter），以便将其与模型参数区分开来，后者通过反向传播进行训练。
在实践中，经验丰富的机器学习工程师和研究人员会培养出直觉，能够判断上述选择哪些
可行、哪些不可行。也就是说，他们学会了调节超参数的技巧。但是调节超参数并没有正式成
文的规则。如果你想要在某项任务上达到最佳性能，那么就不能满足于一个容易犯错的人随意
做出的选择。即使你拥有很好的直觉，最初的选择也几乎不可能是最优的。你可以手动调节你
的选择、重新训练模型，如此不停重复来改进你的选择，这也是机器学习工程师和研究人员大
部分时间都在做的事情。但是，整天调节超参数不应该是人类的工作，最好留给机器去做。
因此，你需要制定一个原则，系统性地自动探索可能的决策空间。你需要搜索架构空间，
并根据经验找到性能最佳的架构。这正是超参数自动优化领域的内容。这个领域是一个完整的
研究领域，而且很重要。
超参数优化的过程通常如下所示。
(1) 选择一组超参数（自动选择）。
(2) 构建相应的模型。
(3) 将模型在训练数据上拟合，并衡量其在验证数据上的最终性能。
(4) 选择要尝试的下一组超参数（自动选择）。
(5) 重复上述过程。
(6) 最后，衡量模型在测试数据上的性能。
这个过程的关键在于，给定许多组超参数，使用验证性能的历史来选择下一组需要评估的
超参数的算法。有多种不同的技术可供选择：贝叶斯优化、遗传算法、简单随机搜索等。
训练模型权重相对简单：在小批量数据上计算损失函数，然后用反向传播算法让权重向正
确的方向移动。与此相反，更新超参数则非常具有挑战性。我们来考虑以下两点。
计算反馈信号（这组超参数在这个任务上是否得到了一个高性能的模型）的计算代价可
能非常高，它需要在数据集上创建一个新模型并从头开始训练。
超参数空间通常由许多离散的决定组成，因而既不是连续的，也不是可微的。因此，你
通常不能在超参数空间中做梯度下降。相反，你必须依赖不使用梯度的优化方法，而这
些方法的效率比梯度下降要低很多。
这些挑战非常困难，而这个领域还很年轻，因此我们目前只能使用非常有限的工具来优
化模型。通常情况下，随机搜索（随机选择需要评估的超参数，并重复这一过程）就是最好的
解决方案，虽然这也是最简单的解决方案。但我发现有一种工具确实比随机搜索更好，它就是
Hyperopt。它是一个用于超参数优化的Python 库，其内部使用Parzen 估计器的树来预测哪组超
参数可能会得到好的结果。另一个叫作Hyperas 的库将Hyperopt 与Keras 模型集成在一起。一
定要试试。

超参数优化是深度学习中特别重要的一环，也是提高神经网络效果最重要的。未来的趋势是超参数优选自动化，把人从繁重的调参工作中解放出来。

3.模型集成

想要在一项任务上获得最佳结果，另一种强大的技术是模型集成（model ensembling）。集
成是指将一系列不同模型的预测结果汇集到一起，从而得到更好的预测结果。观察机器学习竞赛，
特别是Kaggle 上的竞赛，你会发现优胜者都是将很多模型集成到一起，它必然可以打败任何单
个模型，无论这个模型的表现多么好。
集成依赖于这样的假设，即对于独立训练的不同良好模型，它们表现良好可能是因为不同
的原因：每个模型都从略有不同的角度观察数据来做出预测，得到了“真相”的一部分，但不
是全部真相。你可能听说过盲人摸象的古代寓言：一群盲人第一次遇到大象，想要通过触摸来
了解大象。每个人都摸到了大象身体的不同部位，但只摸到了一部分，比如鼻子或一条腿。这
些人描述的大象是这样的，“它像一条蛇”“像一根柱子或一棵树”，等等。这些盲人就好比机器
学习模型，每个人都试图根据自己的假设（这些假设就是模型的独特架构和独特的随机权重初
始化）并从自己的角度来理解训练数据的多面性。每个人都得到了数据真相的一部分，但不是
全部真相。将他们的观点汇集在一起，你可以得到对数据更加准确的描述。大象是多个部分的
组合，每个盲人说的都不完全准确，但综合起来就成了一个相当准确的故事。
我们以分类问题为例。想要将一组分类器的预测结果汇集在一起［即分类器集成（ensemble
the classifiers）］，最简单的方法就是将它们的预测结果取平均值作为预测结果。

preds_a = model_a.predict(x_val)
preds_b = model_b.predict(x_val)
preds_c = model_c.predict(x_val)
preds_d = model_d.predict(x_val)
final_preds = 0.25 * (preds_a + preds_b + preds_c + preds_d)

只有这组分类器中每一个的性能差不多一样好时，这种方法才奏效。如果其中一个分类器
性能比其他的差很多，那么最终预测结果可能不如这一组中的最佳分类器那么好。

将分类器集成有一个更聪明的做法，即加权平均，其权重在验证数据上学习得到。通常来
说，更好的分类器被赋予更大的权重，而较差的分类器则被赋予较小的权重。为了找到一组好
的集成权重，你可以使用随机搜索或简单的优化算法（比如Nelder-Mead 方法）。

preds_a = model_a.predict(x_val)
preds_b = model_b.predict(x_val)
preds_c = model_c.predict(x_val)
preds_d = model_d.predict(x_val)
final_preds = 0.5 * preds_a + 0.25 * preds_b + 0.1 * preds_c + 0.15 * preds_d

还有许多其他变体，比如你可以对预测结果先取指数再做平均。一般来说，简单的加权平均，
其权重在验证数据上进行最优化，这是一个很强大的基准方法。
想要保证集成方法有效，关键在于这组分类器的多样性（diversity）。多样性就是力量。如
果所有盲人都只摸到大象的鼻子，那么他们会一致认为大象像蛇，并且永远不会知道大象的真
实模样。是多样性让集成方法能够取得良好效果。用机器学习的术语来说，如果所有模型的偏
差都在同一个方向上，那么集成也会保留同样的偏差。如果各个模型的偏差在不同方向上，那
么这些偏差会彼此抵消，集成结果会更加稳定、更加准确。
因此，集成的模型应该尽可能好，同时尽可能不同。这通常意味着使用非常不同的架构，
甚至使用不同类型的机器学习方法。有一件事情基本上是不值得做的，就是对相同的网络，使
用不同的随机初始化多次独立训练，然后集成。如果模型之间的唯一区别是随机初始化和训练
数据的读取顺序，那么集成的多样性很小，与单一模型相比只会有微小的改进。
我发现有一种方法在实践中非常有效（但这一方法还没有推广到所有问题领域），就是将基
于树的方法（比如随机森林或梯度提升树）和深度神经网络进行集成。2014 年，合作者Andrei
Kolev 和我使用多种树模型和深度神经网络的集成，在Kaggle 希格斯玻色子衰变探测挑战赛中
获得第四名。值得一提的是，集成中的某一个模型来源于与其他模型都不相同的方法（它是正
则化的贪婪森林），并且得分也远远低于其他模型。不出所料，它在集成中被赋予了一个很小的
权重。但出乎我们的意料，它极大地改进了总体的集成结果，因为它和其他所有模型都完全不同，
提供了其他模型都无法获得的信息。这正是集成方法的关键之处。集成不在于你的最佳模型有
多好，而在于候选模型集合的多样性。
近年来，一种在实践中非常成功的基本集成方法是宽且深（wide and deep）的模型类型，
它结合了深度学习与浅层学习。这种模型联合训练一个深度神经网络和一个大型的线性模型。
对多种模型联合训练，是实现模型集成的另一种选择。

总结

本章我们学习了以下内容。
如何将模型构建为层组成的图、层的重复使用（层权重共享）与将模型用作 Python 函
数（模型模板）。
你可以使用 Keras 回调函数在训练过程中监控模型，并根据模型状态采取行动。
TensorBoard 可以将指标、激活直方图甚至嵌入空间可视化。
什么是批标准化、深度可分离卷积和残差连接。
为什么应该使用超参数优化和模型集成。
借助这些新工具，你可以在现实世界中更好地利用深度学习，并可以开始构建具有高度
竞争力的深度学习模型。

你可能感兴趣的:(深度学习,tensorflow,神经网络)

使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
DeepLabv3+改进18:在主干网络中添加REP_BLOCK AICurator 深度学习 python 机器学习 deeplabv3+语义分割
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介我们提出了一种通用的卷积神经网络（ConvNet）构建模块，可在不增加推理时间成本的情况下提升性能。该模块名为多样化分支块（DBB），通过结合不同尺度和复杂度的多样化分支
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
Postman高级功能深度解析：Mock Server与自动化监控——构建高效API测试与监控体系测试渣测试工具 postman
引言：Postman在API开发中的核心价值在数字化时代，API（应用程序编程接口）已成为系统间交互的“神经网络”，其质量直接影响用户体验与业务连续性。然而，传统API测试面临两大挑战：开发阶段依赖：前端与后端团队需同步开发，导致进度延迟；测试环境复杂：生产数据敏感、测试场景覆盖不全、性能压力模拟困难。Postman作为全球领先的API开发与测试工具，通过其MockServer与自动化监控两大核心
错误moduleNotFoundError: No module named 'matplotlib' 逆着tensor tensorflow2.0学习 tensorflow
错误ModuleNotFoundError:Nomodulenamed‘matplotlib’问题tensorflow2.0中jupyternotebook编写线性回归例子，出现ModuleNotFoundError:Nomodulenamed'matplotlib’错误解决办法好了，重新加载程序，已经可以用了。
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法天天酷科研工艺参数优化 matlab 神经网络工艺参数优化
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法一、方法原理与框架BP神经网络的作用BP神经网络通过建立工艺参数与目标性能（如翘曲变形、收缩率、硬度等）之间的非线性映射关系，作为代理模型替代复杂的物理仿真或实验。其优势在于：能够处理多输入-多输出的复杂非线性关系，例如激光功率、扫描速度与熔覆层性能的关联。在注塑成型中，预测体积收缩率和翘曲变形的相对误差可控制在5%以内。通过正交
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
LeetCode98-验证二叉搜索树学习的学习者 LeetCode Python 二叉搜索树
上个星期和导师去了华农一趟名义上是和导师去参加一个国家级的项目其实没我啥事都是我导师在那口若悬河当时和那边的本科生去了另一间会议室交流了关于GAN的知识偶然听说大家都在用pytorch好像最新版的也挺好用的反正就是学术界目前主要用这个框架工业界主要用Tensorflow(没办法，Google出品)这两天也拿来瞧了瞧好像也确实可以的！！！98-验证二叉搜索树给定一个二叉树，判断其是否是一个有效的二叉
神经网络之参数初始化硬水果糖人工智能神经网络人工智能深度学习
引言：参数初始化是训练深度神经网络的一个关键步骤，目的是给网络中权重（weights）和偏置（biases）赋予初始值。合适的参数初始化方法有助于提高训练速度、避免梯度消失/爆炸问题，并且加速网络的收敛。一、参数初始化目的避免梯度消失和梯度爆炸：在深度神经网络中，参数初始化对梯度流动非常重要。如果初始权重值太大或太小，可能导致梯度爆炸或梯度消失，从而增加网络的训练难度。加速收敛：良好的初始化可以帮
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

keras之父《python深度学习》笔记 第七章