贪狼切

python/keras中用Grid Search对神经网络超参数进行调参

原文：How to Grid Search Hyperparameters for Deep Learning Models in Python With Keras
作者：Jason Brownlee
翻译：刘崇鑫
责编：周建丁（[email protected]）

超参数优化是深度学习中的重要组成部分。其原因在于，神经网络是公认的难以配置，而又有很多参数需要设置。最重要的是，个别模型的训练非常缓慢。

在这篇文章中，你会了解到如何使用scikit-learn python机器学习库中的网格搜索功能调整Keras深度学习模型中的超参数。

阅读本文后，你就会了解：

如何包装Keras模型以便在scikit-learn中使用，以及如何使用网格搜索。
如何网格搜索常见的神经网络参数，如学习速率、 dropout 率、epochs 和神经元数量。
如何设计自己的超参数优化实验。

概述

本文主要想为大家介绍如何使用scikit-learn网格搜索功能，并给出一套代码实例。你可以将代码复制粘贴到自己的项目中，作为项目起始。

下文所涉及的议题列表：

如何在scikit-learn模型中使用Keras。
如何在scikit-learn模型中使用网格搜索。
如何调优批尺寸和训练epochs。
如何调优优化算法。
如何调优学习率和动量因子。
如何确定网络权值初始值。
如何选择神经元激活函数。
如何调优Dropout正则化。
如何确定隐藏层中的神经元的数量。

如何在scikit-learn模型中使用Keras

通过用KerasClassifier或KerasRegressor类包装Keras模型，可将其用于scikit-learn。

要使用这些包装，必须定义一个函数，以便按顺序模式创建并返回Keras，然后当构建KerasClassifier类时，把该函数传递给build_fn参数。

例如：

def create_model(): 

    ... 

    return   model 

model = KerasClassifier(build_fn=create_model)

KerasClassifier类的构建器为可以采取默认参数，并将其被传递给model.fit()的调用函数，比如 epochs数目和批尺寸（batch size)。

例如：

def create_model(): 

    ... 

    return model

model = KerasClassifier(build_fn=create_model, nb_epoch=10)
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

KerasClassifier类的构造也可以使用新的参数，使之能够传递给自定义的create_model()函数。这些新的参数，也必须由使用默认参数的 create_model() 函数的签名定义。

例如：

def create_model(dropout_rate=0.0): 

    ... 

    return model

model = KerasClassifier(build_fn=create_model, dropout_rate=0.2)
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

您可以在Keras API文档中，了解到更多关于scikit-learn包装器的知识。

如何在scikit-learn模型中使用网格搜索

网格搜索（grid search）是一项模型超参数优化技术。

在scikit-learn中，该技术由GridSearchCV类提供。

当构造该类时，你必须提供超参数字典，以便用来评价param_grid参数。这是模型参数名称和大量列值的示意图。

默认情况下，精确度是优化的核心，但其他核心可指定用于GridSearchCV构造函数的score参数。

默认情况下，网格搜索只使用一个线程。在GridSearchCV构造函数中，通过将 n_jobs参数设置为-1，则进程将使用计算机上的所有内核。这取决于你的Keras后端，并可能干扰主神经网络的训练过程。

当构造并评估一个模型中各个参数的组合时，GridSearchCV会起作用。使用交叉验证评估每个单个模型，且默认使用3层交叉验证，尽管通过将cv参数指定给 GridSearchCV构造函数时，有可能将其覆盖。

下面是定义一个简单的网格搜索示例：

param_grid = dict(nb_epochs=[10,20,30]) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y)
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3

一旦完成，你可以访问网格搜索的输出，该输出来自结果对象，由grid.fit()返回。best_score_成员提供优化过程期间观察到的最好的评分， best_params_描述了已取得最佳结果的参数的组合。

您可以在scikit-learn API文档中了解更多关于GridSearchCV类的知识。

问题描述

现在我们知道了如何使用scikit-learn 的Keras模型，如何使用scikit-learn 的网格搜索。现在一起看看下面的例子。

所有的例子都将在一个小型的标准机器学习数据集上来演示，该数据集被称为Pima Indians onset of diabetes 分类数据集。该小型数据集包括了所有容易工作的数值属性。

下载数据集，并把它放置在你目前工作目录下，命名为：pima-indians-diabetes.csv。

当我们按照本文中的例子进行，能够获得最佳参数。因为参数可相互影响，所以这不是网格搜索的最佳方法，但出于演示目的，它是很好的方法。

注意并行化网格搜索

所有示例的配置为了实现并行化（n_jobs=-1）。

如果显示像下面这样的错误：

INFO (theano.gof.compilelock): Waiting for existing lock by process '55614' (I am process '55613') 

INFO (theano.gof.compilelock): To manually release the lock, delete ...
 
   
   
   
   
    
    
    
    1
    
    
    
    2

结束进程，并修改代码，以便不并行地执行网格搜索，设置n_jobs=1。

如何调优批尺寸和训练epochs

在第一个简单的例子中，当调整网络时，我们着眼于调整批尺寸和训练epochs。

迭代梯度下降的批尺寸大小是权重更新之前显示给网络的模式数量。它也是在网络训练的优选法，定义一次读取的模式数并保持在内存中。

训练epochs是训练期间整个训练数据集显示给网络的次数。有些网络对批尺寸大小敏感，如LSTM复发性神经网络和卷积神经网络。

在这里，我们将以20的步长，从10到100逐步评估不同的微型批尺寸。

完整代码如下：

# Use scikit-learn to grid search the batch size and epochs 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 

# Function to create model, required for KerasClassifier 

def create_model(): 

    # create model 

    model = Sequential() 

    model.add(Dense(12, input_dim=8, activation='relu')) 

    model.add(Dense(1, activation='sigmoid')) 

    # Compile model 

    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, verbose=0) 

# define the grid search parameters 

batch_size = [10, 20, 40, 60, 80, 100] 

epochs = [10, 50, 100] 

param_grid = dict(batch_size=batch_size, nb_epoch=epochs) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34
    
    
    
    35

运行之后输出如下：

Best: 0.686198 using {'nb_epoch': 100, 'batch_size': 20} 

0.348958 (0.024774) with: {'nb_epoch': 10, 'batch_size': 10} 

0.348958 (0.024774) with: {'nb_epoch': 50, 'batch_size': 10} 

0.466146 (0.149269) with: {'nb_epoch': 100, 'batch_size': 10} 

0.647135 (0.021236) with: {'nb_epoch': 10, 'batch_size': 20} 

0.660156 (0.014616) with: {'nb_epoch': 50, 'batch_size': 20} 

0.686198 (0.024774) with: {'nb_epoch': 100, 'batch_size': 20} 

0.489583 (0.075566) with: {'nb_epoch': 10, 'batch_size': 40} 

0.652344 (0.019918) with: {'nb_epoch': 50, 'batch_size': 40} 

0.654948 (0.027866) with: {'nb_epoch': 100, 'batch_size': 40} 

0.518229 (0.032264) with: {'nb_epoch': 10, 'batch_size': 60} 

0.605469 (0.052213) with: {'nb_epoch': 50, 'batch_size': 60} 

0.665365 (0.004872) with: {'nb_epoch': 100, 'batch_size': 60} 

0.537760 (0.143537) with: {'nb_epoch': 10, 'batch_size': 80} 

0.591146 (0.094954) with: {'nb_epoch': 50, 'batch_size': 80} 

0.658854 (0.054904) with: {'nb_epoch': 100, 'batch_size': 80} 

0.402344 (0.107735) with: {'nb_epoch': 10, 'batch_size': 100} 

0.652344 (0.033299) with: {'nb_epoch': 50, 'batch_size': 100} 

0.542969 (0.157934) with: {'nb_epoch': 100, 'batch_size': 100}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19

我们可以看到，批尺寸为20、100 epochs能够获得最好的结果，精确度约68％。

如何调优训练优化算法

Keras提供了一套最先进的不同的优化算法。

在这个例子中，我们调整用来训练网络的优化算法，每个都用默认参数。

这个例子有点奇怪，因为往往你会先选择一种方法，而不是将重点放在调整问题参数上（参见下一个示例）。

在这里，我们将评估Keras API支持的整套优化算法。

完整代码如下：

# Use scikit-learn to grid search the batch size and epochs 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 

# Function to create model, required for KerasClassifier 

def create_model(optimizer='adam'): 

    # create model 

    model = Sequential() 

    model.add(Dense(12, input_dim=8, activation='relu')) 

    model.add(Dense(1, activation='sigmoid')) 

    # Compile model 

    model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, nb_epoch=100, batch_size=10, verbose=0) 

# define the grid search parameters 

optimizer = ['SGD', 'RMSprop', 'Adagrad', 'Adadelta', 'Adam', 'Adamax', 'Nadam'] 

param_grid = dict(optimizer=optimizer) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34

运行之后输出如下：

Best: 0.704427 using {'optimizer': 'Adam'} 

0.348958 (0.024774) with: {'optimizer': 'SGD'} 

0.348958 (0.024774) with: {'optimizer': 'RMSprop'} 

0.471354 (0.156586) with: {'optimizer': 'Adagrad'} 

0.669271 (0.029635) with: {'optimizer': 'Adadelta'} 

0.704427 (0.031466) with: {'optimizer': 'Adam'} 

0.682292 (0.016367) with: {'optimizer': 'Adamax'} 

0.703125 (0.003189) with: {'optimizer': 'Nadam'}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

结果表明，ATOM优化算法结果最好，精确度约为70％。

如何优化学习速率和动量因子？

预先选择一个优化算法来训练你的网络和参数调整是十分常见的。目前，最常用的优化算法是普通的随机梯度下降法（Stochastic Gradient Descent，SGD），因为它十分易于理解。在本例中，我们将着眼于优化SGD的学习速率和动量因子（momentum）。

学习速率控制每批（batch）结束时更新的权重，动量因子控制上次权重的更新对本次权重更新的影响程度。

我们选取了一组较小的学习速率和动量因子的取值范围：从0.2到0.8，步长为0.2，以及0.9（实际中常用参数值）。

一般来说，在优化算法中包含epoch的数目是一个好主意，因为每批（batch）学习量（学习速率）、每个 epoch更新的数目（批尺寸）和 epoch的数量之间都具有相关性。

完整代码如下：

# Use scikit-learn to grid search the learning rate and momentum 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 

from keras.optimizers import SGD 

# Function to create model, required for KerasClassifier 

def create_model(learn_rate=0.01, momentum=0): 

    # create model 

    model = Sequential() 

    model.add(Dense(12, input_dim=8, activation='relu')) 

    model.add(Dense(1, activation='sigmoid')) 

    # Compile model 

    optimizer = SGD(lr=learn_rate, momentum=momentum) 

    model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, nb_epoch=100, batch_size=10, verbose=0) 

# define the grid search parameters 

learn_rate = [0.001, 0.01, 0.1, 0.2, 0.3] 

momentum = [0.0, 0.2, 0.4, 0.6, 0.8, 0.9] 

param_grid = dict(learn_rate=learn_rate, momentum=momentum) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34
    
    
    
    35
    
    
    
    36
    
    
    
    37

运行之后输出如下：

Best: 0.680990 using {'learn_rate': 0.01, 'momentum': 0.0} 

0.348958 (0.024774) with: {'learn_rate': 0.001, 'momentum': 0.0} 

0.348958 (0.024774) with: {'learn_rate': 0.001, 'momentum': 0.2} 

0.467448 (0.151098) with: {'learn_rate': 0.001, 'momentum': 0.4} 

0.662760 (0.012075) with: {'learn_rate': 0.001, 'momentum': 0.6} 

0.669271 (0.030647) with: {'learn_rate': 0.001, 'momentum': 0.8} 

0.666667 (0.035564) with: {'learn_rate': 0.001, 'momentum': 0.9} 

0.680990 (0.024360) with: {'learn_rate': 0.01, 'momentum': 0.0} 

0.677083 (0.026557) with: {'learn_rate': 0.01, 'momentum': 0.2} 

0.427083 (0.134575) with: {'learn_rate': 0.01, 'momentum': 0.4} 

0.427083 (0.134575) with: {'learn_rate': 0.01, 'momentum': 0.6} 

0.544271 (0.146518) with: {'learn_rate': 0.01, 'momentum': 0.8} 

0.651042 (0.024774) with: {'learn_rate': 0.01, 'momentum': 0.9} 

0.651042 (0.024774) with: {'learn_rate': 0.1, 'momentum': 0.0} 

0.651042 (0.024774) with: {'learn_rate': 0.1, 'momentum': 0.2} 

0.572917 (0.134575) with: {'learn_rate': 0.1, 'momentum': 0.4} 

0.572917 (0.134575) with: {'learn_rate': 0.1, 'momentum': 0.6} 

0.651042 (0.024774) with: {'learn_rate': 0.1, 'momentum': 0.8} 

0.651042 (0.024774) with: {'learn_rate': 0.1, 'momentum': 0.9} 

0.533854 (0.149269) with: {'learn_rate': 0.2, 'momentum': 0.0} 

0.427083 (0.134575) with: {'learn_rate': 0.2, 'momentum': 0.2} 

0.427083 (0.134575) with: {'learn_rate': 0.2, 'momentum': 0.4} 

0.651042 (0.024774) with: {'learn_rate': 0.2, 'momentum': 0.6} 

0.651042 (0.024774) with: {'learn_rate': 0.2, 'momentum': 0.8} 

0.651042 (0.024774) with: {'learn_rate': 0.2, 'momentum': 0.9} 

0.455729 (0.146518) with: {'learn_rate': 0.3, 'momentum': 0.0} 

0.455729 (0.146518) with: {'learn_rate': 0.3, 'momentum': 0.2} 

0.455729 (0.146518) with: {'learn_rate': 0.3, 'momentum': 0.4} 

0.348958 (0.024774) with: {'learn_rate': 0.3, 'momentum': 0.6} 

0.348958 (0.024774) with: {'learn_rate': 0.3, 'momentum': 0.8} 

0.348958 (0.024774) with: {'learn_rate': 0.3, 'momentum': 0.9}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31

可以看到，SGD在该问题上相对表现不是很好，但当学习速率为0.01、动量因子为0.0时可取得最好的结果，正确率约为68%。

如何调优网络权值初始化

神经网络权值初始化一度十分简单：采用小的随机数即可。

现在，有许多不同的技术可供选择。点击此处查看Keras 提供的清单。

在本例中，我们将着眼于通过评估所有可用的技术，来调优网络权值初始化的选择。

我们将在每一层采用相同的权值初始化方法。理想情况下，根据每层使用的激活函数选用不同的权值初始化方法效果可能更好。在下面的例子中，我们在隐藏层使用了整流器（rectifier）。因为预测是二进制，因此在输出层使用了sigmoid函数。

完整代码如下：

# Use scikit-learn to grid search the weight initialization 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 

# Function to create model, required for KerasClassifier 

def create_model(init_mode='uniform'): 

    # create model 

    model = Sequential() 

    model.add(Dense(12, input_dim=8, init=init_mode, activation='relu')) 

    model.add(Dense(1, init=init_mode, activation='sigmoid')) 

    # Compile model 

    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, nb_epoch=100, batch_size=10, verbose=0) 

# define the grid search parameters 

init_mode = ['uniform', 'lecun_uniform', 'normal', 'zero', 'glorot_normal', 'glorot_uniform', 'he_normal', 'he_uniform'] 

param_grid = dict(init_mode=init_mode) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34

运行之后输出如下：

Best: 0.720052 using {'init_mode': 'uniform'} 

0.720052 (0.024360) with: {'init_mode': 'uniform'} 

0.348958 (0.024774) with: {'init_mode': 'lecun_uniform'} 

0.712240 (0.012075) with: {'init_mode': 'normal'} 

0.651042 (0.024774) with: {'init_mode': 'zero'} 

0.700521 (0.010253) with: {'init_mode': 'glorot_normal'} 

0.674479 (0.011201) with: {'init_mode': 'glorot_uniform'} 

0.661458 (0.028940) with: {'init_mode': 'he_normal'} 

0.678385 (0.004872) with: {'init_mode': 'he_uniform'}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

我们可以看到，当采用均匀权值初始化方案（uniform weight initialization ）时取得最好的结果，可以实现约72%的性能。

如何选择神经元激活函数

激活函数控制着单个神经元的非线性以及何时激活。

通常来说，整流器（rectifier）的激活功能是最受欢迎的，但应对不同的问题， sigmoid函数和tanh 函数可能是更好的选择。

在本例中，我们将探讨、评估、比较Keras提供的不同类型的激活函数。我们仅在隐层中使用这些函数。考虑到二元分类问题，需要在输出层使用sigmoid激活函数。

通常而言，为不同范围的传递函数准备数据是一个好主意，但在本例中我们不会这么做。

完整代码如下：

# Use scikit-learn to grid search the activation function 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.wrappers.scikit_learn import KerasClassifier 

# Function to create model, required for KerasClassifier 

def create_model(activation='relu'): 

    # create model 

    model = Sequential() 

    model.add(Dense(12, input_dim=8, init='uniform', activation=activation)) 

    model.add(Dense(1, init='uniform', activation='sigmoid')) 

    # Compile model 

    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, nb_epoch=100, batch_size=10, verbose=0) 

# define the grid search parameters 

activation = ['softmax', 'softplus', 'softsign', 'relu', 'tanh', 'sigmoid', 'hard_sigmoid', 'linear'] 

param_grid = dict(activation=activation) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34

运行之后输出如下：

Best: 0.722656 using {'activation': 'linear'} 

0.649740 (0.009744) with: {'activation': 'softmax'} 

0.720052 (0.032106) with: {'activation': 'softplus'} 

0.688802 (0.019225) with: {'activation': 'softsign'} 

0.720052 (0.018136) with: {'activation': 'relu'} 

0.691406 (0.019401) with: {'activation': 'tanh'} 

0.680990 (0.009207) with: {'activation': 'sigmoid'} 

0.691406 (0.014616) with: {'activation': 'hard_sigmoid'} 

0.722656 (0.003189) with: {'activation': 'linear'}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

令人惊讶的是（至少对我来说是），“线性（linear）”激活函数取得了最好的效果，准确率约为72%。

如何调优Dropout正则化

在本例中，我们将着眼于调整正则化中的dropout速率，以期限制过拟合（overfitting）和提高模型的泛化能力。为了得到较好的结果，dropout最好结合一个如最大范数约束之类的权值约束。

了解更多dropout在深度学习框架Keras的使用请查看下面这篇文章：

基于Keras/Python的深度学习模型Dropout正则项

它涉及到拟合dropout率和权值约束。我们选定dropout percentages取值范围是：0.0-0.9（1.0无意义）；最大范数权值约束（ maxnorm weight constraint）的取值范围是0-5。

完整代码如下：

# Use scikit-learn to grid search the dropout rate 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.layers import Dropout 

from keras.wrappers.scikit_learn import KerasClassifier 

from keras.constraints import maxnorm 

# Function to create model, required for KerasClassifier 

def create_model(dropout_rate=0.0, weight_constraint=0): 

    # create model 

    model = Sequential() 

    model.add(Dense(12, input_dim=8, init='uniform', activation='linear', W_constraint=maxnorm(weight_constraint))) 

    model.add(Dropout(dropout_rate)) 

    model.add(Dense(1, init='uniform', activation='sigmoid')) 

    # Compile model 

    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, nb_epoch=100, batch_size=10, verbose=0) 

# define the grid search parameters 

weight_constraint = [1, 2, 3, 4, 5] 

dropout_rate = [0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9] 

param_grid = dict(dropout_rate=dropout_rate, weight_constraint=weight_constraint) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34
    
    
    
    35
    
    
    
    36
    
    
    
    37
    
    
    
    38

运行之后输出如下：

Best: 0.723958 using {'dropout_rate': 0.2, 'weight_constraint': 4} 

0.696615 (0.031948) with: {'dropout_rate': 0.0, 'weight_constraint': 1} 

0.696615 (0.031948) with: {'dropout_rate': 0.0, 'weight_constraint': 2} 

0.691406 (0.026107) with: {'dropout_rate': 0.0, 'weight_constraint': 3} 

0.708333 (0.009744) with: {'dropout_rate': 0.0, 'weight_constraint': 4} 

0.708333 (0.009744) with: {'dropout_rate': 0.0, 'weight_constraint': 5} 

0.710937 (0.008438) with: {'dropout_rate': 0.1, 'weight_constraint': 1} 

0.709635 (0.007366) with: {'dropout_rate': 0.1, 'weight_constraint': 2} 

0.709635 (0.007366) with: {'dropout_rate': 0.1, 'weight_constraint': 3} 

0.695312 (0.012758) with: {'dropout_rate': 0.1, 'weight_constraint': 4} 

0.695312 (0.012758) with: {'dropout_rate': 0.1, 'weight_constraint': 5} 

0.701823 (0.017566) with: {'dropout_rate': 0.2, 'weight_constraint': 1} 

0.710938 (0.009568) with: {'dropout_rate': 0.2, 'weight_constraint': 2} 

0.710938 (0.009568) with: {'dropout_rate': 0.2, 'weight_constraint': 3} 

0.723958 (0.027126) with: {'dropout_rate': 0.2, 'weight_constraint': 4} 

0.718750 (0.030425) with: {'dropout_rate': 0.2, 'weight_constraint': 5} 

0.721354 (0.032734) with: {'dropout_rate': 0.3, 'weight_constraint': 1} 

0.707031 (0.036782) with: {'dropout_rate': 0.3, 'weight_constraint': 2} 

0.707031 (0.036782) with: {'dropout_rate': 0.3, 'weight_constraint': 3} 

0.694010 (0.019225) with: {'dropout_rate': 0.3, 'weight_constraint': 4} 

0.709635 (0.006639) with: {'dropout_rate': 0.3, 'weight_constraint': 5} 

0.704427 (0.008027) with: {'dropout_rate': 0.4, 'weight_constraint': 1} 

0.717448 (0.031304) with: {'dropout_rate': 0.4, 'weight_constraint': 2} 

0.718750 (0.030425) with: {'dropout_rate': 0.4, 'weight_constraint': 3} 

0.718750 (0.030425) with: {'dropout_rate': 0.4, 'weight_constraint': 4} 

0.722656 (0.029232) with: {'dropout_rate': 0.4, 'weight_constraint': 5} 

0.720052 (0.028940) with: {'dropout_rate': 0.5, 'weight_constraint': 1} 

0.703125 (0.009568) with: {'dropout_rate': 0.5, 'weight_constraint': 2} 

0.716146 (0.029635) with: {'dropout_rate': 0.5, 'weight_constraint': 3} 

0.709635 (0.008027) with: {'dropout_rate': 0.5, 'weight_constraint': 4} 

0.703125 (0.011500) with: {'dropout_rate': 0.5, 'weight_constraint': 5} 

0.707031 (0.017758) with: {'dropout_rate': 0.6, 'weight_constraint': 1} 

0.701823 (0.018688) with: {'dropout_rate': 0.6, 'weight_constraint': 2} 

0.701823 (0.018688) with: {'dropout_rate': 0.6, 'weight_constraint': 3} 

0.690104 (0.027498) with: {'dropout_rate': 0.6, 'weight_constraint': 4} 

0.695313 (0.022326) with: {'dropout_rate': 0.6, 'weight_constraint': 5} 

0.697917 (0.014382) with: {'dropout_rate': 0.7, 'weight_constraint': 1} 

0.697917 (0.014382) with: {'dropout_rate': 0.7, 'weight_constraint': 2} 

0.687500 (0.008438) with: {'dropout_rate': 0.7, 'weight_constraint': 3} 

0.704427 (0.011201) with: {'dropout_rate': 0.7, 'weight_constraint': 4} 

0.696615 (0.016367) with: {'dropout_rate': 0.7, 'weight_constraint': 5} 

0.680990 (0.025780) with: {'dropout_rate': 0.8, 'weight_constraint': 1} 

0.699219 (0.019401) with: {'dropout_rate': 0.8, 'weight_constraint': 2} 

0.701823 (0.015733) with: {'dropout_rate': 0.8, 'weight_constraint': 3} 

0.684896 (0.023510) with: {'dropout_rate': 0.8, 'weight_constraint': 4} 

0.696615 (0.017566) with: {'dropout_rate': 0.8, 'weight_constraint': 5} 

0.653646 (0.034104) with: {'dropout_rate': 0.9, 'weight_constraint': 1} 

0.677083 (0.012075) with: {'dropout_rate': 0.9, 'weight_constraint': 2} 

0.679688 (0.013902) with: {'dropout_rate': 0.9, 'weight_constraint': 3} 

0.669271 (0.017566) with: {'dropout_rate': 0.9, 'weight_constraint': 4} 

0.669271 (0.012075) with: {'dropout_rate': 0.9, 'weight_constraint': 5}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34
    
    
    
    35
    
    
    
    36
    
    
    
    37
    
    
    
    38
    
    
    
    39
    
    
    
    40
    
    
    
    41
    
    
    
    42
    
    
    
    43
    
    
    
    44
    
    
    
    45
    
    
    
    46
    
    
    
    47
    
    
    
    48
    
    
    
    49
    
    
    
    50
    
    
    
    51

我们可以看到，当 dropout率为0.2%、最大范数权值约束（ maxnorm weight constraint）取值为4时，可以取得准确率约为72%的最好结果。

如何确定隐藏层中的神经元的数量

每一层中的神经元数目是一个非常重要的参数。通常情况下，一层之中的神经元数目控制着网络的代表性容量，至少是拓扑结构某一节点的容量。

此外，一般来说，一个足够大的单层网络是接近于任何神经网络的，至少在理论上成立。

在本例中，我们将着眼于调整单个隐藏层神经元的数量。取值范围是：1—30，步长为5。

一个大型网络要求更多的训练，此外，至少批尺寸（batch size）和 epoch的数量应该与神经元的数量优化。

完整代码如下：

# Use scikit-learn to grid search the number of neurons 

import numpy 

from sklearn.grid_search import GridSearchCV 

from keras.models import Sequential 

from keras.layers import Dense 

from keras.layers import Dropout 

from keras.wrappers.scikit_learn import KerasClassifier 

from keras.constraints import maxnorm 

# Function to create model, required for KerasClassifier 

def create_model(neurons=1): 

    # create model 

    model = Sequential() 

    model.add(Dense(neurons, input_dim=8, init='uniform', activation='linear', W_constraint=maxnorm(4))) 

    model.add(Dropout(0.2)) 

    model.add(Dense(1, init='uniform', activation='sigmoid')) 

    # Compile model 

    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) 

    return model 

# fix random seed for reproducibility 

seed = 7 

numpy.random.seed(seed) 

# load dataset 

dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",") 

# split into input (X) and output (Y) variables 

X = dataset[:,0:8] 

Y = dataset[:,8] 

# create model 

model = KerasClassifier(build_fn=create_model, nb_epoch=100, batch_size=10, verbose=0) 

# define the grid search parameters 

neurons = [1, 5, 10, 15, 20, 25, 30] 

param_grid = dict(neurons=neurons) 

grid = GridSearchCV(estimator=model, param_grid=param_grid, n_jobs=-1) 

grid_result = grid.fit(X, Y) 

# summarize results 

print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_)) 

for params, mean_score, scores in grid_result.grid_scores_: 

    print("%f (%f) with: %r" % (scores.mean(), scores.std(), params))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20
    
    
    
    21
    
    
    
    22
    
    
    
    23
    
    
    
    24
    
    
    
    25
    
    
    
    26
    
    
    
    27
    
    
    
    28
    
    
    
    29
    
    
    
    30
    
    
    
    31
    
    
    
    32
    
    
    
    33
    
    
    
    34
    
    
    
    35
    
    
    
    36
    
    
    
    37

运行之后输出如下：

Best: 0.714844 using {'neurons': 5} 

0.700521 (0.011201) with: {'neurons': 1} 

0.714844 (0.011049) with: {'neurons': 5} 

0.712240 (0.017566) with: {'neurons': 10} 

0.705729 (0.003683) with: {'neurons': 15} 

0.696615 (0.020752) with: {'neurons': 20} 

0.713542 (0.025976) with: {'neurons': 25} 

0.705729 (0.008027) with: {'neurons': 30}
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

我们可以看到，当网络中隐藏层内神经元的个数为5时，可以达到最佳结果，准确性约为71%。

超参数优化的小技巧

本节罗列了一些神经网络超参数调整时常用的小技巧。

K层交叉检验（k-fold Cross Validation），你可以看到，本文中的不同示例的结果存在一些差异。使用了默认的3层交叉验证，但也许K=5或者K=10时会更加稳定。认真选择您的交叉验证配置，以确保您的结果是稳定的。
审查整个网络。不要只注意最好的结果，审查整个网络的结果，并寻找支持配置决策的趋势。
并行（Parallelize），如果可以，使用全部的CPU，神经网络训练十分缓慢，并且我们经常想尝试不同的参数。参考AWS实例。
使用数据集的样本。由于神经网路的训练十分缓慢，尝试训练在您训练数据集中较小样本，得到总方向的一般参数即可，并非追求最佳的配置。
从粗网格入手。从粗粒度网格入手，并且一旦缩小范围，就细化为细粒度网格。
不要传递结果。结果通常是特定问题。尽量避免在每一个新问题上都采用您最喜欢的配置。你不可能将一个问题的最佳结果转移到另一个问题之上。相反地，你应该归纳更广泛的趋势，例如层的数目或者是参数之间的关系。
再现性（Reproducibility）是一个问题。在NumPy中，尽管我们为随机数发生器设置了种子，但结果并非百分百重现。网格搜索wrapped Keras模型将比本文中所示Keras模型展现更多可重复性（reproducibility）。

总结

在这篇文章中，你可以了解到如何使用Keras和scikit-learn/Python调优神经网络中的超参数。

尤其是可以学到：

如何包装Keras模型以便在scikit-learn使用以及如何使用网格搜索。
如何网格搜索Keras 模型中不同标准的神经网络参数。
如何设计自己的超参数优化实验。

你可能感兴趣的:(python机器学习,keras,grid,search,神经网络,调参)

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
css遗忘的知识2(grid布局，&父类选择器与:has() 讲解) 不断努力的根号七 css css 前端 javascript
---grid布局1.基础Grid布局定义gird布局和行宽.container{display:grid;grid-template-columns:100px200px300px;/*三列，宽度分别为100px,200px,300px*/grid-template-rows:100px200px;/*两行，高度分别为100px,200px*/}常用单位fr(fractionalunit)：可用
游戏开发日记 future1412 学习数据结构 c#
如何用数据表来储存，位置坐标（XYZ）：决定了对象在世界中的摆放资源ID/图片URL：决定了使用什么模型或贴图事件ID/特效：是否触发某些事件（例如点击、交互）逻辑索引（GridIndex）：用于程序检索和映射用途这在策略类、模拟类、RPG游戏中非常常见，例如建筑布局、怪物摆放、地图资源点等。这个表格决定的是玩家事件，使用了的图片名称URL，格子的出入口设置，格子的类型，是否为检察点，场景id，副
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
互联网摸鱼日报(2025-07-10) 每日摸鱼大王每日摸鱼新闻业界资讯
互联网摸鱼日报(2025-07-10)钛媒体盒马超永辉位列三甲，奥乐齐中国一年翻倍|钛媒体独家广汽菲克败走中国，合资“躺赢”时代落幕｜钛度车库白牌才是县城的“救世主”抖音终于抢到了周杰伦爆火的AI4Research，被哈工大车万翔团队讲明白了罗马仕倒下，下一个会是安克吗？马来西亚，东南亚旅游新“一哥”？创造AI安全领域的AlphaGo时刻，Xbow获得7500万美元B轮融资罗马仕之死最卖座的脱口秀
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
每日一题3239.最少翻转次数使二进制矩阵回文；
本题出自LeetCode每日一题3239.最少翻转次数使二进制矩阵回文，初看想着就是一道暴力破解，双指针强硬遍历一横一竖题目给你一个mxn的二进制矩阵grid。如果矩阵中一行或者一列从前往后与从后往前读是一样的，那么我们称这一行或者这一列是回文的。你可以将grid中任意格子的值翻转，也就是将格子里的值从0变成1，或者从1变成0。请你返回最少翻转次数，使得矩阵要么所有行是回文的，要么所有列是回文的。
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
二叉搜索树（BST）海绵宝宝的好伙伴数据结构算法 c++
二叉搜索树（BinarySearchTree,BST），也称为二叉排序树，是一种重要的数据结构。它将树形结构的灵活性与有序性结合起来，使得查找、插入和删除等操作的平均时间复杂度都能达到O(logN)。二分搜索算法，其底层逻辑恰好对应在一棵隐形的二叉搜索树上的查找过程。例如，对有序数组[0,5,24,34,41,58,62,64,67,69,78]进行二分搜索，其过程完全可以可视化为在一棵以58（中
PCL | 体素滤波器pcl::VoxelGrid＜＞ Nines～ ROS 算法 ROS SLAM PCL C++
文章目录概述一、定义介绍二、功能作用三、使用示例源码：解释：概述本节详细介绍pcl::VoxelGrid是PointCloudLibrary(PCL)中的一个常用滤波器，用于对点云数据进行体素栅格化（VoxelGridFiltering）。它将点云分割成一个个体素（voxel），并使用这些体素中的点计算出一个代表性的点，从而减少点云的数量，实现降采样的效果。二、功能作用降采样:在处理大规模点云
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
【Python练习】035. 编写一个函数，实现简单的文本搜索功能视睿从零开始学习机器人 python 开发语言机器人算法人工智能
035.编写一个函数，实现简单的文本搜索功能035.编写一个函数，实现简单的文本搜索功能示例代码代码解释测试结果注意事项多种实现方法方法一：使用字符串内置方法方法二：使用正则表达式方法三：使用列表推导式方法四：使用KMP算法方法五：使用第三方库035.编写一个函数，实现简单的文本搜索功能示例代码importredefsimple_text_search(text,pattern):"""在文本中搜
【docker】Docker部署mysql并提供客户端访问 weixin_42956047 docker MySQL docker mysql docker部署mysql
在服务器使用docker镜像创建容器来部署数据库，如mysql，这种方式是超级常见的，学习时间久了，有点过程会容易遗忘，特此写下博客记录，方便以后使用。1.CentOS7安装docker环境https://www.cnblogs.com/mazhilin/p/11553510.html2.dockerpull最新mysql镜像获取mysql镜像dockersearchmysql//查询mysql镜
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS