woshicver

建立卷积神经网络模型

自从开始在网上写作以来，非常依赖Unsplash。这是一个创造高质量图像的地方。但是你知道Unsplash可以使用机器学习来帮助标记照片吗？

对于上传到Unsplash[…]的每个图像，我们通过一系列机器学习算法运行图像，以了解照片的内容，消除了参与者手动标记照片的需要。

https://unsplash.com/blog/introducing-unsplashs-new-uploaders/

给照片贴标签是一项重要的任务，使用机器可以快速完成。

因此，我们将建立一个模型，可以从图像中提取信息，并提供正确的标签。我们将使用卷积神经网络（CNN）对图像进行分类预测，以确定图像是否与“建筑物”、“森林”、“冰川”、“山脉”、“海洋”或“街道”有关。因此，这是一个图像分类问题。

库

除了我们通常在R中使用的循环库之外，我们还将使用keras。Keras是一种高级神经网络API，旨在实现快速实验。

library(keras)        # 深度学习
library(tidyverse)    # 数据处理
library(imager)       # 图像处理
library(caret)        # 模型评估
library(grid)         # 在网格中显示图像
library(gridExtra)    # 在网格中显示图像

RS <- 42              # 随机状态常数

请注意，我们创建了一个名为RS的变量，它只是一个数字，用于再现性。

数据集

数据由6种不同标签的图像组成：“建筑物”、“森林”、“冰川”、“山脉”、“海洋”和“街道”。

与前一篇文章不同，在前一篇文章中，图像像素数据已转换为一个.csv文件，这次我们使用数据生成器直接读取图像。

https://medium.com/data-folks-indonesia/hand-gesture-recognition-8c0e2927a8bb

为此，我们需要了解图像文件夹结构，如下所示。

seg_train
└── seg_train
    ├── buildings
    ├── forest
    ├── glacier
    ├── mountain
    ├── sea
    └── street
    
seg_test
└── seg_test
    ├── buildings
    ├── forest
    ├── glacier
    ├── mountain
    ├── sea
    └── street

在每个建筑物、森林、冰川、山、海和街道子文件夹中，会保存相应的图像。顾名思义，我们将使用seg_train进行模型训练，使用seg_test进行模型验证。

探索性数据分析

首先，我们需要找到每个类别的父文件夹地址。

folder_list <- list.files("seg_train/seg_train/")
folder_path <- paste0("seg_train/seg_train/", folder_list, "/")
folder_path

#> [1] "seg_train/seg_train/buildings/" "seg_train/seg_train/forest/"    "seg_train/seg_train/glacier/"   "seg_train/seg_train/mountain/" 
#> [5] "seg_train/seg_train/sea/"       "seg_train/seg_train/street/"

然后，列出每个父文件夹地址的所有seg_train图像地址。

file_name <- 
  map(folder_path, function(x) paste0(x, list.files(x))) %>% 
  unlist()

我们可以在下面看到，总共有14034个seg_train图像。

cat("Number of train images:", length(file_name))

#> Number of train images: 14034

让我们看两张训练的图片。

set.seed(RS)
sample_image <- sample(file_name, 18)
img <- map(sample_image, load.image)
grobs <- lapply(img, rasterGrob)
grid.arrange(grobs=grobs, ncol=6)

以第一张图片为例。

img <- load.image(file_name[1])
img

#> Image. Width: 150 pix Height: 150 pix Depth: 1 Colour channels: 3

如下图所示，该图像的尺寸为150×150×1×3。这意味着该特定图像具有150像素的宽度、150像素的高度、1像素的深度和3个颜色通道（对于红色、绿色和蓝色，也称为RGB）。

dim(img)

#> [1] 150 150   1   3

现在，我们将构建一个函数来获取图像的宽度和高度，并将该函数应用于所有图像。

get_dim <- function(x){
  img <- load.image(x) 
  df_img <- data.frame(
    width = width(img),
    height = height(img),
    filename = x
  )
  return(df_img)
}

file_dim <- map_df(file_name, get_dim)
head(file_dim)

#>   width height                                filename
#> 1   150    150     seg_train/seg_train/buildings/0.jpg
#> 2   150    150 seg_train/seg_train/buildings/10006.jpg
#> 3   150    150  seg_train/seg_train/buildings/1001.jpg
#> 4   150    150 seg_train/seg_train/buildings/10014.jpg
#> 5   150    150 seg_train/seg_train/buildings/10018.jpg
#> 6   150    150 seg_train/seg_train/buildings/10029.jpg

我们得到了以下图像的宽度和高度分布。

hist(file_dim$width, breaks = 20)

hist(file_dim$height, breaks = 20)

summary(file_dim)

#>      width         height        filename        
#>  Min.   :150   Min.   : 76.0   Length:14034      
#>  1st Qu.:150   1st Qu.:150.0   Class :character  
#>  Median :150   Median :150.0   Mode  :character  
#>  Mean   :150   Mean   :149.9                     
#>  3rd Qu.:150   3rd Qu.:150.0                     
#>  Max.   :150   Max.   :150.0

正如我们所看到的，数据集具有不同的图像维度。所有宽度均为150像素。然而，最大和最小高度分别为150和76像素。在拟合到模型之前，所有这些图像必须具有相同的大小。这一点至关重要，因为：

拟合每个图像像素值的模型的输入层具有固定数量的神经元，
如果图像尺寸太高，训练模型可能会花费太长时间，并且
如果图像尺寸太低，则会丢失太多信息。

数据预处理

神经网络模型可能出现的一个问题是，它们倾向于存储seg_train数据集中的图像，因此当新的seg_test数据集出现时，它们无法识别它。

数据扩充是解决这一问题的众多技术之一。对于给定的图像，数据增强将稍微对其进行变换，以创建一些新图像。然后将这些新图像拟合到模型中。

通过这种方式，模型知道原始图像的许多版本，并且希望能够理解图像的含义，而不是记住它。我们将只使用一些简单的转换，例如：

随机水平翻转图像
随机旋转10度
按系数0.1随机缩放
随机水平移动总宽度的0.1
随机水平移动总高度的0.1

我们不使用垂直翻转，因为在我们的例子中，它们可以改变图像的含义。

可以使用image_data_generator函数完成此数据扩充。将生成器保存到名为train_data_gen的对象。请注意，train_data_gen仅在训练时应用，我们在预测时不使用它。

在train_data_gen中，我们还执行标准化以减少照明差异的影响。此外，CNN模型在[0..1]数据上的收敛速度快于[0..255]。为此，只需将每个像素值除以255即可。

train_data_gen <- image_data_generator(
  rescale = 1/255,            # 缩放像素值
  horizontal_flip = T,        # 水平翻转图像
  vertical_flip = F,          # 垂直翻转图像
  rotation_range = 10,        # 将图像从0旋转到45度
  zoom_range = 0.1,           # 放大或缩小范围
  width_shift_range = 0.1,    # 水平移位至宽度
  height_shift_range = 0.1,   # 水平移位到高度
)

我们将使用150×150像素作为输入图像的形状，因为150像素是所有图像中最常见的宽度和高度（再次查看EDA），并将大小设置为目标大小。

此外，我们将分批训练模型，每批32个观察值。

target_size <- c(150, 150)
batch_size <- 32

现在，从各自的目录中构建生成器来生成训练和验证数据集。因为我们有彩色RGB图像，所以将颜色模式设置为“RGB”。最后，使用train_data_gen作为生成器并应用先前创建的数据扩充。

# 用于训练数据集
train_image_array_gen <- flow_images_from_directory(
  directory = "seg_train/seg_train/",   # 数据文件夹
  target_size = target_size,   # 图像维度的目标
  color_mode = "rgb",          # 使用rgb颜色
  batch_size = batch_size ,    # 每个批次中的图像数
  seed = RS,                   # 设置随机种子
  generator = train_data_gen   # 数据增强
)

# 用于验证数据集
val_image_array_gen <- flow_images_from_directory(
  directory = "seg_test/seg_test/",
  target_size = target_size, 
  color_mode = "rgb", 
  batch_size = batch_size ,
  seed = RS,
  generator = train_data_gen
)

接下来，我们将看到目标变量中标签的比例，以检查类的不平衡性。

如果存在的话，分类器倾向于建立有偏见的学习模型，与多数类相比，少数类的预测准确率较差。我们可以通过对训练数据集进行上采样或下采样，以最简单的方式解决此问题。

output_n <- n_distinct(train_image_array_gen$classes)
table("Frequency" = factor(train_image_array_gen$classes)) %>% 
  prop.table()
  
#> Frequency
#>         0         1         2         3         4         5 
#> 0.1561208 0.1618213 0.1712983 0.1789939 0.1620351 0.1697307

幸运的是，如上所述，所有的类都是相对平衡的！

建模

首先，让我们保存我们使用的训练和验证图像的数量。除了训练数据之外，我们还需要不同的数据进行验证，因为我们不希望我们的模型只擅长于预测它看到的图像，还可以推广到看不见的图像。这种对看不见图像的需求正是我们还必须在验证数据集上查看模型性能的原因。

因此，我们可以在下面看到，我们有14034张图像用于训练（如前所述），3000张图像用于验证模型。

train_samples <- train_image_array_gen$n
valid_samples <- val_image_array_gen$n
train_samples

#> [1] 14034

valid_samples

#> [1] 3000

我们将从最简单的模型逐步构建三个模型。

简单CNN

此模型只有4个隐藏层，包括最大池和平坦层，以及1个输出层，详情如下：

卷积层：滤波器16，核大小3×3，same填充，relu激活函数
最大池层：池大小2×2
平坦层
密集层：16节点，relu激活函数
密集层（输出）：6个节点，softmax激活函数

请注意，我们使用平坦层作为从网络的卷积部分到密集部分的桥梁。基本上，平坦层——顾名思义——将最后一个卷积层的维度展平为单个密集层。例如，假设我们有一个大小为（8，8，32）的卷积层。这里，32是滤波器的数量。平坦层将把这个张量重塑成2048大小的向量。

在输出层，我们使用softmax激活函数，因为这是一个多类分类问题。最后，我们需要指定CNN输入层所需的图像大小。如前所述，我们将使用一个150×150像素的图像大小和3个RGB通道，存储在target_size中。

现在，我们准备好了。

# 设置初始随机权重
tensorflow::tf$random$set_seed(RS)

model <- keras_model_sequential(name = "simple_model") %>% 
  
  # 卷积层
  layer_conv_2d(filters = 16,
                kernel_size = c(3,3),
                padding = "same",
                activation = "relu",
                input_shape = c(target_size, 3) 
                ) %>% 

  # 最大池层
  layer_max_pooling_2d(pool_size = c(2,2)) %>% 
  
  # 平坦层
  layer_flatten() %>% 
  
  # 全连接层
  layer_dense(units = 16,
              activation = "relu") %>% 
  
  # Output Layer
  layer_dense(units = output_n,
              activation = "softmax",
              name = "Output")
  
summary(model)
#> Model: "simple_model"
#> _________________________________________________________________
#> Layer (type)                                                  Output Shape                                           Param #              
#> =================================================================
#> conv2d (Conv2D)                                               (None, 150, 150, 16)                                   448                  
#> _________________________________________________________________
#> max_pooling2d (MaxPooling2D)                                  (None, 75, 75, 16)                                     0                    
#> _________________________________________________________________
#> flatten (Flatten)                                             (None, 90000)                                          0                    
#> _________________________________________________________________
#> dense (Dense)                                                 (None, 16)                                             1440016              
#> _________________________________________________________________
#> Output (Dense)                                                (None, 6)                                              102                  
#> =================================================================
#> Total params: 1,440,566
#> Trainable params: 1,440,566
#> Non-trainable params: 0
#> _________________________________________________________________

构建完成后，我们对模型进行编译和训练。

我们使用分类交叉熵作为损失函数，因为这也是一个多类分类问题。我们使用默认学习率为0.001的adam优化器，因为adam是最有效的优化器之一。

为了简单起见，我们还使用准确率作为衡量标准。更重要的是，由于我们不喜欢一个类别高于其他类别，而且每个类别都是平衡的，因此与精确性、敏感性或特异性相比，准确率更受青睐。我们将对模型进行10个epoch的训练。

model %>% 
  compile(
    loss = "categorical_crossentropy",
    optimizer = optimizer_adam(lr = 0.001),
    metrics = "accuracy"
  )

# 拟合数据
history <- model %>% 
  fit_generator(
    # 训练数据
    train_image_array_gen,
  
    # 训练epoch数
    steps_per_epoch = as.integer(train_samples / batch_size), 
    epochs = 10, 
    
    # 验证数据
    validation_data = val_image_array_gen,
    validation_steps = as.integer(valid_samples / batch_size)
  )
plot(history)

从第十个epoch的最终训练和验证准确率可以看出，它们具有相似的值，并且相对较高，这意味着没有出现过拟合。

接下来，我们将对验证数据集上的所有图像进行预测（而不是像在训练中那样按批次进行预测）。首先，让我们将每个图像及其对应类的路径制成表格。

val_data <- data.frame(file_name = paste0("seg_test/seg_test/", val_image_array_gen$filenames)) %>% 
  mutate(class = str_extract(file_name, "buildings|forest|glacier|mountain|sea|street"))

head(val_data)

#>                                file_name     class
#> 1 seg_test/seg_test/buildings\\20057.jpg buildings
#> 2 seg_test/seg_test/buildings\\20060.jpg buildings
#> 3 seg_test/seg_test/buildings\\20061.jpg buildings
#> 4 seg_test/seg_test/buildings\\20064.jpg buildings
#> 5 seg_test/seg_test/buildings\\20073.jpg buildings
#> 6 seg_test/seg_test/buildings\\20074.jpg buildings

然后，我们将每个图像转换为一个数组。不要忘记对像素值进行标准化，也就是说，将它们除以255。

image_prep <- function(x, target_size) {
  arrays <- lapply(x, function(path) {
    img <- image_load(
      path, 
      target_size = target_size, 
      grayscale = F
    )
    x <- image_to_array(img)
    x <- array_reshape(x, c(1, dim(x)))
    x <- x/255
  })
  do.call(abind::abind, c(arrays, list(along = 1)))
}

test_x <- image_prep(val_data$file_name, target_size)
dim(test_x)

#> [1] 3000  150  150    3

接下来，预测：

pred_test <- predict_classes(model, test_x) 

head(pred_test)

#> [1] 4 0 0 0 4 3

现在，将每个预测解码为相应的类。

decode <- function(x){
  case_when(
    x == 0 ~ "buildings",
    x == 1 ~ "forest",
    x == 2 ~ "glacier",
    x == 3 ~ "mountain",
    x == 4 ~ "sea",
    x == 5 ~ "street",
  )
}

pred_test <- sapply(pred_test, decode)
head(pred_test)

#> [1] "sea"       "buildings" "buildings" "buildings" "sea"       "mountain"

最后，分析混淆矩阵。

cm_simple <- confusionMatrix(as.factor(pred_test), as.factor(val_data$class))
acc_simple <- cm_simple$overall['Accuracy']
cm_simple

#> Confusion Matrix and Statistics
#> 
#>            Reference
#> Prediction  buildings forest glacier mountain sea street
#>   buildings       348     24      14       20  35    106
#>   forest            8    418       3        4   4     19
#>   glacier           7      5     357       53  38      5
#>   mountain         19      6      98      381  61      5
#>   sea              13      1      75       65 363      6
#>   street           42     20       6        2   9    360
#> 
#> Overall Statistics
#>                                                
#>                Accuracy : 0.7423               
#>                  95% CI : (0.7263, 0.7579)     
#>     No Information Rate : 0.1843               
#>     P-Value [Acc > NIR] : < 0.00000000000000022
#>                                                
#>                   Kappa : 0.6909               
#>                                                
#>  Mcnemar's Test P-Value : 0.0000000001327      
#> 
#> Statistics by Class:
#> 
#>                      Class: buildings Class: forest Class: glacier Class: mountain Class: sea Class: street
#> Sensitivity                    0.7963        0.8819         0.6456          0.7257     0.7118        0.7186
#> Specificity                    0.9224        0.9850         0.9559          0.9236     0.9357        0.9684
#> Pos Pred Value                 0.6362        0.9167         0.7677          0.6684     0.6941        0.8200
#> Neg Pred Value                 0.9637        0.9780         0.9227          0.9407     0.9407        0.9449
#> Prevalence                     0.1457        0.1580         0.1843          0.1750     0.1700        0.1670
#> Detection Rate                 0.1160        0.1393         0.1190          0.1270     0.1210        0.1200
#> Detection Prevalence           0.1823        0.1520         0.1550          0.1900     0.1743        0.1463
#> Balanced Accuracy              0.8593        0.9334         0.8007          0.8247     0.8238        0.8435

从混淆矩阵可以看出，模型很难区分每个类别。验证数据集的准确率为74%。有106个街道图像预测为建筑物，占所有街道图像的20%以上。这是有道理的，因为在许多街道图像中，建筑物也存在。

我们可以通过各种方式提高模型性能。但是现在，让我们通过简单地改变架构来改进它。

更深的CNN

现在我们制作一个更深的CNN，有更多的卷积层。以下是体系结构：

块1：2个卷积层和1个最大池层
块2：1个卷积层和1个最大池层
块3：1个卷积层和1个最大池层
块4：1个卷积层和1个最大池层
平坦层
一个致密层
输出层

tensorflow::tf$random$set_seed(RS)

model_big <- keras_model_sequential(name = "model_big") %>%
  
  # 第一个卷积层
  layer_conv_2d(filters = 32,
                kernel_size = c(5,5), # 5 x 5 filters
                padding = "same",
                activation = "relu",
                input_shape = c(target_size, 3)
                ) %>% 
  
  # 第二个卷积层
  layer_conv_2d(filters = 32,
                kernel_size = c(3,3), # 3 x 3 filters
                padding = "same",
                activation = "relu"
                ) %>% 
  
  # 最大池层
  layer_max_pooling_2d(pool_size = c(2,2)) %>% 
  
  # 第三个卷积层
  layer_conv_2d(filters = 64,
                kernel_size = c(3,3),
                padding = "same",
                activation = "relu"
                ) %>% 

  # 最大池层
  layer_max_pooling_2d(pool_size = c(2,2)) %>% 
  
  # 第四个卷积层
  layer_conv_2d(filters = 128,
                kernel_size = c(3,3),
                padding = "same",
                activation = "relu"
                ) %>% 
  
  # 最大池层
  layer_max_pooling_2d(pool_size = c(2,2)) %>% 

  # 第五个卷积层
  layer_conv_2d(filters = 256,
                kernel_size = c(3,3),
                padding = "same",
                activation = "relu"
                ) %>% 
  
  # 最大池层
  layer_max_pooling_2d(pool_size = c(2,2)) %>% 
  
  # 平坦层
  layer_flatten() %>% 
  
  # 密集层
  layer_dense(units = 64,
              activation = "relu") %>% 
  
  # 输出层
  layer_dense(name = "Output",
              units = output_n, 
              activation = "softmax")

summary(model_big)
#> Model: "model_big"
#> _________________________________________________________________
#> Layer (type)                                                  Output Shape                                           Param #              
#> =================================================================
#> conv2d_5 (Conv2D)                                             (None, 150, 150, 32)                                   2432                 
#> _________________________________________________________________
#> conv2d_4 (Conv2D)                                             (None, 150, 150, 32)                                   9248                 
#> _________________________________________________________________
#> max_pooling2d_4 (MaxPooling2D)                                (None, 75, 75, 32)                                     0                    
#> _________________________________________________________________
#> conv2d_3 (Conv2D)                                             (None, 75, 75, 64)                                     18496                
#> _________________________________________________________________
#> max_pooling2d_3 (MaxPooling2D)                                (None, 37, 37, 64)                                     0                    
#> _________________________________________________________________
#> conv2d_2 (Conv2D)                                             (None, 37, 37, 128)                                    73856                
#> _________________________________________________________________
#> max_pooling2d_2 (MaxPooling2D)                                (None, 18, 18, 128)                                    0                    
#> _________________________________________________________________
#> conv2d_1 (Conv2D)                                             (None, 18, 18, 256)                                    295168               
#> _________________________________________________________________
#> max_pooling2d_1 (MaxPooling2D)                                (None, 9, 9, 256)                                      0                    
#> _________________________________________________________________
#> flatten_1 (Flatten)                                           (None, 20736)                                          0                    
#> _________________________________________________________________
#> dense_1 (Dense)                                               (None, 64)                                             1327168              
#> _________________________________________________________________
#> Output (Dense)                                                (None, 6)                                              390                  
#> =================================================================
#> Total params: 1,726,758
#> Trainable params: 1,726,758
#> Non-trainable params: 0
#> _________________________________________________________________

其余部分与前面所做的相同。

model_big %>%
  compile(
    loss = "categorical_crossentropy",
    optimizer = optimizer_adam(lr = 0.001),
    metrics = "accuracy"
  )

history <- model_big %>%
  fit_generator(
    train_image_array_gen,
    steps_per_epoch = as.integer(train_samples / batch_size),
    epochs = 10,
    validation_data = val_image_array_gen,
    validation_steps = as.integer(valid_samples / batch_size)
  )
  
plot(history)

pred_test <- predict_classes(model_big, test_x)
pred_test <- sapply(pred_test, decode)
cm_big <- confusionMatrix(as.factor(pred_test), as.factor(val_data$class))
acc_big <- cm_big$overall['Accuracy']
cm_big

#> Confusion Matrix and Statistics
#> 
#>            Reference
#> Prediction  buildings forest glacier mountain sea street
#>   buildings       390      3      24       24  11     34
#>   forest            3    465      11        7   8     11
#>   glacier           2      0     367       35   9      1
#>   mountain          0      2      82      415  17      1
#>   sea               3      1      57       42 461      6
#>   street           39      3      12        2   4    448
#> 
#> Overall Statistics
#>                                                
#>                Accuracy : 0.8487               
#>                  95% CI : (0.8353, 0.8613)     
#>     No Information Rate : 0.1843               
#>     P-Value [Acc > NIR] : < 0.00000000000000022
#>                                                
#>                   Kappa : 0.8185               
#>                                                
#>  Mcnemar's Test P-Value : < 0.00000000000000022
#> 
#> Statistics by Class:
#> 
#>                      Class: buildings Class: forest Class: glacier Class: mountain Class: sea Class: street
#> Sensitivity                    0.8924        0.9810         0.6637          0.7905     0.9039        0.8942
#> Specificity                    0.9625        0.9842         0.9808          0.9588     0.9562        0.9760
#> Pos Pred Value                 0.8025        0.9208         0.8865          0.8027     0.8088        0.8819
#> Neg Pred Value                 0.9813        0.9964         0.9281          0.9557     0.9798        0.9787
#> Prevalence                     0.1457        0.1580         0.1843          0.1750     0.1700        0.1670
#> Detection Rate                 0.1300        0.1550         0.1223          0.1383     0.1537        0.1493
#> Detection Prevalence           0.1620        0.1683         0.1380          0.1723     0.1900        0.1693
#> Balanced Accuracy              0.9275        0.9826         0.8222          0.8746     0.9301        0.9351

这一结果总体上优于早期模型，因为模型更复杂，因此能够捕获更多的特征。我们在验证数据集上获得了85%的准确率。虽然对街道图像的预测已经有所改善，但对冰川图像的预测仍在进行中。

带预训练权重的CNN

实际上，研究人员已经为图像分类问题开发了许多模型，从VGG模型系列到谷歌开发的最新最先进的EfficientNet。

为了便于学习，在本节中，我们将使用VGG16模型，因为它是所有模型中最简单的模型之一，它只包括我们前面介绍的卷积层、最大池层和密集层。这个过程被称为迁移学习，它将预训练好的模型的知识转移到解决我们的问题上。

最初的VGG16模型接受了1000个类的训练。为了使其适合我们的问题，我们将排除模型的顶层（密集层），并插入我们版本的预测层，其中包括一个全局平均池层（作为平坦层的替代）、一个具有64个节点的密集层和一个具有6个节点的输出层（用于6个类）。

让我们看看总体架构。

# 加载没有顶层的原始模型
input_tensor <- layer_input(shape = c(target_size, 3))
base_model <- application_vgg16(input_tensor = input_tensor, 
                                weights = 'imagenet', 
                                include_top = FALSE)

# 添加我们的自定义层
predictions <- base_model$output %>%
  layer_global_average_pooling_2d() %>%
  layer_dense(units = 64, activation = 'relu') %>%
  layer_dense(units = output_n, activation = 'softmax')

# 这是我们将要训练的模型
vgg16 <- keras_model(inputs = base_model$input, outputs = predictions)

summary(vgg16)
#> Model: "model"
#> _________________________________________________________________
#> Layer (type)                                                  Output Shape                                           Param #              
#> =================================================================
#> input_1 (InputLayer)                                          [(None, 150, 150, 3)]                                  0                    
#> _________________________________________________________________
#> block1_conv1 (Conv2D)                                         (None, 150, 150, 64)                                   1792                 
#> _________________________________________________________________
#> block1_conv2 (Conv2D)                                         (None, 150, 150, 64)                                   36928                
#> _________________________________________________________________
#> block1_pool (MaxPooling2D)                                    (None, 75, 75, 64)                                     0                    
#> _________________________________________________________________
#> block2_conv1 (Conv2D)                                         (None, 75, 75, 128)                                    73856                
#> _________________________________________________________________
#> block2_conv2 (Conv2D)                                         (None, 75, 75, 128)                                    147584               
#> _________________________________________________________________
#> block2_pool (MaxPooling2D)                                    (None, 37, 37, 128)                                    0                    
#> _________________________________________________________________
#> block3_conv1 (Conv2D)                                         (None, 37, 37, 256)                                    295168               
#> _________________________________________________________________
#> block3_conv2 (Conv2D)                                         (None, 37, 37, 256)                                    590080               
#> _________________________________________________________________
#> block3_conv3 (Conv2D)                                         (None, 37, 37, 256)                                    590080               
#> _________________________________________________________________
#> block3_pool (MaxPooling2D)                                    (None, 18, 18, 256)                                    0                    
#> _________________________________________________________________
#> block4_conv1 (Conv2D)                                         (None, 18, 18, 512)                                    1180160              
#> _________________________________________________________________
#> block4_conv2 (Conv2D)                                         (None, 18, 18, 512)                                    2359808              
#> _________________________________________________________________
#> block4_conv3 (Conv2D)                                         (None, 18, 18, 512)                                    2359808              
#> _________________________________________________________________
#> block4_pool (MaxPooling2D)                                    (None, 9, 9, 512)                                      0                    
#> _________________________________________________________________
#> block5_conv1 (Conv2D)                                         (None, 9, 9, 512)                                      2359808              
#> _________________________________________________________________
#> block5_conv2 (Conv2D)                                         (None, 9, 9, 512)                                      2359808              
#> _________________________________________________________________
#> block5_conv3 (Conv2D)                                         (None, 9, 9, 512)                                      2359808              
#> _________________________________________________________________
#> block5_pool (MaxPooling2D)                                    (None, 4, 4, 512)                                      0                    
#> _________________________________________________________________
#> global_average_pooling2d (GlobalAveragePooling2D)             (None, 512)                                            0                    
#> _________________________________________________________________
#> dense_3 (Dense)                                               (None, 64)                                             32832                
#> _________________________________________________________________
#> dense_2 (Dense)                                               (None, 6)                                              390                  
#> =================================================================
#> Total params: 14,747,910
#> Trainable params: 14,747,910
#> Non-trainable params: 0
#> _________________________________________________________________

我们可以直接使用vgg16进行训练和预测，但同样，为了学习，让我们自己从头开始创建vgg16模型。

model_bigger <- keras_model_sequential(name = "model_bigger") %>% 
  
  # 块一
  layer_conv_2d(filters = 64, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                input_shape = c(94, 94, 3),
                name='block1_conv1') %>% 
  
  layer_conv_2d(filters = 64, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block1_conv2') %>% 
    
  layer_max_pooling_2d(pool_size = c(2, 2), 
                       strides=c(2, 2), 
                       name='block1_pool') %>% 
  
  # 块二
  layer_conv_2d(filters = 128, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block2_conv1') %>% 
    
  layer_conv_2d(filters = 128, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block2_conv2') %>% 
    
  layer_max_pooling_2d(pool_size = c(2, 2), 
                       strides=c(2, 2), 
                       name='block2_pool') %>% 
  
  # 块三
  layer_conv_2d(filters = 256, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block3_conv1') %>% 
  
  layer_conv_2d(filters = 256, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block3_conv2') %>% 
    
  layer_conv_2d(filters = 256, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block3_conv3') %>% 
    
  layer_max_pooling_2d(pool_size = c(2, 2), 
                       strides=c(2, 2), 
                       name='block3_pool') %>% 
  
  # 块四
  layer_conv_2d(filters = 512, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block4_conv1') %>% 
  
  layer_conv_2d(filters = 512, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block4_conv2') %>% 
    
  layer_conv_2d(filters = 512, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block4_conv3') %>% 
  
  layer_max_pooling_2d(pool_size = c(2, 2), 
                       strides=c(2, 2), 
                       name='block4_pool') %>% 
  
  # 块五
  layer_conv_2d(filters = 512, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block5_conv1') %>% 
    
  layer_conv_2d(filters = 512, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block5_conv2') %>% 
    
  layer_conv_2d(filters = 512, 
                kernel_size = c(3, 3), 
                activation='relu', 
                padding='same', 
                name='block5_conv3') %>% 
    
  layer_max_pooling_2d(pool_size = c(2, 2), 
                       strides=c(2, 2), 
                       name='block5_pool') %>% 
  
  # 全连接层
  layer_global_average_pooling_2d() %>%
  layer_dense(units = 64, activation = 'relu') %>%
  layer_dense(units = output_n, activation = 'softmax')

model_bigger


#> Model
#> Model: "model_bigger"
#> _________________________________________________________________
#> Layer (type)                                                  Output Shape                                           Param #              
#> =================================================================
#> block1_conv1 (Conv2D)                                         (None, 94, 94, 64)                                     1792                 
#> _________________________________________________________________
#> block1_conv2 (Conv2D)                                         (None, 94, 94, 64)                                     36928                
#> _________________________________________________________________
#> block1_pool (MaxPooling2D)                                    (None, 47, 47, 64)                                     0                    
#> _________________________________________________________________
#> block2_conv1 (Conv2D)                                         (None, 47, 47, 128)                                    73856                
#> _________________________________________________________________
#> block2_conv2 (Conv2D)                                         (None, 47, 47, 128)                                    147584               
#> _________________________________________________________________
#> block2_pool (MaxPooling2D)                                    (None, 23, 23, 128)                                    0                    
#> _________________________________________________________________
#> block3_conv1 (Conv2D)                                         (None, 23, 23, 256)                                    295168               
#> _________________________________________________________________
#> block3_conv2 (Conv2D)                                         (None, 23, 23, 256)                                    590080               
#> _________________________________________________________________
#> block3_conv3 (Conv2D)                                         (None, 23, 23, 256)                                    590080               
#> _________________________________________________________________
#> block3_pool (MaxPooling2D)                                    (None, 11, 11, 256)                                    0                    
#> _________________________________________________________________
#> block4_conv1 (Conv2D)                                         (None, 11, 11, 512)                                    1180160              
#> _________________________________________________________________
#> block4_conv2 (Conv2D)                                         (None, 11, 11, 512)                                    2359808              
#> _________________________________________________________________
#> block4_conv3 (Conv2D)                                         (None, 11, 11, 512)                                    2359808              
#> _________________________________________________________________
#> block4_pool (MaxPooling2D)                                    (None, 5, 5, 512)                                      0                    
#> _________________________________________________________________
#> block5_conv1 (Conv2D)                                         (None, 5, 5, 512)                                      2359808              
#> _________________________________________________________________
#> block5_conv2 (Conv2D)                                         (None, 5, 5, 512)                                      2359808              
#> _________________________________________________________________
#> block5_conv3 (Conv2D)                                         (None, 5, 5, 512)                                      2359808              
#> _________________________________________________________________
#> block5_pool (MaxPooling2D)                                    (None, 2, 2, 512)                                      0                    
#> _________________________________________________________________
#> global_average_pooling2d_1 (GlobalAveragePooling2D)           (None, 512)                                            0                    
#> _________________________________________________________________
#> dense_5 (Dense)                                               (None, 64)                                             32832                
#> _________________________________________________________________
#> dense_4 (Dense)                                               (None, 6)                                              390                  
#> =================================================================
#> Total params: 14,747,910
#> Trainable params: 14,747,910
#> Non-trainable params: 0
#> _________________________________________________________________

请注意，model_bigger的每个层的参数数量与vgg16完全相同。

迁移学习的优点是，我们不必从随机权重开始训练模型，而是从原始模型的预训练权重开始。这些预训练好的权重已经针对图像分类问题进行了优化，我们只需对它们进行微调以符合我们的目的。

因此，隐喻是：

我们站在巨人的肩膀上。

也就是说，让我们将vgg16的所有权重分配给模型。

set_weights(model_bigger, get_weights(vgg16))

下面是我们的模型层的摘要：

layers <- model_bigger$layers
for (i in 1:length(layers))
  cat(i, layers[[i]]$name, "\n")
  
#> 1 block1_conv1 
#> 2 block1_conv2 
#> 3 block1_pool 
#> 4 block2_conv1 
#> 5 block2_conv2 
#> 6 block2_pool 
#> 7 block3_conv1 
#> 8 block3_conv2 
#> 9 block3_conv3 
#> 10 block3_pool 
#> 11 block4_conv1 
#> 12 block4_conv2 
#> 13 block4_conv3 
#> 14 block4_pool 
#> 15 block5_conv1 
#> 16 block5_conv2 
#> 17 block5_conv3 
#> 18 block5_pool 
#> 19 global_average_pooling2d_1 
#> 20 dense_5 
#> 21 dense_4

请注意，层19–21仍然具有随机权重，因为它们是由我们创建的，并且不是来自原始模型。我们只需要冻结所有层以便单独训练这些层。

freeze_weights(model_bigger, from = 1, to = 18)

为了训练这些预测层，我们只需使用前面的设置。

# 编译模型
model_bigger %>% compile(loss = "categorical_crossentropy",
                         optimizer = optimizer_adam(lr = 0.001),
                         metrics = "accuracy")

history <- model_bigger %>%
  fit_generator(
  train_image_array_gen,
  steps_per_epoch = as.integer(train_samples / batch_size),
  epochs = 10,
  validation_data = val_image_array_gen,
  validation_steps = as.integer(valid_samples / batch_size)
)

现在，对模型进行微调。要做到这一点，我们应该对优化器应用较低的学习率，以便建立的预训练权重不会混乱。我们将使用0.00001的学习率。

此外，为了节省时间，我们只对模型进行4个epoch的训练。

在微调之前，不要忘记解冻要训练的层。在本例中，我们将解冻所有层。

unfreeze_weights(model_bigger)

# 以低学习率重新编译
model_bigger %>% compile(loss = "categorical_crossentropy",
                         optimizer = optimizer_adam(lr = 0.00001),
                         metrics = "accuracy")

history <- model_bigger %>%
  fit_generator(
  train_image_array_gen,
  steps_per_epoch = as.integer(train_samples / batch_size),
  epochs = 4,
  validation_data = val_image_array_gen,
  validation_steps = as.integer(valid_samples / batch_size)
)

plot(history)

pred_test <- predict_classes(model_bigger, test_x)
pred_test <- sapply(pred_test, decode)
cm_bigger <- confusionMatrix(as.factor(pred_test), as.factor(val_data$class))
acc_bigger <- cm_bigger$overall['Accuracy']
cm_bigger


#> Confusion Matrix and Statistics
#> 
#>            Reference
#> Prediction  buildings forest glacier mountain sea street
#>   buildings       396      0       2        1   2     13
#>   forest            1    469       2        2   4      0
#>   glacier           1      2     479       61   5      0
#>   mountain          0      0      50      452   4      0
#>   sea               1      1      16        7 492      2
#>   street           38      2       4        2   3    486
#> 
#> Overall Statistics
#>                                               
#>                Accuracy : 0.9247              
#>                  95% CI : (0.9146, 0.9339)    
#>     No Information Rate : 0.1843              
#>     P-Value [Acc > NIR] : < 0.0000000000000002
#>                                               
#>                   Kappa : 0.9095              
#>                                               
#>  Mcnemar's Test P-Value : 0.00281             
#> 
#> Statistics by Class:
#> 
#>                      Class: buildings Class: forest Class: glacier Class: mountain Class: sea Class: street
#> Sensitivity                    0.9062        0.9895         0.8662          0.8610     0.9647        0.9701
#> Specificity                    0.9930        0.9964         0.9718          0.9782     0.9892        0.9804
#> Pos Pred Value                 0.9565        0.9812         0.8741          0.8933     0.9480        0.9084
#> Neg Pred Value                 0.9841        0.9980         0.9698          0.9707     0.9927        0.9939
#> Prevalence                     0.1457        0.1580         0.1843          0.1750     0.1700        0.1670
#> Detection Rate                 0.1320        0.1563         0.1597          0.1507     0.1640        0.1620
#> Detection Prevalence           0.1380        0.1593         0.1827          0.1687     0.1730        0.1783
#> Balanced Accuracy              0.9496        0.9929         0.9190          0.9196     0.9769        0.9752

模型在验证数据集上的准确率为92%！尽管如此，仍然存在一些错误分类，因为没有一个模型是完美的。以下是预测的摘要：

有些建筑被错误地预测为街道，反之亦然。同样，这是由于一些包含街道的建筑物图像混淆了模型。
森林的预测几乎是完美的。
许多冰川被预测为山脉和海洋，也有许多山脉被预测为冰川。
海洋预测良好。

结论

rbind(
  "Simple CNN" = acc_simple,
  "Deeper CNN" = acc_big,
  "Fine-tuned VGG16" = acc_bigger
)

#>                   Accuracy
#> Simple CNN       0.7423333
#> Deeper CNN       0.8486667
#> Fine-tuned VGG16 0.9246667

我们已经成功地完成了6个类别的图像分类：“建筑物”、“森林”、“冰川”、“山”、“海”和“街道”。

由于图像是非结构化数据，可以通过使用神经网络进行机器学习来解决这一问题，神经网络可以自动进行特征提取，而无需人工干预。

为了获得更好的性能，我们使用卷积神经网络对密集层进行连续预测。最后，我们使用VGG16模型进行初始化权重，达到92%的准确率。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 woshicver」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓

你可能感兴趣的:(卷积,神经网络,机器学习,人工智能,深度学习)

强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期|数商云数商云网络 B2B系统数字化电商平台人工智能大数据云计算数据库运维 java spring
引言在数字经济时代，B2B（Business-to-Business）电子商务正在以前所未有的速度改变着企业的运营模式。随着交易量的不断攀升，传统的合同生成和审核流程逐渐成为制约交易效率的瓶颈。然而，随着人工智能（AI）技术的飞速发展，结合B2B系统的智能化升级，我们正见证一场合同生成效率的革命。本文将深入探讨“30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期”这一创新模式，解析其背后的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S