東方海竹

Keras计算机视觉（二）

第一部分认识CNN

一、quickly start

所见即所得，先看一下CNN在MNIST上的运行Demo

from keras import layers
from keras import models

model = models.Sequential()
# 定义一个卷积输入层，卷积核是3*3，共32个，输入是(28, 28, 1)，输出是(26, 26, 32)
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
# 定义一个2*2的池化层
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
# 将所有的输出展平
model.add(layers.Flatten())
# 定义一个全连接层，有64个神经元
model.add(layers.Dense(64, activation='relu'))
# 多分类问题，将输出在每个分类上的概率
model.add(layers.Dense(10, activation='softmax'))
model.summary()

打印网络结构

_________________________________________________________________
Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 26, 26, 32)        320       
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 13, 13, 32)        0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 11, 11, 64)        18496     
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 5, 5, 64)          0         
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 3, 3, 64)          36928     
_________________________________________________________________
flatten_1 (Flatten)          (None, 576)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 64)                36928     
_________________________________________________________________
dense_2 (Dense)              (None, 10)                650       
_________________________________________________________________
Total params: 93,322
Trainable params: 93,322
Non-trainable params: 0
_________________________________________________________________

加载数据开始训练

from keras.datasets import mnist
from keras.utils import to_categorical

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28, 28, 1))
test_images = test_images.astype('float32') / 255

train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)
print('train data:', train_images.shape, train_labels.shape)
print('test data:', test_images.shape, test_labels.shape)

# 训练数据准确的已经明显优于全连接网络
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.fit(train_images, train_labels, epochs=5, batch_size=64)
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(test_loss, test_acc)

train data: (60000, 28, 28, 1) (60000, 10)
test data: (10000, 28, 28, 1) (10000, 10)
0.025266158195689788
0.9919000267982483

二、卷积网络介绍

全连接层与卷积层根本的区别在于，全连接层从输入特征空间中学到的是全局模式，而卷积层学到的是局部模式

卷积神经网络具有平移不变性，一个地方学到的识别能力可以用到其他的任何地方
卷积神经网络可以学到模式的空间层次结构

# CNN在Keras上的API
tf.keras.layers.Conv2D(
    filters, # 卷积核的个数
    kernel_size, # 卷积核的大小，常用的是（3，3）
    strides=(1, 1), # 核移动步幅
    padding='valid', # 是否需要边界填充
    data_format=None,
    dilation_rate=(1, 1), 
    activation=None, # 激活函数
    use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='zeros',
    kernel_regularizer=None, 
    bias_regularizer=None, 
    activity_regularizer=None,
    kernel_constraint=None, 
    bias_constraint=None, 
    **kwargs
)

2.1 卷积核运算

卷积计算类似于点积，一个矩阵(3, 3, 2)卷积(3, 3, 2)的结果是(1)
如上图所示：
输入为 (5, 5, 2) （高，宽，深度）
卷积核为 (3, 3, 2)
一个卷积核的输出为 (3, 3, 1)
三个卷积核的输出为 (3, 3, 3)
图中输出深度(1, 1, 3)表示的是三个卷积核在一个位置上的输出

2.2 边界填充Padding

边界填充的目的是为了充分发掘边界的信息，确保每个点都成为过核心，所以
对于(3, 3)的卷积核，我们往左右同时增加一列；
对于(5, 5)的卷积核，我们左右同时增加两列。
参数padding='same’表示需要边界填充

2.3 卷积步幅strides

步幅很好理解，就是卷积核计算完后需要往下一格挪动几个位置

2.4 最大池化层MaxPooling

最大池化层通常使用2*2的窗口，步幅为2进行特征下采样
作用有二：
1、减少需要处理的特征图的元素个数
2、增加卷积层的观察窗口（即窗口覆盖原始输入的比例越来越大）
一个张量输入(28, 28, 32)，经过(2, 2)的MaxPooling处理，输出张量(14, 14, 32)，其过程直观的可以理解为取相邻(2, 2)矩阵里面的最大值。当然也有其他的处理方法，比如取平均值。

第二部分：CNN在Keras上的实践

一、做好基础数据准备

实践案例：猫狗分类
数据下载：https://www.kaggle.com/c/dogs-vs-cats/data
源数据： 2000 张猫的图像 + 2000 张狗的图像
数据划分： 2000 张训练，1000 张验证，1000张测试

数据准备，从下载好的数据中清洗出源数据
目录结构：
cat-dog-small
├─test
  │ ├─cats 500张
  │ └─dogs 500张
├─train
  │ ├─cats 1000张
  │ └─dogs 1000张
└─validation
├─cats 500张
└─dogs 500张

import os, shutil
# The path to the directory where the original
# dataset was uncompressed
original_dataset_dir = 'D://Kaggle//cat-dog//train'

# The directory where we will
# store our smaller dataset
base_dir = 'D://Kaggle//cat-dog-small'
os.mkdir(base_dir)

# Directories for our training splits
train_dir = os.path.join(base_dir, 'train')
os.mkdir(train_dir)
train_cats_dir = os.path.join(train_dir, 'cats')
os.mkdir(train_cats_dir)
train_dogs_dir = os.path.join(train_dir, 'dogs')
os.mkdir(train_dogs_dir)

# Directories for our validation splits
validation_dir = os.path.join(base_dir, 'validation')
os.mkdir(validation_dir)
validation_cats_dir = os.path.join(validation_dir, 'cats')
os.mkdir(validation_cats_dir)
validation_dogs_dir = os.path.join(validation_dir, 'dogs')
os.mkdir(validation_dogs_dir)

# Directories for our test splits
test_dir = os.path.join(base_dir, 'test')
os.mkdir(test_dir)
test_cats_dir = os.path.join(test_dir, 'cats')
os.mkdir(test_cats_dir)
test_dogs_dir = os.path.join(test_dir, 'dogs')
os.mkdir(test_dogs_dir)

# Copy first 1000 cat images to train_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(train_cats_dir, fname)
    shutil.copyfile(src, dst)

# Copy next 500 cat images to validation_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(validation_cats_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy next 500 cat images to test_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(test_cats_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy first 1000 dog images to train_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(train_dogs_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy next 500 dog images to validation_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(validation_dogs_dir, fname)
    shutil.copyfile(src, dst)
    
# Copy next 500 dog images to test_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(test_dogs_dir, fname)
    shutil.copyfile(src, dst)

数据处理，一切都仰仗于ImageDataGenerator
按批次的从指定目录中获得图片，并解码、归一化
真的很方便、省心、稳

from keras.preprocessing.image import ImageDataGenerator

# All images will be rescaled by 1./255
train_datagen = ImageDataGenerator(rescale=1./255)
validation_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)

# 分批次的将数据按目录读取出来，ImageDataGenerator会一直取图片，直到break
train_generator = train_datagen.flow_from_directory(
        # This is the target directory
        train_dir,
        # All images will be resized to 150x150
        target_size=(150, 150),
        batch_size=20,
        # Since we use binary_crossentropy loss, we need binary labels
        class_mode='binary')

validation_generator = validation_datagen.flow_from_directory(
        validation_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

test_generator = test_datagen.flow_from_directory(
        test_dir,
        target_size=(150, 150),
        batch_size=20,
        class_mode='binary')

Found 2000 images belonging to 2 classes.
Found 1000 images belonging to 2 classes.
Found 1000 images belonging to 2 classes.

二、模型迭代

实践流程：
训练一个无任何优化的基准版本（acc 0.700）
----> 加入了数据增强的版本（acc 0.810）
----> 用预训练好的网络（acc 0.893）
----> 数据增强+预训练好的网络（acc 0.904）
----> 微调预训练的网络（acc 0.924）
----> 数据增强+微调预训练的网络（acc ）
----> 待续（acc ）
简而言之，越来越耗时，越来越准

2.1 基准网络，全凭灵感

我们搭建起一个四卷积层、四MaxPooling、一展开层、一全连接层、一输出层的基准网络

from keras import layers
from keras import models

model1 = models.Sequential()
model1.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)))
model1.add(layers.MaxPooling2D((2, 2)))
model1.add(layers.Conv2D(64, (3, 3), activation='relu'))
model1.add(layers.MaxPooling2D((2, 2)))
model1.add(layers.Conv2D(128, (3, 3), activation='relu'))
model1.add(layers.MaxPooling2D((2, 2)))
model1.add(layers.Conv2D(128, (3, 3), activation='relu'))
model1.add(layers.MaxPooling2D((2, 2)))
model1.add(layers.Flatten())
model1.add(layers.Dense(512, activation='relu'))
model1.add(layers.Dense(1, activation='sigmoid'))
model1.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_8 (Conv2D)            (None, 148, 148, 32)      896       
_________________________________________________________________
max_pooling2d_7 (MaxPooling2 (None, 74, 74, 32)        0         
_________________________________________________________________
conv2d_9 (Conv2D)            (None, 72, 72, 64)        18496     
_________________________________________________________________
max_pooling2d_8 (MaxPooling2 (None, 36, 36, 64)        0         
_________________________________________________________________
conv2d_10 (Conv2D)           (None, 34, 34, 128)       73856     
_________________________________________________________________
max_pooling2d_9 (MaxPooling2 (None, 17, 17, 128)       0         
_________________________________________________________________
conv2d_11 (Conv2D)           (None, 15, 15, 128)       147584    
_________________________________________________________________
max_pooling2d_10 (MaxPooling (None, 7, 7, 128)         0         
_________________________________________________________________
flatten_3 (Flatten)          (None, 6272)              0         
_________________________________________________________________
dense_5 (Dense)              (None, 512)               3211776   
_________________________________________________________________
dense_6 (Dense)              (None, 1)                 513       
=================================================================
Total params: 3,453,121
Trainable params: 3,453,121
Non-trainable params: 0
_________________________________________________________________

仔细介绍一下param参数的计算规则

全连接网络
total_params = (input_data_channels + 1) * number_of_filters
参数的总量等于一个神经元的参数量（W,b）乘上神经元个数

dense	filters	input_shape	output_shape
dense_5	512	(6272)	(None, 512)
params = (6272 + 1) * 522 = 3211776
dense_6	1	(512)	(None, 1)
params = (512 + 1) * 1 = 513

卷积网络
total_params = (filter_height * filter_width * input_image_channels + 1) * number_of_filters
参数的总量等于一个卷积核的参数量（W,b）乘上卷积核的个数

Conv2D	filters	kernel_size	input_shape	output_shape
conv2d_8	32	(3, 3)	(150, 150, 3)	(None, 148, 148, 32)
params = (3 * 3 * 3 + 1) * 32 = 896
conv2d_9	64	(3, 3)	(74, 74, 32)	(None, 72, 72, 64)
params = (3 * 3 * 32 + 1) * 64 = 18496
conv2d_10	128	(3, 3)	(36, 36, 64)	(None, 34, 34, 128)
params = (3 * 3 * 64 + 1) * 128 = 73856
conv2d_11	128	(3, 3)	(17, 17, 128)	(None, 15, 15, 128)
params = (3 * 3 * 128 + 1) * 128 = 147584

from keras import optimizers

model1.compile(loss='binary_crossentropy',
              optimizer=optimizers.RMSprop(lr=1e-4),
              metrics=['acc'])
history1 = model1.fit_generator(
      train_generator, # 训练数据生成器
      steps_per_epoch=100, # 每一个迭代需要读取100次生成器的数据
      epochs=30, # 迭代次数
      validation_data=validation_generator, # 验证数据生成器
      validation_steps=50) # 需要读取50次才能加载全部的验证集数据
      
# loss的波动幅度有点大
print(model1.metrics_names)
print(model1.evaluate_generator(test_generator, steps=50))

输出：
[‘loss’, ‘acc’]
[1.3509974479675293, 0.7329999804496765]
73%的准确率有点低，加油。

2.2 基准调优，数据增强

通过对ImageDataGenerator实例读取的图像执行多次随机变换不断的丰富训练样本

# 将 train_datagen = ImageDataGenerator(rescale=1./255)
# 修改为 
train_augmented_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=40, # 随机旋转的角度范围
    width_shift_range=0.2, # 在水平方向上平移的范围
    height_shift_range=0.2, # 在垂直方向上平移的范围
    shear_range=0.2, # 随机错切变换的角度
    zoom_range=0.2, # 随机缩放的范围
    horizontal_flip=True,)# 随机将一半图像水平翻转

# Note that the validation data should not be augmented!
train_augmented_generator = train_augmented_datagen.flow_from_directory(
        train_dir,
        target_size=(150, 150),
        batch_size=32,
        class_mode='binary')

介绍一下flow_from_directory函数的图像增强处理逻辑

先看flow_from_directory伪代码

xm,y=getDataIndex()#获取所有文件夹中所有图片索引，以及文件夹名也即标签

if shuffle==True:
    shuffle(xm,y)#打乱图片索引及其标签
while(True):
    for i in range(0,len(x),batch_size):
        xm_batch=xm[i:i+batch_size]#文件索引
        y_batch=y[i:i+batch_size]
        x_batch=getImg(xm_batch)#根据文件索引，获取图像数据
        ImagePro(x_batch)#数据增强
        #保存提升后的图片
        #saveToFile()
        yield (x_batch,y_batch)

顺序|乱序的将所有图片按张遍历、随机，然后重新开始遍历、随机，只要break不在，咱就不能停止造图片

# 重新训练一个模型
model2 = models.Sequential()
model2.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)))
model2.add(layers.MaxPooling2D((2, 2)))
model2.add(layers.Conv2D(64, (3, 3), activation='relu'))
model2.add(layers.MaxPooling2D((2, 2)))
model2.add(layers.Conv2D(128, (3, 3), activation='relu'))
model2.add(layers.MaxPooling2D((2, 2)))
model2.add(layers.Conv2D(128, (3, 3), activation='relu'))
model2.add(layers.MaxPooling2D((2, 2)))
model2.add(layers.Flatten())
model2.add(layers.Dropout(0.5)) # 新加了dropout层
model2.add(layers.Dense(512, activation='relu'))
model2.add(layers.Dense(1, activation='sigmoid'))

model2.compile(loss='binary_crossentropy',
              optimizer=optimizers.RMSprop(lr=1e-4),
              metrics=['acc'])

history2 = model2.fit_generator(
      train_augmented_generator,
      steps_per_epoch=100, # 每一批次读取100轮数据，总共是3200张图片
      epochs=100,
      validation_data=validation_generator,
      validation_steps=50)

运行时间大幅度提升，之前每轮是40秒+，现在每轮是60秒+，acc也有所提升，也还需提升
[‘loss’, ‘acc’]
[0.3123816251754761, 0.8121827244758606]

2.3 VGG16，站在前人的肩上

利用卷积神经网络的可移植性，我们可以使用已经在大型数据集上训练号的网络，常见的有VGG、ResNet、Inception、Inception-ResNet，本篇主要是VGG16。
首先是下载VGG16网络

from keras.applications import VGG16

conv_base = VGG16(weights='imagenet', # 指定模型初始化的权重检查点
                  include_top=False, # 模型最后是否包含密集连接分类器，默认有1000个类别
                  input_shape=(150, 150, 3))
conv_base.summary()

输出网络结构

Model: "vgg16"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_2 (InputLayer)         (None, 150, 150, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 150, 150, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 150, 150, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 75, 75, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 75, 75, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 75, 75, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 37, 37, 128)       0         
_________________________________________________________________
block3_conv1 (Conv2D)        (None, 37, 37, 256)       295168    
_________________________________________________________________
block3_conv2 (Conv2D)        (None, 37, 37, 256)       590080    
_________________________________________________________________
block3_conv3 (Conv2D)        (None, 37, 37, 256)       590080    
_________________________________________________________________
block3_pool (MaxPooling2D)   (None, 18, 18, 256)       0         
_________________________________________________________________
block4_conv1 (Conv2D)        (None, 18, 18, 512)       1180160   
_________________________________________________________________
block4_conv2 (Conv2D)        (None, 18, 18, 512)       2359808   
_________________________________________________________________
block4_conv3 (Conv2D)        (None, 18, 18, 512)       2359808   
_________________________________________________________________
block4_pool (MaxPooling2D)   (None, 9, 9, 512)         0         
_________________________________________________________________
block5_conv1 (Conv2D)        (None, 9, 9, 512)         2359808   
_________________________________________________________________
block5_conv2 (Conv2D)        (None, 9, 9, 512)         2359808   
_________________________________________________________________
block5_conv3 (Conv2D)        (None, 9, 9, 512)         2359808   
_________________________________________________________________
block5_pool (MaxPooling2D)   (None, 4, 4, 512)         0         
=================================================================
Total params: 14,714,688
Trainable params: 14,714,688
Non-trainable params: 0
_________________________________________________________________

先来一个基础版本的——锁定卷积基
完全冻结所有的网络参数，只使用卷积基的输出训练新分类器

# 将（原始数据，label）转换为VGG16的（卷积基输出，label）
def extract_features(directory, sample_count):
    features = np.zeros(shape=(sample_count, 4, 4, 512)) # 卷积基最后一层的输出为(4， 4， 512)
    labels = np.zeros(shape=(sample_count))
    generator = datagen.flow_from_directory(
        directory,
        target_size=(150, 150),
        batch_size=batch_size,
        class_mode='binary')
    i = 0
    for inputs_batch, labels_batch in generator:
        features_batch = conv_base.predict(inputs_batch) # 直接以VGG16的输出作为训练分类器的features
        features[i * batch_size : (i + 1) * batch_size] = features_batch
        labels[i * batch_size : (i + 1) * batch_size] = labels_batch
        i += 1
        if i * batch_size >= sample_count:
            # Note that since generators yield data indefinitely in a loop,
            # we must `break` after every image has been seen once.
            break
    return features, labels

接下来只需要按照之前之前的步骤训练一个分类器即可，快得很

from keras import models
from keras import layers
from keras import optimizers

model3 = models.Sequential()
model3.add(layers.Dense(256, activation='relu', input_dim=4 * 4 * 512))
model3.add(layers.Dropout(0.5))
model3.add(layers.Dense(1, activation='sigmoid'))

model3.compile(optimizer=optimizers.RMSprop(lr=2e-5),
              loss='binary_crossentropy',
              metrics=['acc'])

history3 = model3.fit(train_features, train_labels,
                    epochs=30,
                    batch_size=20,
                    validation_data=(validation_features, validation_labels))

[‘loss’, ‘acc’]
[0.25353643798828124, 0.8930000066757202]
准确率已经到89%了，稳步提升中，

2.4 VGG16+数据增强，真强，也真慢

很自然，我们不满足于89%，我们自然会将数据加强融入其中，简单一点，直接将VGG16作为最终网络的一部分

from keras import models
from keras import layers

model4 = models.Sequential()
model4.add(conv_base)
model4.add(layers.Flatten())
model4.add(layers.Dense(256, activation='relu'))
model4.add(layers.Dense(1, activation='sigmoid'))
model4.summary()

输出网络结构

Model: "sequential_6"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
vgg16 (Model)                (None, 4, 4, 512)         14714688  
_________________________________________________________________
flatten_5 (Flatten)          (None, 8192)              0         
_________________________________________________________________
dense_11 (Dense)             (None, 256)               2097408   
_________________________________________________________________
dense_12 (Dense)             (None, 1)                 257       
=================================================================
Total params: 16,812,353
Trainable params: 16,812,353
Non-trainable params: 0

继续感受一下1,681万参数带来的震撼
编译网络之前，我们需要固定卷积基

print('This is the number of trainable weights '
      'before freezing the conv base:', len(model4.trainable_weights))
      
conv_base.trainable = False

print('This is the number of trainable weights '
      'before freezing the conv base:', len(model4.trainable_weights))

输出

This is the number of trainable weights before freezing the conv base: 30
This is the number of trainable weights before freezing the conv base: 4

冻结之前
VGG16一共19层，5个block，去掉1个输出层，5个MaxPolling层，剩下13层，再加上两个全连接层，总共15层，每层两个可训练权重（主权重W和偏置权重b），trainable_weights=(13+2)*2=30
冻结之后
只有dense_11、dense_12两个全连接层可以训练，trainable_weights=2*2=4

准备编译

model4.compile(loss='binary_crossentropy',
              optimizer=optimizers.RMSprop(lr=2e-5),
              metrics=['acc'])

history4 = model4.fit_generator(
      train_augmented_generator,
      steps_per_epoch=100, # 3200个输入图片，增强
      epochs=60,
      validation_data=validation_generator,
      validation_steps=50,
      verbose=2)

model4.save('D://tmp//models//cats_and_dogs_small_4.h5')
print(model4.metrics_names)
print(model4.evaluate_generator(test_generator, steps=50))

[‘loss’, ‘acc’]
[0.23142974078655243, 0.9049999713897705]
之前一轮耗时60秒+，现在也就200秒+吧…好歹是acc上了90%
继续前行

2.5 锁定部分卷积基，微调模型

我们都知道越是靠近顶端（近输出层）的卷积层识别的内容越收敛于具体问题，一般优化思路就是组件的从顶端开始逐渐释放固定参数，适应当前问题

from keras import models
from keras import layers

model5 = models.Sequential()
model5.add(conv_base)
model5.add(layers.Flatten())
model5.add(layers.Dense(256, activation='relu'))
model5.add(layers.Dense(1, activation='sigmoid'))
model5.summary()

将block5整个解放

# 分别是block5_conv1、block5_conv2、block5_conv3、block5_pool 
conv_base.trainable = True

set_trainable = False
for layer in conv_base.layers:
    if layer.name == 'block5_conv1':
        set_trainable = True
    if set_trainable:
        layer.trainable = True
    else:
        layer.trainable = False

切记，一定是在编译之前操作

model5.compile(loss='binary_crossentropy',
              optimizer=optimizers.RMSprop(lr=1e-5),
              metrics=['acc'])

history5 = model5.fit_generator(
      train_generator,
      steps_per_epoch=100,
      epochs=100,
      validation_data=validation_generator,
      validation_steps=50)

print(model5.metrics_names)
print(model5.evaluate_generator(test_generator, steps=50))

[‘loss’, ‘acc’]
[1.8584696054458618, 0.9240000247955322]
训练集acc稳定在1，92%的acc还不够，训练集需要增强，模型参数也需要持续优化。
长路漫漫待你闯。

第三部分：CNN可视化

一、可视化网络中每一层的激活效果

可视化一下基准网络的每个卷积核激活效果

from keras.models import load_model
# 加载回来
model = load_model('D://tmp//models//cats_and_dogs_small_1.h5')
model.summary()  # As a reminder.

回忆下网络结构

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_4 (Conv2D)            (None, 148, 148, 32)      896       
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 74, 74, 32)        0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 72, 72, 64)        18496     
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 36, 36, 64)        0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 34, 34, 128)       73856     
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 17, 17, 128)       0         
_________________________________________________________________
conv2d_7 (Conv2D)            (None, 15, 15, 128)       147584    
_________________________________________________________________
max_pooling2d_6 (MaxPooling2 (None, 7, 7, 128)         0         
_________________________________________________________________
flatten_2 (Flatten)          (None, 6272)              0         
_________________________________________________________________
dense_3 (Dense)              (None, 512)               3211776   
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 513       
=================================================================
Total params: 3,453,121
Trainable params: 3,453,121
Non-trainable params: 0
_________________________________________________________________

加载一张cat的照片，顺便体会一下ImageDataGenerator的便利

# 加载一张测试图片
img_path = 'D://Kaggle//cat-dog-small//test/cats//cat.1574.jpg'

# We preprocess the image into a 4D tensor
from keras.preprocessing import image
import numpy as np

img = image.load_img(img_path, target_size=(150, 150))
img_tensor = image.img_to_array(img)
img_tensor = np.expand_dims(img_tensor, axis=0)
# Remember that the model was trained on inputs
# that were preprocessed in the following way:
img_tensor /= 255.

# Its shape is (1, 150, 150, 3)
print(img_tensor.shape)

import matplotlib.pyplot as plt

plt.imshow(img_tensor[0])
plt.show()

先从model里将layer的output获得
再通过input、output构建一个model
predict可以获得所有的卷积核处理图片后的channel_image

from keras import models

# Extracts the outputs of the top 8 layers:
layer_outputs = [layer.output for layer in model.layers[:8]]
# Creates a model that will return these outputs, given the model input:
activation_model = models.Model(inputs=model.input, outputs=layer_outputs)

# This will return a list of 5 Numpy arrays:
# one array per layer activation
activations = activation_model.predict(img_tensor)

分层的将channel_image打印出来

import keras

# These are the names of the layers, so can have them as part of our plot
layer_names = []
for layer in model.layers[:8]:
    layer_names.append(layer.name)

# 一行16张图片
images_per_row = 16

# Now let's display our feature maps
for layer_name, layer_activation in zip(layer_names, activations):
    # 每一层都会有n_features张图片
    # This is the number of features in the feature map
    n_features = layer_activation.shape[-1]

    # The feature map has shape (1, size, size, n_features)
    size = layer_activation.shape[1]

    # We will tile the activation channels in this matrix
    n_cols = n_features // images_per_row 
    display_grid = np.zeros((size * n_cols, images_per_row * size))

    # We'll tile each filter into this big horizontal grid
    for col in range(n_cols):
        for row in range(images_per_row):
            channel_image = layer_activation[0,
                                             :, :,
                                             col * images_per_row + row]
            # 尤为关键
            # Post-process the feature to make it visually palatable
            channel_image -= channel_image.mean()
            channel_image /= channel_image.std()
            channel_image *= 64
            channel_image += 128
            channel_image = np.clip(channel_image, 0, 255).astype('uint8')
            display_grid[col * size : (col + 1) * size,
                         row * size : (row + 1) * size] = channel_image

    # Display the grid
    scale = 1. / size
    plt.figure(figsize=(scale * display_grid.shape[1],
                        scale * display_grid.shape[0]))
    plt.title(layer_name)
    plt.grid(False)
    plt.imshow(display_grid, aspect='auto', cmap='viridis')
    
plt.show()

二、可视化激活的热力图

通过热力图我们可以直观的看到CNN是根据原始图像的哪一部分进行分类的
画热力图的方法是，
使用“每个通道对类别的重要程度”对“输入图像对不同通道的激活强度”的空间图进行加权，从而得到了“输入图像对类别的激活强度”的空间图
我们会用VGG16和下面这张图做一个简单的demo

加载一个完整的VGG16模型，终于

from keras.applications.vgg16 import VGG16
from keras import backend as K
# 如果你希望你编写的Keras模块与Theano(th)和TensorFlow(tf)兼容，
# 则必须通过抽象Keras后端API来编写
K.clear_session()

# 加载完整的VGG16模型
# Note that we are including the densely-connected classifier on top;
# all previous times, we were discarding it.
model = VGG16(weights='imagenet')

把原始图片一顿处理后predict一下

from keras.preprocessing import image
from keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np

# The local path to our target image
img_path = 'D:\\tmp\\creative_commons_elephant.jpg'

# `img` is a PIL image of size 224x224
img = image.load_img(img_path, target_size=(224, 224))

# `x` is a float32 Numpy array of shape (224, 224, 3)
x = image.img_to_array(img)

# We add a dimension to transform our array into a "batch"
# of size (1, 224, 224, 3)
x = np.expand_dims(x, axis=0)

# 将进行颜色标准化
x = preprocess_input(x)

# 预测，并打印TOP3的分类
preds = model.predict(x)

一顿操作后得到最终的热力图heatmap

# This is the "african elephant" entry in the prediction vector
african_elephant_output = model.output[:, 386]

# The is the output feature map of the `block5_conv3` layer,
# the last convolutional layer in VGG16
last_conv_layer = model.get_layer('block5_conv3')

# This is the gradient of the "african elephant" class with regard to
# the output feature map of `block5_conv3`
grads = K.gradients(african_elephant_output, last_conv_layer.output)[0]

# This is a vector of shape (512,), where each entry
# is the mean intensity of the gradient over a specific feature map channel
pooled_grads = K.mean(grads, axis=(0, 1, 2))

# This function allows us to access the values of the quantities we just defined:
# `pooled_grads` and the output feature map of `block5_conv3`,
# given a sample image
iterate = K.function([model.input], [pooled_grads, last_conv_layer.output[0]])

# These are the values of these two quantities, as Numpy arrays,
# given our sample image of two elephants
pooled_grads_value, conv_layer_output_value = iterate([x])

# We multiply each channel in the feature map array
# by "how important this channel is" with regard to the elephant class
for i in range(512):
    conv_layer_output_value[:, :, i] *= pooled_grads_value[i]

# The channel-wise mean of the resulting feature map
# is our heatmap of class activation
heatmap = np.mean(conv_layer_output_value, axis=-1)
heatmap = np.maximum(heatmap, 0) # 小于0则设成0
heatmap /= np.max(heatmap) # 除最大值

使用OpenCV来将热力图与原图叠加

import cv2

# We use cv2 to load the original image
img = cv2.imread(img_path)

# We resize the heatmap to have the same size as the original image
heatmap = cv2.resize(heatmap, (img.shape[1], img.shape[0]))

# We convert the heatmap to RGB
heatmap = np.uint8(255 * heatmap)

# We apply the heatmap to the original image
heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)

# 0.4 here is a heatmap intensity factor
superimposed_img = heatmap * 0.4 + img

# Save the image to disk
cv2.imwrite('D:\\tmp\\elephant_cam.jpg', superimposed_img)

最终热力图完成

参考文章&图书

《Python深度学习》

系列文章

Keras深度学习入门（一）
Keras计算机视觉（二）
Keras文本和序列（三）
Keras深度学习高级（四）
Keras生成式学习（五）

@ 学必求其心得，业必贵其专精

你可能感兴趣的:(机器学习,keras,计算机视觉,深度学习)

AI绘画工具介绍编程小郭 ai作画
市面上AI绘画工具众多，它们利用深度学习和图像处理技术，为用户提供了丰富的创作体验和可能性。以下是对几款主流AI绘画工具的详细介绍及横向对比：一、主流AI绘画工具介绍Midjourney简介：Midjourney是一个独立的研究实验室，专注于人工智能绘图，被广泛应用于设计、艺术创作、广告制作等领域。特点：以其强大的图像生成能力和跨界融合的创新特点著称，能够根据文本描述和视觉输入生成兼具故事性与视觉
文心一言vsGPT-4全面对比编程小郭文心一言 chatgpt java python 人工智能 ai
文心一言和GPT-4都是当前非常先进的人工智能语言模型，它们各自具有独特的特点和优势。以下是对这两款工具的全面比较：文心一言是由百度开发的一款大型人工智能语言模型，它基于强大的深度学习技术和海量的数据资源，具备出色的语言理解和生成能力。文心一言在中文处理方面尤为出色，能够准确理解中文语境和语义，生成流畅、自然的中文文本。文心一言还具备丰富的知识库和推理能力，能够回答各种问题，提供有用的信息和建议。
基于深度学习的认知架构的AI SEU-WYL 深度学习dnn 人工智能深度学习架构
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统，旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统。结合深度学习技术，这类AI可以更好地应对动态和复杂的任务需求。1.基于深度学习的认知架构的组成一个典型的基于深度学习的认知架构包含多个关键模块：感知模块：负责从外部环境中获取数据，处理和提取特征。深度学习
什么是AI显卡，英伟达与AMD显卡的全面对比 wit_@ 人工智能 python 算法 deep learning 大数据网络
什么是AI显卡？AI显卡是专门为人工智能计算任务设计和优化的图形处理器（GPU）。相比传统显卡，AI显卡具备更强的计算能力、更高的并行处理效率以及针对深度学习、数据科学等领域的特殊硬件支持。在人工智能领域，尤其是深度学习中，训练和推理任务需要处理大量的矩阵运算，这正是GPU擅长的领域。AI显卡通过高度并行的架构，可以显著提升训练速度和模型性能，同时降低功耗和延迟。常见的AI显卡用途包括：深度学习模
详解AI大模型的主要指标与国内常见大模型对比分析 wit_@ 人工智能 AIGC 语言模型 ai 大数据服务器
AI大模型的主要指标与国内常见大模型对比分析随着人工智能技术的快速发展，大模型（LargeAIModels）在自然语言处理、计算机视觉和多模态任务中取得了突破性进展。对于选择和评价AI大模型，不仅需要关注其功能，还要理解其关键指标和性能表现。本文将详细分析AI大模型的主要评价指标，并对国内常见大模型进行具体对比，提供实际数值和深度解析。一、AI大模型的主要指标AI大模型的性能和实用性通常通过以下指
深入探索Python编程技术：从入门到精通的全方位学习指南小码快撩 python 开发语言
引言在当今信息技术飞速发展的时代，Python以其简洁优雅、功能强大、易于上手的特点，成为了众多开发者和初学者首选的编程语言。无论是数据科学、机器学习、Web开发、自动化脚本编写，还是桌面应用开发，Python都能发挥其独特优势，帮助开发者高效完成任务。本文旨在为Python学习者提供一个全面的学习路径与关键知识点概述，助您快速掌握这门强大的编程语言。一、基础语法1.变量定义与数据类型示例代码：#
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
python 特征选择方法_【来点干货】机器学习中常用的特征选择方法及非常详细的Python实例... Blair Long python 特征选择方法
花费了很长时间整理编辑，转载请联系作者授权，违者必究。特征选择(Featureselection)是在构建预测模型的过程中减少输入变量的一个过程。它是机器学习中非常重要的一步并在很大程度上可以提高模型预测精度。这里我总结了一些机器学习中常见的比较有用的特征选择方法并附上相关python实现code。希望可以给大家一些启发。首先，我们为什么要进行特征选择呢？它有以下几个优点：减少过拟合：冗余数据常常
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
【深度学习】Huber Loss详解小小小小祥深度学习人工智能算法职场和发展机器学习
文章目录1.HuberLoss原理详解2.Pytorch代码详解3.与MSELoss、MAELoss区别及各自优缺点3.1MSELoss均方误差损失3.2MAELoss平均绝对误差损失3.3HuberLoss4.总结4.1优化平滑4.2梯度较好4.3为什么说MSE是平滑的1.HuberLoss原理详解HuberLoss是一种结合了MSE（均方误差）与MAE（平均绝对误差）的损失函数，旨在克服两者的
【YOLOV8】YOLOV8模型训练train及参数详解小小小小祥 YOLO
介绍训练深度学习模型涉及为其提供数据并调整其参数，以便它能够做出准确的预测。UltralyticsYOLOv8的训练模式专为有效、高效地训练目标检测模型而设计，充分利用现代硬件的能力。本指南旨在涵盖使用YOLOv8强大功能集训练自定义模型所需的所有细节，帮助你快速入门。为什么选择UltralyticsYOLO进行训练？高效性：无论是单GPU设置还是跨多个GPU扩展，都能充分利用你的硬件。多功能性：
【YOLOV8】目标检测任务中应该如何选择YOLOV8n/s/m/l/x模型及输入尺寸大小小小小小祥 YOLO 目标检测人工智能
问题描述：YOLOV8作为目前主流的深度学习网络，支持图像分类、目标检测、实例分割、姿态检测、旋转目标检测等功能。对于目标检测任务官方提供了n/s/m/l/x五个模型，我们在使用YOLOV8模型进行自己任务训练时，应该如何选择YOLOV8的模型以及输入尺寸大小呢？YOLOV8官网：https://github.com/ultralytics/ultralyticsYOLOV8n/s/m/l/x信息
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
人工智能OpenCV计算机视觉技术 yzx991013 OpenCV基础全集 opencv 计算机视觉人工智能
5.3cand可调节边缘检测完整代码：importcv2importnumpyasnp#载入图像，并处理可能的读取错误img_original=cv2.imread('./image/lena.jpg')ifimg_originalisNone:print("无法读取图像文件")raiseSystemExit#创建可调整大小的窗口cv2.namedWindow('Canny',cv2.WINDOW
ASPICE 4.0引领自动驾驶未来：机器学习模型的特点与实践亚远景aspice 机器学习自动驾驶人工智能
ASPICE4.0-ML机器学习模型是针对汽车行业，特别是在汽车软件开发中，针对机器学习（MachineLearning,ML）应用的特定标准和过程。ASPICE（AutomotiveSPICE）是一种基于软件控制的系统开发过程的国际标准，旨在提升软件开发过程的质量、效率和可靠性。ASPICE4.0中的ML模型部分则进一步细化了机器学习在汽车软件开发中的具体要求和流程。以下是对ASPICE4.0-
深入解读ChatGPT的工作原理及底层逻辑 NAR_鱼丸 ChatGPT 程序人生
ChatGPT的工作原理和底层逻辑可以从多个方面进行解读，主要包括其基本原理、核心技术、训练过程以及应用能力。工作原理涉及了深度学习模型、自然语言处理技术和文本生成算法等多个方面。通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。其基本原理是使用大量文本数据来训练深度神经网络模型
python中tensorflow_python机器学习TensorFlow框架弦歌缓缓
TensorFlow框架关注公众号“轻松学编程”了解更多。一、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端的计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统
厉害了，LSTM+Transformer王炸创新，精准度又高了！马拉AI LSTM transformer
【LSTM+Transformer】作为一种混合深度学习模型，近年来在学术界和工业界都受到了极大的关注。它巧妙地融合了长短期记忆网络（LSTM）在处理时序数据方面的专长和Transformer在捕捉长距离依赖关系上的优势，从而在文本生成、机器翻译、时间序列预测等多个领域取得了突破性的进展。这种创新的结合不仅提升了模型的预测精度，还优化了性能和训练效率，使其在序列分析任务中展现出卓越的能力。例如，最
构建高效GPU算力平台：挑战、策略与未来展望 Mr' 郑 gpu算力
引言随着深度学习、高性能计算和大数据分析等领域的快速发展，GPU（图形处理器）因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而，随着模型规模的增长和技术的进步，构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。当前挑战算力分配与资源优化在多用户共享GPU集群的环境下，合理分配计算资源并确保每个任务能够高效运行是一项挑战。这不仅涉及到硬件资
详解深度学习中的Dropout nk妹妹深度学习深度学习人工智能
Dropout是一种在神经网络训练中常用的正则化技术，其操作是在每次训练迭代中随机“丢弃”一部分神经元（即将其输出置为零）。以下是对这一操作的详细解释：一、基本思想Dropout的基本思想是减少神经元之间的复杂共适应关系，迫使网络在训练过程中不依赖于特定的神经元子集。这有助于增加模型的泛化能力，防止过拟合。二、具体实现随机选择：在每次训练迭代中，以一定的概率p（通常设定为0.2到0.5之间）随机选
【机器学习实战中阶】音乐流派分类-自动化分类不同音乐风格精通代码大仙数据挖掘深度学习 python 机器学习分类自动化人工智能数据挖掘深度学习
音乐流派分类–自动化分类不同音乐风格在本教程中，我们将开发一个深度学习项目，用于自动化地从音频文件中分类不同的音乐流派。我们将使用音频文件的频率域和时间域低级特征来分类这些音频文件。对于这个项目，我们需要一个具有相似大小和相似频率范围的音频曲目数据集。GTZAN流派分类数据集是音乐流派分类项目中最推荐的数据集，并且它是为了这个任务而收集的。音乐流派分类器模型音乐流派分类关于数据集：GTZAN流派收
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
AI歌手会成为主流吗？网络安全我来了 IT技术人工智能
AI歌手会成为主流吗？在如今这个科技迅猛发展的时代，AI歌手渐渐走入我们的视野。或许你会想，AI真的能够唱歌，它的歌声能与真实歌手相媲美吗？让我们一起探索这个引人入胜的主题，看看AI歌手的发展现状、优缺点，以及它在音乐行业的未来前景。1.AI歌手的发展现状1.1技术背景我们处于一个机器学习和深度学习技术飞速发展的时代，AI歌手的诞生并非偶然。通过收集和分析大量的音乐数据，AI能够学习并模仿特定歌手
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
【机器学习：二十七、决策树集合】 KeyPan 机器学习机器学习决策树人工智能数据挖掘深度学习算法分类
1.决策树集合的概述决策树集合是一种基于多个决策树模型集成的机器学习方法，通过组合多个弱学习器（决策树）形成一个强学习器，显著提升预测性能和泛化能力。核心思想集成学习的核心是通过结合多个模型的优点，降低单个模型的偏差与方差，提高整体的准确性和鲁棒性。决策树集合利用多棵树的组合，减少了单棵树可能出现的过拟合或对噪声的敏感性。主要优势性能提升：在分类和回归任务中通常表现优于单独的决策树。稳定性更强：对
学习AI大模型的小白入门建议和具体的学习方法推荐 aFakeProgramer 机器学习人工智能人工智能
深度思考我是一名在汽车行业工作的嵌入式系统工程师，现在我想进入人工智能领域，特别是大型语言模型。说到人工智能，我是一个完全的新手，所以我需要弄清楚从哪里开始。让我们把它分解一下。首先，我知道嵌入式系统涉及许多低级编程、微控制器、实时操作系统等。人工智能，特别是像GPT这样的大型模型，似乎处于另一端，处理高级计算、海量数据集和复杂算法。这里肯定有一个学习曲线。我可能应该从了解机器学习的基础知识开始。
机器学习——认识有监督学习与无监督学习伊一大数据&人工智能学习日志机器学习机器学习学习人工智能
目录有监督学习与无监督学习有监督学习无监督学习监督学习与无监督学习的区别有监督学习与无监督学习有监督学习和无监督学习是机器学习中的两种主要学习方式，它们的主要区别在于数据的标注情况和学习的目标。有监督学习有监督学习中，数据集中的每个样本都有明确的标签或目标输出。学习的目标是通过对有标签数据的学习，建立输入特征和输出标签之间的映射关系，以便能够对新的、未见过的输入数据预测其相应的输出标签。常见的有监
数据增强方法及其工具 cxr828 大数据
数据增强（DataAugmentation）是指在训练深度学习模型时，通过对现有数据进行一系列变换，从而生成新的样本。数据增强有助于增加数据的多样性，减少过拟合，提升模型的泛化能力，尤其是在数据量有限的情况下。数据增强可以应用于图像、文本、音频等多种类型的数据。以下是一些常见的、简单易行的图像数据增强方法及其具体实现步骤，这些方法也可以广泛应用于目标检测、图像分类、图像分割等任务。一、图像数据增强
基于深度学习CNN网络 mini-xception网络实现构建一个完整的人脸表情检测_识别分类系统，包括训练、评估、前端和服务端代码计算机c9硕士算法工程师卷积神经网络深度学习 cnn 分类
人脸表情检测该项目已训练好网络模型，配置好环境即可运行使用，效果见图像，实现图像识别、摄像头识别、摄像头识别/识别分类项目-说明文档-UI界面-cnn网络项目基本介绍：【网络】深度学习CNN网络mini-xception网络【环境】python>=3.5tensorflow2opencvpyqt5【文件】训练预测全部源代码、训练好的模型、fer2013数据集、程序算法讲解文档【类别】对7种表情检测
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &