qq_37274615

用Keras和“直方图均衡”为深度学习实现“图像扩充”

原文链接

雷锋网按：本文由图普科技编译自《Image Augmentation for Deep Learning using Keras and Histogram Equalization》，雷锋网(公众号：雷锋网)独家首发。

在这篇文章中，我们将要讨论的内容是：

什么是“图像增强”？其重要性何在？
如何使用Keras实现基本的“图像增强”？
什么是“直方图均衡”？如何发挥其作用？
直方图均衡法——修改keras.preprocessing image.py文件的方式之一
什么是“图像增强”？其重要性何在？

深度神经网络，尤其是卷积神经网络（CNN），非常擅长于图像分类。事实证明，最先进的卷积神经网络在图像识别方面的性能已经超过了人类水平。

https://www.eff.org/ai/metrics

然而，正如我们在杨建先生的“Hot Dog, Not Hot Dog”App（在一个叫做“Silicon Valley”的热门电视节目中的食物识别App）中了解到的，将图像收集起来作为训练数据使用，是一项非常昂贵且耗时的工作。

如果你对“Silicon Valley”这个电视节目不太熟悉，请注意以下视频中的语言是NSFW：

我们通过扩充图像数据的方式，从一个已有的数据库中生成更多新的训练图像，以降低收集训练图像的成本。“图像扩充”其实就是从已有的训练数据集中取出一些图像，然后根据这些图像创建出许多修改版本的图像。这样做不仅能够获得更多的训练数据，还能让我们的分类器应对光照和色彩更加复杂的环境，从而使我们的分类器功能越来越强大。以下是来自imgaug的不同的图像扩充例子：

https://github.com/aleju/imgaug

用Keras实现基本的图像扩充

图像预处理的方法有很多。在本文中，我们将讨论一些常见的、富有创意的方法，这些方法也是Keras深度学习库为扩充图像数据所提供的。之后我们将讨论如何转换keras预处理图像文件，以启用直方图均衡法。我们将使用Keras附带的cifar10数据集，但是为了使任务小到能够顺利在CPU上执行，我们将只会使用其中的猫和狗的图像。

数据加载及数据格式化

首先，我们需要加载cifar10数据集并格式化其中的图像，为卷积神经网络做好准备。我们还要检查一下部分图像，确保数据已经完成了正确的加载。

from __future__ import print_function
import keras
from keras.datasets import cifar10
from keras import backend as K
import matplotlib
from matplotlib import pyplot as plt
import numpy as np#Input image dimensions
img_rows, img_cols = 32, 32#The data, shuffled and split between train and test sets
(x_train, y_train), (x_test, y_test) = cifar10.load_data()#Only look at cats [=3] and dogs [=5]
train_picks = np.ravel(np.logical_or(y_train==3,y_train==5))
test_picks = np.ravel(np.logical_or(y_test==3,y_test==5))y_train = np.array(y_train[train_picks]==5,dtype=int)
y_test = np.array(y_test[test_picks]==5,dtype=int)x_train = x_train[train_picks]
x_test = x_test[test_picks]if K.image_data_format() == 'channels_first':
x_train = x_train.reshape(x_train.shape[0], 3, img_rows, img_cols)
x_test = x_test.reshape(x_test.shape[0], 3, img_rows, img_cols)
input_shape = (3, img_rows, img_cols)
else:
x_train = x_train.reshape(x_train.shape[0], img_rows, img_cols, 3)
x_test = x_test.reshape(x_test.shape[0], img_rows, img_cols, 3)
input_shape = (img_rows, img_cols, 3)x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255print('x_train shape:', x_train.shape)
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')#Convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(np.ravel(y_train), num_classes)
y_test = keras.utils.to_categorical(np.ravel(y_test), num_classes)#Look at the first 9 images from the dataset
images = range(0,9)
for i in images:
plt.subplot(330 + 1 + i)
plt.imshow(x_train[i], cmap=pyplot.get_cmap('gray'))
#Show the plot
plt.show()

Cifar10数据集中的图像都是32x 32像素大小的，因此放大来看，它们都呈现出颗粒状。但是对卷积神经网络来说，它看到的不是颗粒，而是数据。

使用ImageDataGenerator函数创建一个图像生成器

用Keras进行图像数据的扩充是非常简单的，在这里，我们应该感谢Jason Brownlee，因为是他给我们提供了一个非常全面、到位的Keras图像扩充教程。图象扩充的过程如下：首先，我们需要使用 ImageDataGenerator()函数来创建一个图像生成器，并且输入一系列描述图像更改行为的参数；之后，我们将在这个图像生成器中执行fit()函数，它将会一批一批地对图像进行更改。在默认情况下，图像的更改是任意的，所以并不是所有图像每次都会被更改。你还可以用 keras.preprocessing 函数将扩充的图像导出到一个文件夹，以便建立一个更庞大的扩充图像数据集。

在本文中，我们将看一些更直观、有趣的扩充图像。你可以在Keras文件中查看所有的ImageDataGenerator参数，以及keras.preprocessing中的其他方法。

任意地旋转图像

# Rotate images by 90 degrees
datagen = ImageDataGenerator(rotation_range=90)# fit parameters from data
datagen.fit(x_train)# Configure batch size and retrieve one batch of images
for X_batch, y_batch in datagen.flow(x_train, y_train, batch_size=9):
# Show 9 images
for i in range(0, 9):
pyplot.subplot(330 + 1 + i)
pyplot.imshow(X_batch[i].reshape(img_rows, img_cols, 3))
# show the plot
pyplot.show()
break

垂直翻转图片

# Flip images vertically
datagen = ImageDataGenerator(vertical_flip=True)# fit parameters from data
datagen.fit(x_train)# Configure batch size and retrieve one batch of images
for X_batch, y_batch in datagen.flow(x_train, y_train, batch_size=9):
# Show 9 images
for i in range(0, 9):
pyplot.subplot(330 + 1 + i)
pyplot.imshow(X_batch[i].reshape(img_rows, img_cols, 3))
# show the plot
pyplot.show()
break

水平翻转图片同样是为分类器生成更多数据的一种经典方式。这么做非常简单，但是我在这里省略了代码和图像，是因为我们在没有看到原始图像的情况下，无法判断一张猫狗的图像是否被水平翻转了。

将图像垂直或水平移动20%

# Shift images vertically or horizontally
# Fill missing pixels with the color of the nearest pixel
datagen = ImageDataGenerator(width_shift_range=.2,
height_shift_range=.2,
fill_mode='nearest')# fit parameters from data
datagen.fit(x_train)# Configure batch size and retrieve one batch of images
for X_batch, y_batch in datagen.flow(x_train, y_train, batch_size=9):
# Show 9 images
for i in range(0, 9):
pyplot.subplot(330 + 1 + i)
pyplot.imshow(X_batch[i].reshape(img_rows, img_cols, 3))
# show the plot
pyplot.show()

break直方图均衡法

直方图均衡，即取一张低对比度图像，并提高图像中最亮和最暗部分之间的对比度，以找出阴影的细微差别，并创建一个更高对比度的图像。使用这个方法所产生的结果相当惊人，尤其是针对那些灰度图像。以下是一些例子：

https://www.bruzed.com/2009/10/contrast-stretching-and-histogram-equalization/

http://www-classes.usc.edu/engr/ee-s/569/qa2/Histogram%20Equalization.htm

https://studentathome.wordpress.com/2013/03/27/local-histogram-equalization/

在本文中，我们将讨论三种用于提高图像对比度的图像扩充方法。这些方法有时也被称作“直方图拉伸”，因为它们会使用像素强度的分布，并扩展这些分布以适应更大范围的值，从而提高图像中最亮和最暗部分之间的对比度。

直方图均衡

直方图均衡法通过检测图像的像素强度分布，并绘制出一个像素强度直方图，从而提高图像的对比度。之后，这个直方图的分布会被进行分析，如果分析结果显示还有未被利用的像素亮度范围，那么这个直方图就会被“扩展”，以涵盖这些未被利用的范围。然后直方图将被“投射”到图像上，以提高图像的整体对比度。

对比度扩展

“对比度扩展”的过程首先是分析图像中的像素强度分布，然后重新调节图像，使图像能够涵盖在2%至98%之间的所有像素强度。

自适应均衡

在直方图计算方面，“自适应均衡”与常规的直方图均衡有很大的区别。常规的直方图均衡法中，每个被计算的直方图都与图像中的一个部分相对应；但是，它有着在非正常图像部分过度扩充噪声的趋势。

下面的代码来自于sci-kit图像库的文件。为了使这些代码能够在我们cifar10数据集的第一张图像上执行以上三种图像扩充，我们对代码进行了转换和修改。首先，我们将输入sic-kit图像库中的必要单元，然后对sci-kit图像文件中的代码进行修改和调整，以便查看数据集第一张图片的扩充图像集。

# Import skimage modules
from skimage import data, img_as_float
from skimage import exposure# Lets try augmenting a cifar10 image using these techniques
from skimage import data, img_as_float
from skimage import exposure# Load an example image from cifar10 dataset
img = images[0]# Set font size for images
matplotlib.rcParams['font.size'] = 8# Contrast stretching
p2, p98 = np.percentile(img, (2, 98))
img_rescale = exposure.rescale_intensity(img, in_range=(p2, p98))# Histogram Equalization
img_eq = exposure.equalize_hist(img)# Adaptive Equalization
img_adapteq = exposure.equalize_adapthist(img, clip_limit=0.03)#### Everything below here is just to create the plot/graphs ####
# Display results
fig = plt.figure(figsize=(8, 5))
axes = np.zeros((2, 4), dtype=np.object)
axes[0, 0] = fig.add_subplot(2, 4, 1)
for i in range(1, 4):
axes[0, i] = fig.add_subplot(2, 4, 1+i, sharex=axes[0,0], sharey=axes[0,0])
for i in range(0, 4):
axes[1, i] = fig.add_subplot(2, 4, 5+i)ax_img, ax_hist, ax_cdf = plot_img_and_hist(img, axes[:, 0])
ax_img.set_title('Low contrast image')y_min, y_max = ax_hist.get_ylim()
ax_hist.set_ylabel('Number of pixels')
ax_hist.set_yticks(np.linspace(0, y_max, 5))ax_img, ax_hist, ax_cdf = plot_img_and_hist(img_rescale, axes[:, 1])
ax_img.set_title('Contrast stretching')ax_img, ax_hist, ax_cdf = plot_img_and_hist(img_eq, axes[:, 2])
ax_img.set_title('Histogram equalization')ax_img, ax_hist, ax_cdf = plot_img_and_hist(img_adapteq, axes[:, 3])
ax_img.set_title('Adaptive equalization')ax_cdf.set_ylabel('Fraction of total intensity')
ax_cdf.set_yticks(np.linspace(0, 1, 5))# prevent overlap of y-axis labels
fig.tight_layout()
plt.show()

Here are the modified images of a low contrast cat from the cifar10 dataset. As you can see, the results are not as striking as they might be with a low contrast grayscale image, but still help improve the quality of the images.

下面这张图是一张修改后的图像，是由cifar10数据集中的一张对比度较低的猫咪图片修改得到的。正如你所看到的，最后修改的图像成果可能并不像在低对比度灰度图像中得到的图像成果那么令人惊艳，但总的来说图像的画质还是得到了提高。

修改Keras.preprocessing以启用“直方图均衡法”

现在，我们已经成功地修改了cifar10数据集中的一张图像，我们接下来将要讨论如何调整或改变keras.preprocessing图像文件，从而执行这些不同的直方图修改方法，就像我们利用ImageDataGenerator()函数进行keras图像扩充一样。以下是我们将采取的几个步骤：

步骤概述
找出keras.preprocessing image py文件
把image py文件复制到你的文件或者笔记本上。
给每个均衡方法添加一个属性到ImageDataGenerator()init函数中。
把“IF”的表达语句添加到随即转换的方法中，这样，我们在使用datagenfit()函数的时候，图像扩充就会被执行。

对keras.preprocessing的图像py文件进行修改和调整的最简单的方式之一就是将文件中的内容复制、粘贴到我们的代码中。这么做的好处是省略了我们下一个输入文件内容的步骤。你可以点击此处查看github上的图像文件。但是，为了确保你拿到的文件是之前输入的文件的相同版本，你最好取你的机器上已有的图像文件。

运行print(keras._file_)将会打印出你机器上的keras库的路径，其路径（针对IMac用户）大致如下：

/usr/local/lib/python3.5/dist-packages/keras/__init__.pyc

这给我们提供了本机机器上的路径，沿着路径导航，然后进入preprocessing文件夹；在preprocessing文件夹中你就会看到图像py文件，你可以将其中的内容复制到你的代码中。这个文件有点长，但对于初学者来说，这应该是最简单的方法了。

编辑图像

你可以在图片顶部添加一行注释：from..import backend as K

到这里，你还需要再次检查，以确保你输入的是必须的scikit-image单元，这样复制的image.py才能识别出。

from skimage import data, img_as_float
from skimage import exposure

现在，我们需要给ImageDataGenerator类的方法添加六行代码，这样它就有三个属性来表示我们将要添加的图像扩充类型。下面的代码是从我现在的image.py中复制得来的：

def __init__(self,
contrast_stretching=False, #####
histogram_equalization=False,#####
adaptive_equalization=False, #####
featurewise_center=False,
samplewise_center=False,
featurewise_std_normalization=False,
samplewise_std_normalization=False,
zca_whitening=False,
rotation_range=0.,
width_shift_range=0.,
height_shift_range=0.,
shear_range=0.,
zoom_range=0.,
channel_shift_range=0.,
fill_mode=’nearest’,
cval=0.,
horizontal_flip=False,
vertical_flip=False,
rescale=None,
preprocessing_function=None,
data_format=None):
if data_format is None:
data_format = K.image_data_format()
self.counter = 0
self.contrast_stretching = contrast_stretching, #####
self.adaptive_equalization = adaptive_equalization #####
self.histogram_equalization = histogram_equalization #####
self.featurewise_center = featurewise_center
self.samplewise_center = samplewise_center
self.featurewise_std_normalization = featurewise_std_normalization
self.samplewise_std_normalization = samplewise_std_normalization
self.zca_whitening = zca_whitening
self.rotation_range = rotation_range
self.width_shift_range = width_shift_range
self.height_shift_range = height_shift_range
self.shear_range = shear_range
self.zoom_range = zoom_range
self.channel_shift_range = channel_shift_range
self.fill_mode = fill_mode
self.cval = cval
self.horizontal_flip = horizontal_flip
self.vertical_flip = vertical_flip
self.rescale = rescale
self.preprocessing_function = preprocessing_function

下面的random_transform()函数呼应我们之前传输至ImageDataGenerator函数的参数。如果我们把“对比度扩展”、“自适应均衡”或“直方图均衡”的参数设置为“True”，那么当我们调用ImageDataGenerator函数的时候，random_transform()函数就会执行所需的图像扩充。

def random_transform(self, x):
img_row_axis = self.row_axis - 1
img_col_axis = self.col_axis - 1
img_channel_axis = self.channel_axis - 1# use composition of homographies
# to generate final transform that needs to be applied
if self.rotation_range:
theta = np.pi / 180 * np.random.uniform(-self.rotation_range, self.rotation_range)
else:
theta = 0 if self.height_shift_range:
tx = np.random.uniform(-self.height_shift_range, self.height_shift_range) * x.shape[img_row_axis]
else:
tx = 0 if self.width_shift_range:
ty = np.random.uniform(-self.width_shift_range, self.width_shift_range) * x.shape[img_col_axis]
else:
ty = 0 if self.shear_range:
shear = np.random.uniform(-self.shear_range, self.shear_range)
else:
shear = 0 if self.zoom_range[0] == 1 and self.zoom_range[1] == 1:
zx, zy = 1, 1
else:
zx, zy = np.random.uniform(self.zoom_range[0], self.zoom_range[1], 2)transform_matrix = None
if theta != 0:
rotation_matrix = np.array([[np.cos(theta), -np.sin(theta), 0],
[np.sin(theta), np.cos(theta), 0],
[0, 0, 1]])
transform_matrix = rotation_matrix if tx != 0 or ty != 0:
shift_matrix = np.array([[1, 0, tx],
[0, 1, ty],
[0, 0, 1]])
transform_matrix = shift_matrix if transform_matrix is None else np.dot(transform_matrix, shift_matrix) if shear != 0:
shear_matrix = np.array([[1, -np.sin(shear), 0],
[0, np.cos(shear), 0],
[0, 0, 1]])
transform_matrix = shear_matrix if transform_matrix is None else np.dot(transform_matrix, shear_matrix) if zx != 1 or zy != 1:
zoom_matrix = np.array([[zx, 0, 0],
[0, zy, 0],
[0, 0, 1]])
transform_matrix = zoom_matrix if transform_matrix is None else np.dot(transform_matrix, zoom_matrix) if transform_matrix is not None:
h, w = x.shape[img_row_axis], x.shape[img_col_axis]
transform_matrix = transform_matrix_offset_center(transform_matrix, h, w)
x = apply_transform(x, transform_matrix, img_channel_axis,
fill_mode=self.fill_mode, cval=self.cval) if self.channel_shift_range != 0:
x = random_channel_shift(x, self.channel_shift_range, img_channel_axis) if self.horizontal_flip:
if np.random.random() < 0.5:
x = flip_axis(x, img_col_axis) if self.vertical_flip:
if np.random.random() < 0.5:
x = flip_axis(x, img_row_axis)

if self.contrast_stretching: #####
if np.random.random() < 0.5: #####
p2, p98 = np.percentile(x, (2, 98)) #####
x = exposure.rescale_intensity(x, in_range=(p2, p98)) #####

if self.adaptive_equalization: #####
if np.random.random() < 0.5: #####
x = exposure.equalize_adapthist(x, clip_limit=0.03) #####

if self.histogram_equalization: #####
if np.random.random() < 0.5: #####
x = exposure.equalize_hist(x) #####

return x

现在，所有必备的代码都已经准备就绪了，那么我们就可以调用ImageDataGenerator()函数执行直方图修改的方法了。当我们将所有的参数设置为True后，部分图像就会变成这样：

# Initialize Generator
datagen = ImageDataGenerator(contrast_stretching=True, adaptive_equalization=True, histogram_equalization=True)# fit parameters from data
datagen.fit(x_train)# Configure batch size and retrieve one batch of images
for x_batch, y_batch in datagen.flow(x_train, y_train, batch_size=9):
# Show the first 9 images
for i in range(0, 9):
pyplot.subplot(330 + 1 + i)
pyplot.imshow(x_batch[i].reshape(img_rows, img_cols, 3))
# show the plot
pyplot.show()
break

我不推荐在任何给定的数据集中将一个以上的参数设置为True，你需要确保你的数据集实验有助于你提高分类器的准确性。对于彩色图像，我发现“对比度扩展”的成效优于“直方图修改”或“自适应均衡”的成效。

训练并且验证你的keras卷积神经网络

最后一步，训练我们的卷积神经网络，并使用 model.fit_generator() 函数验证这个模型，从而实现在扩充图像上的神经网络的训练和验证。

from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten
from keras.layers import Conv2D, MaxPooling2Dbatch_size = 64
num_classes = 2
epochs = 10model = Sequential()
model.add(Conv2D(4, kernel_size=(3, 3),activation='relu',input_shape=input_shape))
model.add(Conv2D(8, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(16, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(2, activation='softmax'))

model.compile(loss=keras.losses.categorical_crossentropy,
optimizer=keras.optimizers.Adadelta(),
metrics=['accuracy'])datagen.fit(x_train)
history = model.fit_generator(datagen.flow(x_train, y_train, batch_size=batch_size),
steps_per_epoch=x_train.shape[0] // batch_size,
epochs=20,
validation_data=(x_test, y_test))

雷锋网特约稿件，未经授权禁止转载。详情见转载须知。

【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
XSL-FO 块：深入解析与最佳实践沐知全栈开发开发语言
XSL-FO块：深入解析与最佳实践概述XSL-FO（XSLFormattingObjects）是一种用于生成格式化文档的语言，它允许开发者将XML数据转换成PDF、HTML、PostScript等格式。在XSL-FO中，块（Block）是一个重要的概念，它定义了文档中的矩形区域，包括文本、图像、表格等。本文将深入解析XSL-FO块的相关知识，并分享一些最佳实践。XSL-FO块的定义与属性定义XSL
2024年BCSP-X小高组基础知识题目（模拟题）天秀信奥编程培训 #BCXP-X模拟题北京BCSP-X试题讲解专栏 BCSP-X c++算法数据结构
一、单项选择计算机的核心部件是什么（）？A.显示器B.键盘C.中央处理器（CPU)D.鼠标将十进制小数9.375转换为二进制小数，其正确的二进制表示是（）。A.1001.11B.1011.11C.1001.011D.1011.011假设有一个内存显示为96MB的文件夹，里面存储的都是分辨率为1024×2048的24位图像，请问理论上存储了（）张图像？(不考虑图像技术压缩对内存的优化)A.16张B.
Python使用matplotlib绘制图像时，中文图例或标题无法正常显示问题独不懂 Python python matplotlib 开发语言
Python使用matplotlib绘制图像时，中文图例或标题无法显示问题解决方法一、问题描述二、解决方法欢迎学习交流！邮箱：z…@1…6.com网站：https://zephyrhours.github.io/一、问题描述Matplotlib库是Python中经常使用的绘图工具，但是有时候我们在使用plt绘制图像，需要将英文标题或者图例显示为中文样式，总会出现无法显示的问题，具体情况如下：imp
Spring AI入门教学：从零搭建智能应用（2025最新实践）程序员子固 spring 人工智能 java ai
目录引言：为什么选择SpringAI？一、环境搭建（附避坑指南）1.开发环境要求2.依赖配置二、实战：智能客服接入（代码级详解）1.配置模型参数2.实现流式对话接口三、高级功能：多模态AI开发1.图像描述生成2.智能文档处理四、开发者工具箱1.调试技巧2.性能优化五、学习路径建议引言：为什么选择SpringAI？随着生成式AI技术的爆发式发展（如OpenAI的GPT-4.5新动态24），Java开
Python视觉实战项目31讲源码地址机械小蛟龙笔记 opencv python 深度学习
Python视觉实战项目31讲源码地址来源：公众号小白学视觉2月1日使用OpenCV实现猜词游戏https://github.com/spmallick/learnopencv/tree/master/Hangman使用OpenCV实现图像修复https://github.com/spmallick/learnopencv/tree/master/Image-Inpainting自适应显着性的图像
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
图像解码之二——使用libpng解码png图片 weixin_55025383 mfc c++
上文《图像解码之一——使用libjpeg解码jpeg图片》介绍了使用libjpeg解码jpeg图片。png图片应用也非常广泛，本文将会简单介绍怎样使用开源libpng库解码png图片。libpng的数据结构png_structp变量是在libpng初始化的时候创建，由libpng库内部使用，代表libpng的是调用上下文，库的使用者不应该对这个变量进行访问。调用libpng的API的时候，需要把这
如何使用 ligpng 库进行图片解码应用开发openwrt linux sdd20x平台 ruihuan_2000 SSD20X openwrt linux 嵌入式 c++
文章目录前言一、libpng是什么？二、使用步骤1.引入库及头文件2.解码过程总结前言如何使用libpng库进行图片解码应用开发。一、libpng是什么？libpng是一个开源的、跨平台的图像处理库，用于处理和支持PNG（PortableNetworkGraphics）图像格式。PNG是一种无损压缩的图像格式，广泛用于互联网上的图像传输和存储。libpng提供了一系列的API和函数，使开发者可以在
libpng 库的编译与初步使用安静漫游编程
libpng（PortableNetworkGraphics）是一个用于处理和显示PNG图像文件的开源库。它提供了一组函数和工具，用于读取、写入和操作PNG图像。在本文中，我们将详细介绍如何编译libpng库并进行初步使用。步骤1：下载libpng源代码首先，我们需要从官方网站（https://libpng.sourceforge.io/）上下载libpng的源代码。选择最新版本的源代码包，并将其
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
Python打卡：Day39 剑桥折刀s python
知识点回顾图像数据的格式：灰度和彩色数据模型的定义显存占用的4种地方模型参数+梯度参数优化器参数数据批量所占显存神经元输出中间状态batchisize和训练的关系@浙大疏锦行
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
基于OpenCV的银行卡识别 Yang了个羊 OpenCV opencv 人工智能计算机视觉
一、设计思路1、预处理银行卡号序列模版，对其进行一系列形态学操作，继而进行轮廓识别，构建与各个轮廓所对应的数字元组。2、对将要识别的银行卡进行灰度处理、二值化、阈值处理，sobel算子边缘检测等预处理，再通过模版匹配方法找出与已知轮廓高度符合的数字。二、代码复现预操作：自定义一个cv_show函数，便于后来的图像展示。#绘图展示defcv_show(name,img):cv2.imshow(nam
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
Gen AI：重塑未来的创造力工具箱一杯酒zpy 人工智能
目录页一、GenAI工具箱助力大学生涯1.通用GenAI工具2.GenAI科研辅助1.文献阅读与论文写作2.数据分析与可视化3.AI翻译工具二、GenAI办公、学习助手1.PPT制作2.表格制作3.AI思维导图4.AI办公5.AI图像处理6.AI视频处理7.AI音频处理8.AI编程工具9.AI搜索引擎说明：网盘资源密码获取：关注微信公众号【土木岛】，后台回复文件框中提示的对应关键词自动发送。点击查
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
用python解决关于opencv对图片色点选取并与原图形成对照，代码与常见问题枕书眠月 opencv opencv 人工智能计算机视觉 python 嵌入式硬件开发语言
下面我们将学习opencv和HSV，因为RGB相同的颜色在各种照明条件下可能看起来不同，HSV模型将颜色信息（色调）与亮度和强度分开，这使得检测黄色、红色或绿色等颜色变得更加容易，尤其是在不同的光照条件下HSV更胜一筹，RGB不太适合颜色检测。所以使用HSV（色相、饱和度、值）颜色模型来检测图像中的红色。接下来逐步完成每个步骤，包括导入库、加载图像、将图像转换为HSV色彩空间、创建红色蒙版、查找轮
Qt, OpenCV与OpenGL协同作战：图像处理与三维图形界面的完美结合奇树谦 QT qt opencv 图像处理
原文链接：https://developer.aliyun.com/article/1463740文章目录Qt,OpenCV与OpenGL协同作战：图像处理与三维图形界面的完美结合1.引言图像处理与三维图形界面的重要性Qt,OpenCV与OpenGL简介与应用场景QtOpenCVOpenGL结合Qt,OpenCV与OpenGL的优势与价值2.Qt基础知识与特性Qt库的组成与功能Qt库的安装与使用Q
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

用Keras和“直方图均衡”为深度学习实现“图像扩充”

什么是“图像增强”？其重要性何在？

用Keras实现基本的图像扩充

数据加载及数据格式化

使用ImageDataGenerator函数创建一个图像生成器

任意地旋转图像

垂直翻转图片

将图像垂直或水平移动20%

break直方图均衡法

对比度扩展

自适应均衡

修改Keras.preprocessing以启用“直方图均衡法”

步骤概述

编辑图像

训练并且验证你的keras卷积神经网络

你可能感兴趣的:(深度学习,keras,深度学习,图像扩充)