Prime's Blog

深度学习-第T10周——数据增强

深度学习-第T10周——数据增强
- 一、前言
- 二、我的环境
- 三、前期工作
- - 1、导入数据集
  - 2、查看图片数目
- 四、数据预处理
- - 1、加载数据
  - - 1.1、设置图片格式
    - 1.2、划分训练集
    - 1.3、划分验证集
    - 1.4、查看标签
    - 1.5、再次检查数据
    - 1.6、配置数据集
  - 2、数据可视化
- 五、数据增强
- - 1.数据增强
  - 2.增强方式
  - - 法一：将其嵌入model中
    - 法二：在Dataset数据集中进行数据增强
- 六、模型训练
- 七、自定义增强函数
- 八、总结

深度学习-第T10周——数据增强

一、前言

本文为365天深度学习训练营中的学习记录博客

原作者：K同学啊

二、我的环境

电脑系统：Windows 10
语言环境：Python 3.8.5
编译器：colab在线编译
深度学习环境：Tensorflow

三、前期工作

数据增强：数据增强可以用少量数据达到非常棒的识别准确率
数据增强的两种方式：
1、将数据增强模块嵌入model中
2、在Dataset数据集中进行数据增强

1、导入数据集

导入数据集，这里使用k同学的数据集，共2个分类。

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os, PIL, pathlib

#1、载入数据
data_dir = ("D:/DL_Camp/CNN/T8/365-7-data")
data_dir = pathlib.Path(data_dir)

这段代码将字符串类型的 data_dir 转换为了 pathlib.Path 类型的对象。pathlib 是 Python3.4 中新增的模块，用于处理文件路径。
通过 Path 对象，可以方便地操作文件和目录，如创建、删除、移动、复制等。
在这里，我们使用 pathlib.Path() 函数将 data_dir 转换为路径对象，这样可以更加方便地进行文件路径的操作和读写等操作。

2、查看图片数目

image_mount = len(list(data_dir.glob("*/*.jpg"))) 
print(image_mount)

获取指定目录下所有子文件夹中 jpg 格式的文件数量，并将其存储在变量 image_count 中。

data_dir 是一个路径变量，表示需要计算的目标文件夹的路径。
glob() 方法可以返回匹配指定模式（通配符）的文件列表，该方法的参数 “/.jpg” 表示匹配所有子文件夹下以 .jpg 结尾的文件。

list() 方法将 glob() 方法返回的生成器转换为列表，方便进行数量统计。最后，len() 方法计算列表中元素的数量，就得到了指定目录下 jpg 格式文件的总数。

所以，这行代码的作用就是计算指定目录下 jpg 格式文件的数量。

四、数据预处理

1、加载数据

1.1、设置图片格式

batch_size = 32
img_height = 224
img_width = 224

1.2、划分训练集

train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    
    data_dir,
    validation_split = 0.3,
    subset = 'training',
    seed = 12,
    image_size = (img_height, img_width),
    batch_size = batch_size
    
    )

这行代码使用 TensorFlow 读取指定路径下的图片文件，并生成一个 tf.data.Dataset 对象，用于模型的训练和评估。

具体来说，tf.keras.preprocessing.image_dataset_from_directory() 函数从指定目录中读取图像数据，并自动对其进行标准化和预处理。该函数有以下参数：

data_dir: 字符串，指定要读取的图片文件夹路径。
validation_split: 浮点数，指定验证集所占的比例。默认值为 0.2。
subset: 字符串，表示要读取哪个子集的数据。默认为 “training”，即读取训练集数据。
seed: 整型，用于设置随机种子以生成可重复的随机数，默认为 None。
image_size: 元组，表示所有图像的期望尺寸。例如 (150, 150) 表示将所有图像调整为 150x150 大小。
batch_size: 整型，表示每个批次的样本数。

通过这些参数，函数将指定目录中的图像按照指定大小预处理后，随机划分为训练集和验证集。最终，生成的 tf.data.Dataset 对象包含了划分好的数据集，可以用于后续的模型训练和验证。

需要注意的是，这里的 img_height 和 img_width 变量应该提前定义，并且应该与实际图像的尺寸相对应。同时，batch_size 也应该根据硬件设备的性能合理调整，以充分利用 GPU/CPU 的计算资源。

1.3、划分验证集

val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    
    data_dir,
    validation_split = 0.3,
    subset = "validation",
    seed = 12,
    image_size = (img_height, img_width),
    batch_size = batch_size
    
    )

这段代码和上一段代码类似，使用 TensorFlow 的 keras.preprocessing.image_dataset_from_directory() 函数从指定的目录中读取图像数据集，并将其划分为训练集和验证集。

其中，data_dir 指定数据集目录的路径，validation_split 表示从数据集中划分出多少比例的数据作为验证集，subset 参数指定为 “validation” 则表示从数据集的 20% 中选择作为验证集，其余 80% 作为训练集。seed 是一个随机种子，用于生成可重复的随机数。image_size 参数指定输出图像的大小，batch_size 表示每批次加载的图像数量。

该函数返回一个 tf.data.Dataset 对象，代表了整个数据集（包含训练集和验证集）。可以使用 train_ds 和 val_ds 两个对象分别表示训练集和验证集。

不过两段代码的 subset 参数值不同，一个是 “training”，一个是 “validation”。

因此，在含有交叉验证或者验证集的深度学习训练过程中，需要定义两个数据集对象 train_ds 和 val_ds。我们已经定义了包含训练集和验证集的数据集对象 train_ds，可以省略这段代码，无需重复定义 val_ds 对象。只要确保最终的训练过程中，两个数据集对象都能够被正确地使用即可。

如果你没有定义 val_ds 对象，可以使用这段代码来创建一个验证数据集对象，用于模型训练和评估，从而提高模型性能。

1.4、查看标签

由于原始数据集不包含测试集，因此需要创建一个

#由于原始数据集不包含测试集，因此需要创建一个
val_batches = tf.data.experimental.cardinality(val_ds)
test_ds = val_ds.take(val_batches // 5)
val_ds = val_ds.skip(val_batches // 5)

print('Number Of Val Batches: %d' % val_batches)
print('Number Of Validation Batches: %d' % tf.data.experimental.cardinality(val_ds))
print('Number Of test Batches: %d' % tf.data.experimental.cardinality(test_ds))

class_names = train_ds.class_names
class_names

1.5、再次检查数据

for images_batch, labels_batch in train_ds.take(1):
    print(images_batch.shape)
    print(labels_batch.shape)
    break

image_batch 是张量的形状（64, 224, 224，3）。这是一批形状2242243的8张图片，最后一维指的是彩色通道RGB
label_batch是形状为（64，）的张量，这些标签对应64张图片

1.6、配置数据集

AUTOTUNE = tf.data.AUTOTUNE
"""
定义 AUTOTUNE 常量
这个常量的作用是指定 TensorFlow 数据管道读取数据时使用的线程个数，使得数据读取可以尽可能地并行化，提升数据读取效率。
具体来说，AUTOTUNE 的取值会根据系统资源和硬件配置等因素自动调节。"""
def preprocess_image(image, label):
    return (image / 255.0, label)
"""这个函数的作用是对输入的图像数据进行预处理操作，其中 image 表示输入的原始图像数据，label 表示对应的标签信息。
函数体内的操作是把原始图像数据除以 255，使其数值归一化到 0 和 1 之间。
函数返回一个元组 (image / 255.0, label)，其中第一个元素是经过处理后的图像数据，第二个元素是对应的标签信息。
"""

#归一化处理
train_ds = train_ds.map(preprocess_image, num_parallel_calls = AUTOTUNE)
val_ds = val_ds.map(preprocess_image, num_parallel_calls = AUTOTUNE)
test_ds = test_ds.map(preprocess_image, num_parallel_calls = AUTOTUNE)

train_ds = train_ds.cache().shuffle(1000).prefetch(buffer_size = AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size = AUTOTUNE)
"""
通过 map 方法对数据集中的每个元素应用 preprocess_image 函数进行预处理。
num_parallel_calls 参数指定了并行处理的个数，这里设为 AUTOTUNE，表示自动选择最优的并行个数。

接着，对经过预处理后的数据集，通过 cache 方法将其缓存到内存中，以提高读取效率。
然后，再利用 shuffle 方法和 prefetch 方法对训练数据集进行混洗和数据预取，增强训练稳定性和效率。
而验证数据集只需要进行缓存和数据预取操作即可。
"""

在 TensorFlow 中，map 是一种对数据集中的每个元素应用一个函数的方法，常用于数据预处理和数据增强等任务。其使用方式为：

dataset = dataset.map(map_func, num_parallel_calls=None)
其中，dataset 表示待处理的数据集对象，map_func 表示要应用的函数，num_parallel_calls 表示并行执行 map_func 的线程数。

具体来说，map_func 函数会被应用到数据集中的每个元素上，函数接受一个或多个张量作为输入，输出也可以是一个或多个张量。map_func 的定义方式应当符合 TensorFlow 的计算图模型，即是一组 TensorFlow 的计算操作（ops）。

使用 map 方法可以方便地对数据集进行预处理，例如图像数据的归一化、尺寸调整、数据增强等。同时，由于 map 方法本身支持并行处理，因此可以大大加速数据处理的速度。

在使用 map 方法时，应尽可能指定 num_parallel_calls 参数以充分利用计算资源，提高处理效率。

2、数据可视化

plt.figure(figsize = (15, 13))

for images, labels in train_ds.take(1):
    for i in range(8):
        
        ax = plt.subplot(5, 8, i + 1)
        plt.imshow(images[i])
        plt.title(class_names[labels[i]])
        plt.axis("off")

train_ds.take(1) 是一个方法调用，它返回一个数据集对象 train_ds 中的子集，其中包含了 take() 方法参数指定的数量的样本。
在这个例子中，take(1) 意味着我们从 train_ds 数据集中获取一批包含一个样本的数据块。

因此，for images, labels in train_ds.take(1): 的作用是遍历这个包含一个样本的数据块，并将其中的图像张量和标签张量依次赋值给变量 images 和 labels。具体来说，
它的执行过程如下：

从 train_ds 数据集中获取一批大小为 1 的数据块。
遍历这个数据块，每次获取一个图像张量和一个标签张量。
将当前图像张量赋值给变量 images，将当前标签张量赋值给变量 labels。
执行 for 循环中的代码块，即对当前图像张量和标签张量进行处理。

plt.imshow() 函数是 Matplotlib 库中用于显示图像的函数，它接受一个数组或张量作为输入，并在窗口中显示对应的图像。
在这个代码中，images[i] 表示从训练集中获取的第 i 个图像张量。由于 images 是一个包含多个图像的张量列表，因此使用 images[i] 可以获取其中的一个图像。

plt.axis(“off”) 是 Matplotlib 库中的一个函数调用，它用于控制图像显示时的坐标轴是否可见。
具体来说，当参数为 “off” 时，图像的坐标轴会被关闭，不会显示在图像周围。这个函数通常在 plt.imshow() 函数之后调用，以便在显示图像时去掉多余的细节信息，仅仅显示图像本身。

五、数据增强

1.数据增强

data_augmentation = tf.keras.Sequential([
    
    tf.keras.layers.experimental.preprocessing.RandomFlip("horizontal_and_vertical"),
    tf.keras.layers.experimental.preprocessing.RandomRotation(0.2)
    
    ])
image = tf.expand_dims(images[i], 0)

plt.figure(figsize = (8,8))
for i in range(9):
    augmented_image = data_augmentation(image)
    ax = plt.subplot(3, 3, i+1)
    plt.imshow(augmented_image[0])
    plt.axis('off')

上述代码定义了一个数据增强模型data_augmentation，用于对图像数据进行随机翻转和旋转操作。具体来说，该模型使用tf.keras.Sequential容器将两个图像处理层拼接在一起：

tf.keras.layers.experimental.preprocessing.RandomFlip(“horizontal_and_vertical”)：该层用于对图像进行随机水平和垂直翻转的操作。其中，"horizontal_and_vertical"参数表示对图像进行同时水平和垂直方向上的翻转。如果不需要进行某个方向上的翻转可以分别使用"horizontal"和"vertical"参数。
tf.keras.layers.experimental.preprocessing.RandomRotation(0.2)：该层用于对图像进行随机旋转操作。其中，0.2参数表示旋转角度的幅度范围，即在[-20%, 20%]的范围内随机旋转图像。

2.增强方式

法一：将其嵌入model中

model = tf.keras.Sequential([
    
    data_augmentation,
    layers.Conv2D(16, 3, padding = "same", activation = 'relu'),
    layers.MaxPooling2D()
    
    ])

法二：在Dataset数据集中进行数据增强

batch_size = 32
AUTOTUNE = tf.data.AUTOTUNE()

def prepare(ds):
    ds = ds.map(lambda x, y : (data_augmentation(x, training = True), y), num_parallel_calls = AUTOTUNE)
    return ds

train_ds = prepare(train_ds)

六、模型训练

#四、训练模型
model = tf.keras.Sequential([
    data_augmentation,
    layers.Conv2D(16, 3, padding = 'same', activation = 'relu'),
    layers.MaxPooling2D(),
    layers.Conv2D(32, 3, padding = 'same', activation = 'relu'),
    layers.MaxPooling2D(),
    layers.Conv2D(64, 3, padding = 'same', activation = 'relu'),
    layers.MaxPooling2D(),
    layers.Flatten(),
    layers.Dense(128, activation = 'relu'),
    layers.Dense(len(class_names))
    ])

model.compile(
    
    optimizer = 'adam',
    loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=( True )),
    metrics = ['accuracy']
    )

epochs = 20
history = model.fit(
    
    train_ds,
    validation_data = val_ds,
    epochs = epochs
    
    )

loss, acc = model.evaluate(test_ds)
print("Accuracy", acc)

七、自定义增强函数

import random

def aug_img(image):
  seed = (random.randint(0, 9), 0)
  #随机改变图像对比度
  stateless_random_brightness = tf.image.stateless_random_contrast(image, lower = 0.1, upper = 1.0, seed = seed)
  return stateless_random_brightness


image = tf.expand_dims(images[3] * 255, 0)
print("Min And Max Pixel Values:", image.numpy().min(), image.numpy().max())

plt.figure(figsize = (8, 8))
for i in range(9):

  augmented_image = aug_img(image)
  ax = plt.subplot(3, 3, i + 1)
  plt.imshow(augmented_image[0].numpy().astype("uint8"))

  plt.axis("off")

八、总结

数据增强可以有效地提高模型的识别精度和泛化能力。在训练过程中对输入数据进行随机变换，可以使得模型更加鲁棒，避免过度拟合。对输入图像进行随机翻转和旋转，可以增加训练数据的多样性，从而提高模型对不同角度和方向的图像进行分类的能力。

一份Python面试宝典小夕Coding Python大学作业汇总 python 面试开发语言
Python面试宝典文章目录Python面试宝典题目001:在Python中如何实现单例模式。题目002：不使用中间变量，交换两个变量`a`和`b`的值。题目003：写一个删除列表中重复元素的函数，要求去重后元素相对位置保持不变。题目004：假设你使用的是官方的CPython，说出下面代码的运行结果。题目005：Lambda函数是什么，举例说明的它的应用场景。题目006：说说Python中的浅拷贝
python中的下划线用法总结白色机械键盘 python实践 python 开发语言
在Python中，下划线（underscore）有多种用法。它在不同的上下文中可以扮演不同的角色，下面是其常见用法的总结：1.单下划线"_"1.1作为临时变量或无用变量在循环或解包操作中，表示一个临时的或不关心的变量。for_inrange(5):print("Hello,World!")a,_,b=(1,2,3)print(a,b)#输出:131.2在交互式解释器中在交互式解释器中，"_"用于保
西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？程序员yt python 华为od 考研
今天给大家分享的是一位粉丝的提问，西交建筑学本科秋天毕业想转码，自学了Python+408，华为OD社招还是考研更香？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：本科就读于西安交通大学建筑学，今年21岁，秋天毕业，不想在建筑行业，想转码，现在在学Python以及计算机408课程，在Boss上投了很多的岗位好像都是华为OD社招，我毕业应该去试试
python技巧之下划线老虎也淘气 Python编程掌握指南 python django 开发语言
‍♂️个人主页@老虎也淘气个人主页✍作者简介：Python学习者希望大家多多支持我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注python技巧之下划线1、python的moudles文件中__all__作用2、__slots__用于限定类属性，如：3、下面的小技巧可以获取私有变量：4、下划线种类单个下划线（_）单下划线前缀的名称（例如_shahriar）双下划线前缀的名称（例如__s
【华为OD-E卷 -123 判断一组不等式是否满足约束并输出最大差 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java javascript c++
【华为OD-E卷-判断一组不等式是否满足约束并输出最大差100分（python、java、c++、js、c）】题目给定一组不等式，判断是否成立并输出不等式的最大差(输出浮点数的整数部分)要求:不等式系数为double类型，是一个二维数组不等式的变量为int类型，是一维数组;不等式的目标值为double类型，是一维数组不等式约束为字符串数组，只能是:“>”,“>=”,“<”,“<=”,“=”，例如，
【华为OD-E卷 -122 字符统计及重排 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-字符统计及重排100分（python、java、c++、js、c）】题目给出一个仅包含字母的字符串，不包含空格，统计字符串中各个字母（区分大小写）出现的次数，并按照字母出现次数从大到小的顺序。输出各个字母及其出现次数。如果次数相同，按照自然顺序进行排序，且小写字母在大写字母之前输入描述输入一行，为一个仅包含字母的字符串输出描述按照字母出现次数从大到小的顺序输出各个字母和字母次数，
【华为OD-E卷-02 最多提取子串数目100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-最多提取子串数目100分（python、java、c++、js、c）】题目给定[a-z]，26个英文字母小写字符串组成的字符串A和B，其中A可能存在重复字母，B不会存在重复字母，现从字符串A中按规则挑选一些字母，可以组成字符串B。挑选规则如下：同一个位置的字母只能挑选一次被挑选字母的相对先后顺序不能被改变求最多可以同时从A中挑选多少组能组成B的字符串。输入描述输入为2行，第1行输
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
python的try和except_Python 异常处理(Try...Except) weixin_40001309
版权所有，未经许可，禁止转载try块让你可以检测代码块中的错误。except块让你可以处理错误。finally块让你可以执行最终代码，不管try与except块的结果如何，finally块的代码都将执行。异常处理当错误(或者异常)发生时，Python通常会停止执行，并报错。这些异常可以使用try/except语句处理：示例下面try块会产生异常，因为x没有定义:try:print(x)except
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
一文掌握python异常处理（try...except...）程序员neil python python 开发语言
目录1、基础结构2、try块3、except块4、else块5、finally块6、自定义异常7、抛出异常8、常用的内置异常类型1）、Exception：捕捉所有异常。2）、BaseException：所有异常的基类。通常不应该直接捕获这个类的实例，除非你确实打算捕获所有异常。3）、SyntaxError：Python语法错误，比如拼写错误或不正确的语句结构。4）、ImportError：尝试导入
利用Python进行数据可视化（Plotly与Dash的应用）步入烟尘 Python超入门指南全册信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
python中 except与 except Exception as e的区别东木月 python python性能提升 python 开发语言
python中except与exceptExceptionase的区别1、捕获所有异常使用except#-*-coding:utf-8-*-"""@contact:微信1257309054@file:except与exceptExceptionase的区别.py@time:2024/4/1313:26@author:LDC"""importsysdeffun1():try:sys<
编程提示异常就不用挨个度娘了——Python初识必备爱码小士 Python 网络爬虫机器学习 web开发人工智能
相信对于很多小白，新手对一些异常提示，都不一定明白其含义，所以给大家整理了这样一份中英对照表，对大家一定有所帮助，当然最好都能熟记于心，这样就不用再去一个个度娘了，觉得这个表不错就点个赞加转发吧，文末更多福利异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)Exception常规错误的基类StopI
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
《Python实战进阶》No26: CI/CD 流水线：GitHub Actions 与 Jenkins 集成带娃的IT创业者 Python实战进阶 python ci/cd github
No26:CI/CD流水线：GitHubActions与Jenkins集成摘要持续集成（CI）和持续部署（CD）是现代软件开发中不可或缺的实践，能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线，并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员，本文都将帮助你掌握CI/
python tcl,Python tcl没有正确安装邓永泉 python tcl
Ijustinstalledgraphics.pyforpython.Then,whenItriedtorunthefollowingcode:fromgraphicsimport*defmain():win=GraphWin("MyCircle",100,100)c=Circle(Point(50,50),10)c.draw(win)win.getMouse()#Pausetoviewresul
【Python】解析 XML 茉菇 Python python xml
1、Python对XML的解析1.1SAX(simpleAPIforXML)SAX解析器使用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。xml.sax模块牺牲了便捷性来换取速度和内存占用。事件驱动指一种基于回调（callback）机制的程序运行方法。利用SAX解析XML文档牵涉到两个部分:解析器：负责读取XML文档，并向事件处理器发送事件，如元素
python中使用单例模式在整个程序中只创建一个数据库连接，节省资源背太阳的牧羊人 python 数据库数据库 python 单例模式
示例代码：fromloguruimportloggerfrompymongoimportMongoClientfrompymongo.errorsimportConnectionFailurefromllm_engineering.settingsimportsettingsclassMongoDatabaseConnector:_instance:MongoClient|None=Nonedef
Python XML 解析 lsx202406 开发语言
PythonXML解析引言XML（可扩展标记语言）是一种用于存储和传输数据的标记语言。Python作为一种功能强大的编程语言，提供了多种解析XML的方法。本文将详细介绍Python中常用的XML解析方法，包括XML解析的基本概念、常用库以及解析实例。XML解析的基本概念1.XML文档结构XML文档由以下几部分组成：声明：声明XML版本和编码方式。根元素：文档中所有元素的父元素。元素：XML文档中的
Package SeqIO wangyiqi806643897
InputThemainfunctionisBio.SeqIO.parse(...)whichtakesaninputfilehandle(orinrecentversionsofBiopythonalternativelyafilenameasastring),andformatstring.ThisreturnsaniteratorgivingSeqRecordobjects:>>>fromB
蓝桥杯Python赛道备赛——Day8：动态规划（基础）案例分析 SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就上一期中讨论的蓝桥杯动态规划基础问题（包括：递推、记忆化搜索、最长公共子序列和最长上升子序列），给出了六个常见的案例问题。每一个问题都给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。如有不懂，欢迎在评论区提问。前序知识：（1）Python基础语法（2）Day1：基础算法（3）Day7：动态规划（基础）动态规划（基础）案例分析一、递推应用：爬楼梯问题二、递推应用：零钱兑换三、记忆
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
《我的Python觉醒之路》之转型Python（十五）——控制流 Python破壁人手记 python 服务器网络开发语言 java
[今天是2025年3月17日，继续复习第一章节、第二章节的内容]《我的Python觉醒之路》之转型Python（十四）——控制流
AI：188-利用Python进行自然语言生成和文本摘要一键难忘 python 开发语言人工智能自然语言处理
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.利用Python进行自然语言生成和文本摘要近年来，人工智
零基础Python快速入门：核心概念+基础语法详解中意可口可乐 python 开发语言
一、为什么选择Python？1.语言优势简洁易读：接近自然语言的语法结构#其他语言实现循环for(inti=0;i=3)#返回True#逻辑运算符print((5>3)and(2=90:grade='A'elifscore>=80:grade='B'#这里将执行该分支else:grade='C'循环结构#while循环count=0whilecount<3:print(f"第{count+1}次循
python后端常见架构_常见的后端框架 weixin_39622178 python后端常见架构
后端vs前端如果您是Web开发世界的新手，后端和前端开发之间的区别可能不那么明显，但是，了解两者之间的区别很重要。以下是前端开发人员与后端开发人员的一些区别。前端开发：前端开发人员在很大程度上负责用户所看到的内容(即网站页面)，前端开发人员主要使用HTML，CSS和JavaScript。他们的主要关注点是创建出色的用户体验，并确保网站设计和布局或Web应用程序始终具有凝聚力。后端开发：另一方面，后
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
【Python】字符串的常用方法 myjzwsz python 开发语言
Python的字符串是一种不可变序列类型，提供了许多内置的方法来处理文本数据。下面是一些常用的字符串方法：str.lower()-将所有字符转换为小写。str.upper()-将所有字符转换为大写。str.capitalize()-首字母大写，其余字母小写。str.title()-每个单词的首字母大写。str.swapcase()-大小写互换。str.strip([chars])-移除字符串头尾指
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

深度学习-第T10周——数据增强