tenju

[1DCNN] 简单使用自制音频数据集进行模型训练

本文打算使用自制的西瓜数据集进行深度学习的模型训练.
通过对手部敲击西瓜的音频进行分析,进行快速傅里叶变换提取频域特征,使用一维卷积神经网络模型进行模型训练,构建西瓜成熟度检测模型.

一. 数据集预处理
- 1.数据采集
- 2.数据预处理
- - 2.1端点检测
  - 2.2数据增强
  - 2.3快速傅里叶变换(FFT)
  - 2.4数据集制作
二. 模型训练
- 1.模型设计
- 2.模型训练超参数设置
- 3.模型性能评估指标
- 4.模型训练
- 5.模型训练结果与分析
- - 5.1三类数据集训练结果
  - 5.2对比模型性能

一. 数据集预处理

1.数据采集

使用进行模型训练的音频数据集,是自己采买西瓜进行录制的.
在进行采集音频的时候,根据敲击西瓜的方式分为了,拍 ( P ),弹 ( T ),敲 ( Q ).

关于西瓜信息:
采集的西瓜音频总共有939条.

数据集一共包含158个西瓜样本,每个西瓜有若干条音频数据.
其中选取86个西瓜样本作为训练集,36个测试集,36个验证集,
基本上数据比例为6:2:2

西瓜	八分熟	成熟	过熟	偏生	总和
西瓜个数	25	76	31	26	158
音频数	145	440	192	162	939
标签	0	1	2	3

2.数据预处理

因为自行采集的数据集,每个音频时长在6~30S之间,里面含有多个敲击信号.要对数据进行预处理.

2.1端点检测

端点检测详解链接: 使用matlab进行双门限法的端点检测

端点检测:是指从包含语音的一段信号中确定出语音的起始点和结束点位置.
意义:不仅可以增加样本数量,而且能够减少网络训练过程中不必要的计算,提升模型训练的准确率.

双参数双门限端点检测效果图

从图中可以看出,经过端点检测处理后,样本个数变多了,信号长度大幅度缩减.

值得注意的是:
1.音频时间不要过短.
假设采样频率为16kHZ,每一个数据样本要提取频域信号前1000个数据代表该信号,则要保证至少截取的每一个音频时长为0.0625s.(当然每个截取的音频里至少包含一个激励信号)

采样频率=每单位时间采样点数=采样点数/采样时间

2.阈值的设置要合理
因为音频数量过多,需要进行批量处理.在进行批量处理之前,对于阈值的设置要合理.
假设仅使用单参数的双门限法,也就是根据短时能量法来进行端点检测,根据音频的短时平均能量(或其它参数)设置阈值(amp1和amp2),使激励信号可以被正常找到.

合理设置阈值找到有效激励信号

2.2数据增强

如果在进行了对音频进行了端点检测之后,数据量不够,还可以进行其他的数据增强.(端点检测也算数据增强了)

在进行数据增强时,最好只做一些小改动,使得增强数据和源数据存在较小差异即可,切记不能改变原有数据的结构，不然将产生“脏数据”,通过对音频数据进行数据增强,能有助于模型避免过度拟合并变得更加通用.

对音频进行的改变如下:加噪,波形拉伸,高音修正.

加噪
添加的噪声为均值为0,标准差为1的高斯白噪声.

#####增加噪声#####
def add_noise(data):
    # 0.02为噪声因子
    wn = np.random.normal(0, 1, len(data))
    return np.where(data != 0.0, data.astype('float64') + 0.02 * wn, 0.0).astype(np.float32)

波形拉伸
在不影响音高的情况下改变声音的速度/持续时间.

#####波形拉伸#####
def time_stretch(x, rate):
    # rate：拉伸的尺寸，
    # rate > 1 加快速度
    # rate < 1 放慢速度
    return librosa.effects.time_stretch(x, rate)

高音修正
音高修正只改变音高而不影响音速.

#####音高修正#####
def pitch_shifting(x, sr, n_steps, bins_per_octave=12):
    # sr: 音频采样率
    # n_steps: 要移动多少步
    # bins_per_octave: 每个八度音阶(半音)多少步
    return librosa.effects.pitch_shift(x, sr, n_steps, bins_per_octave=bins_per_octave)

实例

import librosa
import numpy as np
import matplotlib.pyplot as plt
import soundfile as sf
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示符号
fs = 16000
wav_data, y = librosa.load(r"C:\Users\Administrator\Desktop\test\10_28_1190001.wav", sr=fs, mono=True)

#####1.增加噪声#####
def add_noise(data):
    # 0.02为噪声因子
    wn = np.random.normal(0, 1, len(data))
    return np.where(data != 0.0, data.astype('float64') + 0.02 * wn, 0.0).astype(np.float32)

#####3.波形拉伸#####
def time_stretch(x, rate):
    # rate：拉伸的尺寸，
    # rate > 1 加快速度
    # rate < 1 放慢速度
    return librosa.effects.time_stretch(x, rate)
#####4.音高修正#####
def pitch_shifting(x, sr, n_steps, bins_per_octave=12):
    # sr: 音频采样率
    # n_steps: 要移动多少步
    # bins_per_octave: 每个八度音阶(半音)多少步
    return librosa.effects.pitch_shift(x, sr, n_steps, bins_per_octave=bins_per_octave)

data_noise = add_noise(wav_data)
data_stretch = time_stretch(wav_data, rate=2)
data_pitch2 = pitch_shifting(wav_data, fs, n_steps=-6, bins_per_octave=12)   # 向下移三音（如果bins_per_octave为12，则六步）

# 绘图
plt.subplot(2, 2, 1)
plt.title("波形图", fontsize=15)
time = np.arange(0, len(wav_data)) * (1.0 / fs)
plt.plot(time, wav_data)
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('振幅', fontsize=15)

plt.subplot(2, 2, 2)
plt.title("加噪", fontsize=15)
plt.plot(time, data_noise)
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('振幅/Hz', fontsize=15)

plt.subplot(2, 2, 4)
plt.title("高音修正", fontsize=15)
plt.plot(time, data_pitch2)
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('振幅/Hz', fontsize=15)

plt.subplot(2, 2, 3)
plt.title("波形拉伸", fontsize=15)
time = np.arange(0, len(data_stretch)) * (1.0 / fs)
plt.plot(time, data_stretch)
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('振幅/Hz', fontsize=15)

plt.tight_layout()
plt.show()

音频数据增强效果图

2.3快速傅里叶变换(FFT)

对端点检测(或者数据增强)后得到的信号进行快速傅里叶变换,得到其幅频特性.提取频域信号前1000个数据(或者更多)代表该信号.

从物理的角度去看待傅立叶变换,它其实是帮助我们改变传统的时间域分析信号的方法转到从频率域分析问题的思维,下面的一幅立体图形可以帮助我们更好得理解这种角度的转换:
最前面的时域信号在经过傅立叶变换的分解之后,变为了不同正弦波信号的叠加,我们再去分析这些正弦波的频率,可以将一个信号变换到频域.有些信号在时域上是很难看出什么特征的,但是如果变换到频域之后,就很容易看出特征了.这就是很多信号分析采用FFT变换的原因.另外,FFT可以将一个信号的频谱提取出来,这在频谱分析方面也是经常用的.

对于计算机来说只有离散和有限长度的数据才能被处理,对于其它的变换类型只有在数学演算中才能用到,在计算机面前我们只能用DFT方法,而FFT也只不过是DFT的一种快速的算法.

关于如何实现fft,numpy中有一个fft的库.
具体程序实例如下:

import numpy.fft as nf
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt
import os
import re
from scipy.io import wavfile
# coding=utf-8
import os
import shutil
import pandas as pd
import numpy as np
import scipy.io as sio

# 对原始数据进行fft快速傅里叶变换之后，
# 每个类别整体对数据进行归一化并写入csv文件里存储数据
def myfft(sourceDir, targetDir):
    # 列出源目录文件和文件夹
    for file in os.listdir(sourceDir):
        # 拼接完整路径
        sourceFile = os.path.join(sourceDir, file)
        for files in os.listdir(sourceFile):
            sourceFile1 = os.path.join(sourceFile, files)
            data = []
            for files1 in os.listdir(sourceFile1):
                # 对每一个音频数据进行fft快速傅里叶变换
                try:
                    rate, data1 = wavfile.read(f'{sourceDir}/{file}/{files}/{files1}')
                    xf = np.fft.fft(data1)  # 快速傅里叶变换
                    xff = np.abs(xf)  # 取复数的绝对值，即复数的模(双边频谱)
                    n = 2 ** 15  # n>2*rate 即>32000 ,取了2^15 = 32768
                    y = xff / n  # 归一化处理
                    y1 = y[0:(int(n / 2))]  # 由于对称性，只取一半区间
                    data.append(y1[0:1000])  #取前一千个数据点
                except Exception as e:
                    continue
            data = np.array(data)
            print(data.shape)
            #对所有的数据进行标准化处理
            zscore_scaler = preprocessing.StandardScaler() 
            data2 = zscore_scaler.fit_transform(data)
            test = pd.DataFrame(data=data2)  
            test.to_csv(f'{targetDir}/{file}{files}.csv', encoding='utf-8', header=False,index=False)  # 保存为csv格式文件

if __name__ == "__main__":
		# 每个类别分别进行一次,完成之后得到4个.csv文件
    myfft("F:/文件/文件/watermelon/watermelon_data/split_data",
              "F:/文件/文件/watermelon/make_DataSet1")

原文件夹分布与目标文件夹得到四分类的.csv文件示例

单个音频FFT效果图

2.4数据集制作

原有音频总共九百多条,经过端点检测数据增强后扩充到了六万多条.

西瓜成熟度及其对应标签

成熟度	标签
八分熟	0
成熟	1
过熟	2
偏生	3

数据集划分

为什么要划分数据集?
深度学习是通过大量的线性分类器或非线性分类器,可导或不可导的激励函数,以及池化层等功能对观测对象的特征进行自动化的提取.

拥有如此好的分类能力会带来两个问题:
在复杂的网络中,如此多的W已经早就没有统计学中的权重权值的意义,无法得到清晰的物理解释,也无法有效地进行逆向研究.
网络能够学到很多东西,包括样本中所包含的噪声信息或者特例信息.

因此过拟合的原因和预防方法如下:
原因:样本过少,不足以归纳其共性.参数过多,能够拟合极为复杂的特征内容.
改善原因:增加样本数量,理论上越多越好.
检查手段:拿一些样本进行验证.通常会把拿到的所有样本数据分为三个集合.

训练集 :用来学习的样本集,通过这些向量来确定网络中的各个特定系数. 是用来进行训练模型的

验证集 : 是用来调整分类器的参数的样本集,在训练的过程中,网络模型会立刻在验证集进行验证.我们会同步观察到这个验证集数据上模型的表现如何,损失函数值是否会下降,准确率是否在提高.是用来调整超参数的.

测试集 : 是在训练后为测试模型的能力主要是分类能力而设置的一部分数据集合.是用来测试模型的准确性评估泛化能力.

数据划分比例
因为是小规模数据集数据,则将数据集根据 7 : 3 : 1 的比例划分为训练集,测试集,验证集.就是将训练集和测试集按照70%,30%的比例划分得到,然后从训练集中取10%作为验证集.

处理小结
将原始的音频进行端点检测和数据增强后,再进行快速傅里叶变换,取每一个音频信号的前1000点数据值,作为其特征值.
汇总每一种成熟度的音频数据特征值,存储为csv格式,才能进行后续的模型训练.

读取4个类别的csv数据,并打上对应标签.
程序代码如下:

# 汇总所有的数据，并绘制标签
def makeall(file0, file1, file2, file3, name, savefile):
    eight_medium = pd.read_csv(file0, header=None)  # 8分熟
    mature = pd.read_csv(file1, header=None)  # 成熟
    overrripe = pd.read_csv(file2, header=None)  # 过熟
    ripe_yet = pd.read_csv(file3, header=None)  # 偏生

    bfs_data = np.asarray(eight_medium)
    cs_data = np.asarray(mature)
    gs_data = np.asarray(overrripe)
    ps_data = np.asarray(ripe_yet)

    data = np.concatenate((bfs_data, cs_data, gs_data, ps_data))
    bfs_label = np.zeros((bfs_data.shape[0], 1))
    cs_label = np.ones((cs_data.shape[0], 1))
    gs_label = 2 * np.ones((gs_data.shape[0], 1))
    ps_label = 3 * np.ones((ps_data.shape[0], 1))

    label = np.concatenate(((bfs_label, cs_label, gs_label, ps_label)))

    variable = pd.DataFrame(label)  # 将变量转化为dataframe数据结构
    variable.to_csv(f'{savefile}/{name}_label.csv', header=None, index=None)
    variable = pd.DataFrame(data)  # 将变量转化为dataframe数据结构
    variable.to_csv(f'{savefile}/{name}_data.csv', header=None, index=None)  # 存储为没有表头和索引的csv文件


if __name__ == "__main__":
    savefile = './makelabel/z-score_fft_alldata_0'
    name = 'train'
    savename = 'train_all'
    t0_train = f'{savefile}/{name}0.csv'
    t1_train = f'{savefile}/{name}1.csv'
    t2_train = f'{savefile}/{name}2.csv'
    t3_train = f'{savefile}/{name}3.csv'
    makeall(t0_train, t1_train, t2_train, t3_train, savename, savefile)

经过处理得到两个.csv文件,如图

二. 模型训练

1.模型设计

提出的模型设计是以简单卷积神经网络做基础,在其结构上进行增加与改进.

Tensorflow
深度学习Tensorflow框架.不管是在服务器,边缘设备还是网络上,TensorFlow 都可以轻松地训练和部署模型;构建和训练先进的模型,并且不会降低速度或性能.

Keras
tf.keras是TensorFlow 2.0的高阶API接口,为TensorFlow的代码提供了新的风格和设计模式,大大提升了TF代码的简洁性和复用性,官方也推荐使用tf.keras来进行模型设计和开发.
用Keras中的深度学习模型—通用模型(Model函数式模型)来定义模型.通用模型可以设计非常复杂,任意拓扑结构的神经网络.相比于序列模型（Sequential）只能依次线性逐层添加,通用模型能够比较灵活地构造网络结构,设定各层级的关系.
函数式模型接口是用户定义多输出模型,非循环有向模型或具有共享层的模型等复杂模型的途径.换言之,只要你的模型不是类似 VGG 一条路走到黑的模型,或者你的模型需要多于一个的输出,那么你总应该选择函数式模型.函数式模型是最广泛的一类模型,序贯模型（Sequential）只是它的一种特殊情况.

CNN
卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络,通常用于处理具有类似网格结构的数据,例如图像或声音.CNN 在图像和语音识别方面表现出色,因为它们可以自动提取出特征,而无需人工干预.

CNN 的核心是卷积层（Convolutional Layer），它通过滑动一个小的窗口（称为卷积核）在输入数据上进行卷积操作，从而提取出局部特征。卷积层通常会跟随一个池化层（Pooling Layer），用于降低特征图的维度，减少计算量。

卷积网络有两个比较大的特点:
①有至少一个卷积层,用来提取特征.
②卷积网络的卷积层通过权值共享方式进行工作,大大减少权值W的数量,使得在训练中在达到同样识别率的情况下收敛速度明显快于全连接BP网络.

以下是以简单简单卷积神经网络做基础,设计一维卷积神经网络(1DCNN).
模型设计如下

模型设计每层具体参数

Layer (type)	Kernel_size	Filter number	Output Shape
conv1d	3×1	8	( 1000, 8)
max_pooling1d			( 1000, 8)
batch_normalization			( 1000, 8)
conv1d_1	3×1	16	( 1000, 16)
max_pooling1d_1			( 1000, 16)
batch_normalization_1			( 1000, 16)
conv1d_2	3×1	32	( 1000, 32)
max_pooling1d_2			( 500, 32)
batch_normalization_2			( 500, 32)
flatten			16000
dropout			16000
dense		32	32
dense_2		4	4

程序如下

def mymodel():
    inputs = keras.Input(shape=(1000, 0))  
    h1 = layers.Conv1D(filters=8, kernel_size=3, strides=1, padding='same', activation='relu')(inputs)
    h1 = layers.MaxPool1D(pool_size=2, strides=1, padding='same')(h1)
    h1 = layers.BatchNormalization()(h1)

    h2 = layers.Conv1D(filters=16, kernel_size=3, strides=1, padding='same', activation='relu' )(h1)
    h2 = layers.MaxPool1D(pool_size=2, strides=1, padding='same')(h2)
    h2 = layers.BatchNormalization()(h2)

    h2 = layers.Conv1D(filters=32, kernel_size=3, strides=1, padding='same', activation='relu')(h2)
    h2 = layers.MaxPool1D(pool_size=2, strides=2, padding='same')(h2)
    h2 = layers.BatchNormalization()(h2)

    h3 = layers.Flatten()(h2)  # 扁平层，方便全连接层传入数据
    h4 = layers.Dropout(0.2)(h3)  # Droupt层舍弃百分之20的神经元

    h4 = layers.GaussianNoise(0.005)(h4)
    h4 = layers.Dense(32, activation='relu')(h4)  # 全连接层，输出为32
  
    outputs = layers.Dense(4, activation='softmax')(h4)  # 再来个全连接层，分类结果为4种
    deep_model = keras.Model(inputs, outputs, name='1DCNN')  # 整合每个层，搭建1DCNN模型成功
    return deep_model

2.模型训练超参数设置

超参数通常指的是在机器学习算法训练的步骤开始之前设定的一些参数值,这些参数值通常是没办法通过算法本身来学会的------与其相对的就是在算法中可以学会或者学到的那些参数,例如权值w和偏置b.

批训练参数
在训练神经网络时,需要对2个参数进行设置,即batch,epoch.
首先是（batch）尺寸,一个批中的样本总数,即训练一次网络所用的样本数.训练网络时一次把所有的数据输入网络中计算量过大,我们一般把数据分成若干个批,按批传递给网络,并每一批传输后更新参数.这样的做有两个方面的优点,一方面是一批中的所有数据共同决定了本次梯度下降的方向,下降起来就不容易跑偏,减少了随机性;另一方面因为一批中的样本数与整个数据集相比小了很多,计算量也不是很大.
而每一次读入的训练集数目称作批大小（Batch Size）,在卷积神经网络中,大批次通常可使网络更快收敛,但由于内存资源的限制,批次过大可能会导致内存不够用或程序内核崩溃.bath_size通常取值为[16,32,64,128].
其次,将所有样本数据投入神经网络模型进行一次训练称为1个Epoch.
假设所有样本数为1000个,我们设置Batch Size为10个,即一次读入10个数据进行训练,则训练一轮数据需要读入100次才能训练完成.
本次设计中Epoch设置为100,Batch Size设置为128.

损失函数
损失函数是用来衡量模型预测结果与真实结果之间差异的函数.在机器学习中,我们通常使用损失函数来优化模型的参数,使得模型能够更好地拟合数据.常见的损失函数包括均方误差,交叉熵等.本次设计选择的是"sparse_categorical_accuracy".

学习率
学习率（learning rate或作lr）是指在优化算法中更新网络权重的幅度大小.学习率是最影响性能的超参数之一,相比于其它超参数,学习率调整是一种更加有效控制着模型的有效容量的方式.因此,为了训练神经网络,其中一个需要设置的关键超参数是学习率.选择最优学习率是很重要的.
学习率可以是恒定的,逐渐降低的,基于动量的或者是自适应的.不同的优化算法决定不同的学习率.当学习率过大则可能导致模型不收敛,损失loss不断上下震荡;学习率过小则导致模型收敛速度偏慢,需要更长的时间训练.通常 lr 取值为[0.01,0.001,0.0001].
本次设计的学习率设置为0.001.

优化器
当数据,模型和损失函数确定,任务的数学模型就已经确定,接着就要选择一个合适的优化器(Optimizer)对该模型进行优化.
优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量.使用比较多的优化器是SGDM和Adam.(SGD)虽然收敛偏慢,但是加入动量Momentum可加快收敛,同时带动量的随机梯度下降算法有更好的最优解,即模型收敛后会有更高的准确性,SGDM在CV里面应用较多,而Adam则基本横扫NLP,RL,GAN,语音合成等领域.目前Adam是快速收敛且常被使用的优化器,比如NLP领域,Transformer,BERT这些经典模型均使用的Adam,及其变种AdamW.
因此本次设计对学习率进行自适应学习的算法为Adam学习率优化算法.

3.模型性能评估指标

衡量模型的优劣是深度学习中关键性的问题,模型的评估就是判断神经网络拟合出模型是否优秀.很多情况下,难以一眼判断出模型的好坏,所以出现了诸多模型评价指标,混淆矩阵是评判模型结果的指标之一.混淆矩阵衡量分类型模型准确度中最基本,最直观,计算最简单的方法.混淆矩阵分别统计分类模型归错类,归对类的观测值个数,然后将结果放在一个表里展示出来.以二分类模型为例,其混淆矩阵形式如图.

混淆矩阵图

4.模型训练

在确定了模型设计,与模型训练超参数设置后,开始进行模型训练.

实现代码如下

"""
本段本代码是进行模型训练

"""
import  os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "1"
#os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
import tensorflow as tf
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from tensorflow.keras import layers, models, Model, Sequential
import  tensorflow as tf
from    tensorflow import keras
from    tensorflow.keras import layers, Sequential
from numpy import random

#固定随机种子，在调用seed_tensorflow后还需设置model.fit中shuffle=False、worker=1.
#保证每次训练结果一致
def seed_tensorflow(seed=42):
    os.environ['PYTHONHASHSEED'] = str(seed)
    random.seed(seed)
    np.random.seed(seed)
    tf.random.set_seed(seed)
    os.environ['TF_DETERMINISTIC_OPS'] = '1' 
seed_tensorflow(42)




def read_csv_file(train_data_file_path, train_label_file_path):
    """
    读取csv文件并将文件进行拼接
    :param train_data_file_path: 训练数据路径
    :param train_label_file_path: 训练标签路径
    :return: 返回拼接完成后的路径
    """
    # 从csv中读取数据
    train_data = pd.read_csv(train_data_file_path, header=None)
    train_label = pd.read_csv(train_label_file_path, header=None)

    # 将数据集拼接起来
    # 数据与标签拼接
    dataset_train = pd.concat([train_data, train_label], axis=1)
    dataset = pd.concat([dataset_train], axis=0).sample(frac=1, random_state=0).reset_index(drop=True)
    return dataset


def get_train_test(dataset, data_ndim=1):
    # 获得训练数据和标签
    X_train = dataset.iloc[:, :-1]
    y_train = dataset.iloc[:, -1]

    # 为了增加模型的泛化能力,需要打乱数据集
    index = [i for i in range(len(X_train))]
    random.seed(42)
    random.shuffle(index)
    X_train = np.array(X_train)[index]
    y_train = np.array(y_train)[index]

    # 改变数据维度让他符合（数量，长度，维度）的要求
    X_train = np.array(X_train).reshape(X_train.shape[0], X_train.shape[1], data_ndim)

    print("X shape: ", X_train.shape)

    return X_train, y_train

# 保存最佳模型
class CustomModelCheckpoint(keras.callbacks.Callback):  # 使用回调函数来观察训练过程中网络内部的状态和统计信息r然后选取最佳的进行保存
    def __init__(self, model, path):  # (自定义初始化)
        self.model = model
        self.path = path
        self.best_loss = np.inf  # np.inf 表示+∞，是没有确切的数值的,类型为浮点型  自定义最佳损失数值

    def on_epoch_end(self, epoch, logs=None):  # on_epoch_end(self, epoch, logs=None)在每次迭代训练结束时调用。在不同的方法中这个logs有不同的键值
        val_loss = logs['val_loss']  # logs是一个字典对象directory；
        if val_loss < self.best_loss:
            print("\nValidation loss decreased from {} to {}, saving model".format(self.best_loss, val_loss))
            self.model.save_weights(self.path, overwrite=True)  # overwrite=True覆盖原有文件  # 此处为保存权重没有保存整个模型
            self.best_loss = val_loss



def mymodel():
    inputs = keras.Input(shape=(1000, 1))
    h1 = layers.Conv1D(filters=8, kernel_size=3, strides=1, padding='same', activation='relu')(inputs)
    h1 = layers.MaxPool1D(pool_size=2, strides=1, padding='same')(h1)
    h1 = layers.BatchNormalization()(h1)

    h2 = layers.Conv1D(filters=16, kernel_size=3, strides=1, padding='same', activation='relu')(h1)
    h2 = layers.MaxPool1D(pool_size=2, strides=1, padding='same')(h2)
    h2 = layers.BatchNormalization()(h2)

    h2 = layers.Conv1D(filters=32, kernel_size=3, strides=1, padding='same', activation='relu')(h2)
    h2 = layers.MaxPool1D(pool_size=2, strides=2, padding='same')(h2)
    h2 = layers.BatchNormalization()(h2)

    h3 = layers.Flatten()(h2)  # 扁平层，方便全连接层传入数据
    h4 = layers.Dropout(0.2)(h3)  # Droupt层舍弃百分之20的神经元

    h4 = layers.GaussianNoise(0.005)(h4)
    h4 = layers.Dense(32, activation='relu' )(h4)  # 全连接层，输出为32

    outputs = layers.Dense(4, activation='softmax')(h4)  # 再来个全连接层，分类结果为4种

    deep_model = keras.Model(inputs, outputs, name='1DCNN')  # 整合每个层，搭建1DCNN模型成功

    return deep_model



def bulid(X_train, y_train, X_test, y_test,X_val,y_val, batch_size=128, epochs=100):
    """
    搭建网络结构完成训练
    :param X_train: 训练集数据
    :param y_train: 训练集标签
    :param X_test: 测试集数据
    :param y_test: 测试集标签
    :param X_val: 验证集数据
    :param y_val: 验证集标签
    :param batch_size: 批次大小
    :param epochs: 循环轮数
    :return: acc和loss曲线
    """

    model = mymodel()
    model.compile(optimizer=tf.keras.optimizers.Adam(lr = 0.001,decay=1e-3),
                  loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
                  metrics=['sparse_categorical_accuracy'])

    history = model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size,
                        validation_data=(X_val,y_val),
                        workers =1,
                        callbacks=[CustomModelCheckpoint(model, r'mybestcnn_minmax_fft_4.h5')])
    keras.models.save_model(model,'./mycnn.h5')
    model.summary()
    # 获得训练集和测试集的acc和loss曲线
    acc = history.history['sparse_categorical_accuracy']
    val_acc = history.history['val_sparse_categorical_accuracy']
    loss = history.history['loss']
    val_loss = history.history['val_loss']
    # 评估模型
    scores = model.evaluate(X_test, y_test, verbose=1)
    print('%s: %.2f%%' % (model.metrics_names[1], scores[1] * 100))
    y_predict = model.predict(X_test)
    y_pred_int = np.argmax(y_predict, axis=1)
    print(classification_report(y_test, y_pred_int, digits=4))

    # 绘制acc曲线
    plt.subplot(1, 2, 1)
    plt.plot(acc, label='Training Accuracy')
    plt.plot(val_acc, label='Validation Accuracy')
    plt.title('Training and Validation Accuracy')
    plt.legend()

    # 绘制loss曲线
    plt.subplot(1, 2, 2)
    plt.plot(loss, label='Training Loss')
    plt.plot(val_loss, label='Validation Loss')
    plt.title('Training and Validation Loss')
    plt.legend()
    plt.show()


    #  绘制混淆矩阵
    y_pred_gailv = model.predict(X_test, verbose=1)
    y_pred_int = np.argmax(y_pred_gailv, axis=1)
    con_mat = confusion_matrix(y_test.astype(str), y_pred_int.astype(str))
    con_mat = np.delete(con_mat, [0, 2, 4, 6], axis=0)
    con_mat = np.delete(con_mat, [1, 3, 5, 7], axis=1)
    classes = list(set(y_train))
    classes.sort()
    # plt.imshow(con_mat, cmap=plt.cm.Blues)
    plt.imshow(con_mat, cmap='Blues')
    indices = range(len(con_mat))
    plt.xticks(indices, classes)
    plt.yticks(indices, classes)
    plt.colorbar()
    plt.title('Confusion Matrix')
    plt.xlabel('guess')
    plt.ylabel('true')
    for first_index in range(len(con_mat)):
        for second_index in range(len(con_mat[first_index])):
            plt.text(first_index, second_index, con_mat[second_index][first_index], va='center', ha='center')
    plt.show()



if __name__ == "__main__":

    """
    频域数据集
    """
    #训练集
    x_train_csv_path = f'./makelabel/train_all_data.csv'
    y_train_csv_path = f'./makelabel/train_all_label.csv'
    dataset1 = read_csv_file(x_train_csv_path, y_train_csv_path)
    X_train,  y_train = get_train_test(dataset=dataset1, data_ndim=1)
    #测试集
    x_test_csv_path = f'./makelabel/test_all_data.csv'
    y_test_csv_path = f'./makelabel/test_all_label.csv'
    dataset2 = read_csv_file(x_test_csv_path, y_test_csv_path)
    X_test, y_test = get_train_test(dataset=dataset2, data_ndim=1)
    #验证集
    x_val_csv_path = f'./makelabel/val_all_data.csv'
    y_val_csv_path = f'./makelabel/val_all_label.csv'
    dataset3 = read_csv_file(x_val_csv_path, y_val_csv_path)
    X_val, y_val = get_train_test(dataset=dataset3, data_ndim=1)
    # 模型训练
    bulid(X_train, y_train, X_test, y_test,X_val,y_val)

5.模型训练结果与分析

5.1三类数据集训练结果

模型训练效果

从图中可以看出,三种数据验证集的准确率都能达到99%,
其中Q数据集的验证集准确率最高.
三种数据集在训练20个epoch后均达到了98%以上.

通过每种数据集中测试集测试后得到的混淆矩阵,分析模型对每种成熟度的检测效果,如表所示.
三种数据集的单个识别率都达到了99%,平均准确率也达到了99%,
以上数据,都说明了该分类模型很稳健,能较好的实现西瓜成熟度的检测.

数据集训练效果
F1-score 数据集	八分熟	成熟	过熟	偏生	平均
Q	0.9958	0.9972	0.9975	0.9954	0.9965
P	0.9950	0.9942	0.9948	0.9926	0.9941
T	0.9924	0.9955	0.9945	0.9925	0.9937
ALL	0.9935	0.9983	0.9973	0.9948	0.9960

为了测试不同的敲击方法混合使用时,模型的识别效果,将所有的数据融合使用,再进行训练.
训练曲线如图所示
经过100个epoch后模型的验证集准确率达到99.66%,loss收敛至0.02.

下图为所有数据中测试集测试后得到的混淆矩阵.
该混淆矩阵表明,模型还是有些误判.
通过混淆矩阵可以得到模型在测试集上的平均准确率为99.78%

5.2对比模型性能

为了对比模型的性能,选取一些经典卷积神经网络模型进行对比实验.
所选取的卷积神经网络模型均为二维型,对其进行一维改编.
本文所选取的卷积模型为ResNet18,MobileNet,AlexNet,VGGNet,GoogLeNet进行对比实验;在实验之前采用相同的训练集,学习率,批训练参数（epoch,Batch Size）,优化器,损失函数,进行相同的训练过程.

各模型的识别结果如表所示

对比模型训练效果
识别模型	模型参数量	单个类别				平均
识别模型	模型参数量	八分熟	成熟	过熟	偏生	平均
1DCNN	514,516	0.9935	0.9983	0.9973	0.9948	0.9960
VGG16	41,619,780	0.9855	0.9967	0.9972	0.9855	0.9912
AlexNet	12,360,900	0.9757	0.9928	0.9913	0.9797	0.9849
GoogelNet	3,527,476	0.9792	0.9945	0.9938	0.9803	0.9870
ResNet18	3,856,772	0.9403	0.9741	0.9730	0.9587	0.9615
MobileNet	487,711	0.8765	0.9610	0.9607	0.9344	0.9332

最后
如文中有错误,欢迎评论区或私信指出.
初学者新手还在学习中,还望海涵~

你可能感兴趣的:(tensorflow,python,音频,cnn)

Python中 rstrip()、 lstrip（）、 strip() 的用法和区别一只小小的土拨鼠深度学习面试前端 java python 深度学习
目录：题目一：Python中rstrip()、lstrip（）、strip()的用法和区别题目二：python中append（）、expend（）函数的用法和区别题目三：Python中zip()、zip(*zipped)、*zip()函数的用法和区别题目一：Python中rstrip()、lstrip（）、strip()的用法和区别考点这三个函数都是去除头尾字符、空白符的函数strip：用来去除头
Python个人学习笔记（17）：模块（sys、pickle&json） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
五、sys模块sys.exit()：退出while1:print(123)sys.exit(0)#程序退出，0是正常退出，1是非正常退出，记录在日志中sys.version：得到当前解释器的运行环境sys.platform：运行平台，win32=windows代码：print(sys.version)print(sys.platform)结果：3.13.0(tags/v3.13.0:60403a5
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
stm32第四天控制蜂鸣器 Do vis824 stm32 嵌入式硬件单片机
一：1.蜂鸣器的种类蜂鸣器是一种常用的电子发声元器件，采用直流电压供电。广泛应用于计算机，打ED机，报警器，电子玩具，汽车电子设备灯等产品中常见的蜂鸣器可分为有源蜂鸣器和无源蜂鸣器。2.蜂鸣器的控制方式有源蜂鸣器：内部有震荡源，只要通电即可自动发出固定频率的声音。（频率固定无法控制音色）无源蜂鸣器：内部无震荡源，需要外部脉冲信号驱动发声，声音频率可变。（可改变频率来改变音色）3.区分蜂鸣器从外观上
python strip/rstrip/lstrip详细讲解（涵盖许多例子、作用以及复杂行为处理） zilan23 Python python
pythonstrip/rstrip/lstrip详细讲解：在Python中，strip、lstrip、rstrip是用于字符串处理的常用方法，主要功能是去除字符串首尾的指定字符。它们的区别如下：1.strip([chars])作用：删除字符串开头和结尾处所有属于chars的字符，直到遇到不属于chars的字符为止。默认行为：若未提供chars参数，默认去除空白符（空格、换行\n、制表符\t等）。
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
LeetCode98-验证二叉搜索树学习的学习者 LeetCode Python 二叉搜索树
上个星期和导师去了华农一趟名义上是和导师去参加一个国家级的项目其实没我啥事都是我导师在那口若悬河当时和那边的本科生去了另一间会议室交流了关于GAN的知识偶然听说大家都在用pytorch好像最新版的也挺好用的反正就是学术界目前主要用这个框架工业界主要用Tensorflow(没办法，Google出品)这两天也拿来瞧了瞧好像也确实可以的！！！98-验证二叉搜索树给定一个二叉树，判断其是否是一个有效的二叉
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
一款适用于 Windows 、Mac 和 Linux 的屏幕录制与截图软件。 Mbblovey 开发语言开源软件电脑 java
Screenrec是一款适用于Windows、Mac和Linux的屏幕录制与截图软件。软件本身可以免费使用，只需要登录即可使用全部功能。当咱们打开软件后，电脑右边就会出现一个小漂浮窗。点击上方的图标就能一键开启视频录制、截屏等功能。Screenrec很有意思的是可以在开始录制屏幕的同时录制咱们的网络摄像头视频和麦克风音频。在录制完成后大家可能会发现右下角软件会给大家发出一个提醒。这就是它的另一个特
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
一篇文章教会你用Python爬取淘宝评论数据【淘宝商品评论数据接口参数】 Tinalee-电商API接口呀主流电商数据采集API接口淘宝天猫商品API接口淘宝商品评论API接口 python 开发语言人工智能大数据爬虫 java
【一、项目简介】本文主要目标是采集淘宝的评价，找出客户所需要的功能。统计客户评价上面夸哪个功能多，比如防水，容量大，好看等等。【二·淘宝/天猫获得淘宝商品评论API返回值】item_review-获得淘宝商品评论taobao.item_review公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是
Python for Android 安装和配置指南舒欣和Queenly
PythonforAndroid安装和配置指南python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目基础介绍和主要编程语言项目基础介绍PythonforAndroid(p4a)是一个开源工具，旨在将Python应用
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，