Grace_yanyanyan

201912一种改进动物音频分类的数据增强方法

Data augmentation approaches for improving animal audio classification
标题：一种改进动物音频分类的数据增强方法
作者： Loris Nanni, Michelangelo Paci
链接：https://arxiv.org/abs/1912.07756

本文利用卷积神经网络（CNNs）训练中不同的数据增强技术，提出了一组用于动物音频自动分类的分类器。具体的动物音频分类问题是i）鸟类和ii）猫的声音，其数据集是免费的。我们在原始数据集上训练五个不同的cnn，并在它们的版本上训练四个增强协议，处理原始音频信号或它们作为谱图的表示。我们将我们的最佳方法与现有技术进行了比较，结果表明，在不需要特别参数优化的情况下，我们可以在相同的数据集上获得最佳的识别率。我们的研究表明，不同的cnn可以被训练用于动物音频分类，并且它们的融合效果比单独的分类器好。据我们所知，这是在动物音频分类音频数据集中使用相同的分类器和参数对CNNs的数据增强进行的最大规模的研究。我们的MATLAB代码可以在https://github.com/lorisnani上找到。

声音分类和识别已经包含在不同应用领域的模式识别任务中，例如语音识别[1]、音乐分类[2]、环境声音识别或生物特征识别[3]。在传统的模式识别框架（预处理、特征提取和分类）中，特征通常是从

实际的音频轨迹（例如统计频谱描述符或节奏直方图[4]）。然而，将音频跟踪转换为其视觉表示可以使用通常用于图像分类的特征提取技术。音频记录道最常见的视觉表示是显示原始记录道随时间变化的频率谱，例如谱图[5]、Mel频率倒谱系数谱图[6]以及由此导出的其他表示。谱图可以描述为具有两个几何维（时间和频率）加上将特定时间步长的特定频率中的信号振幅编码为像素强度的三维的二维图[7]。例如，Costa等人。[8,9]将多种纹理分析和分类技术应用到音乐体裁分类中。在[9]中，在谱图上计算灰度共生矩阵（GLCMs）[10]作为拉丁音乐数据库（LMD）[11]上训练支持向量机（SVMs）的特征。类似地，在[8]中，他们使用了最著名的纹理描述子局部二值模式（LBP）[12]，再次在LMD和ISMIR04[13]数据集上训练支持向量机，提高了它们相对于先前工作的分类精度。同样在2013年[14]，他们使用了相同的方法，但使用了局部相位量化（LPQ）和Gabor滤波器[15]进行特征提取。这实际上标志着一个有趣的平行发展越来越精细的纹理描述子用于图像分类和他们的应用，也在声音识别。2017年，Nanni等人。[2]提出了将最新的纹理描述子与从多个数据集上的音频轨迹中提取的声学特征进行融合，展示了这种融合如何大大提高仅基于声学或视觉特征的系统的精度。然而，随着深度学习的普及和越来越强大的图形处理单元（gpu）以可获得的成本投入使用，i）标准模式识别框架发生了变化，ii）人们的注意力在声学轨迹的视觉表示上出现了两极分化。特征提取步骤的优化在规范框架中具有关键性的作用，特别是随着手工特征的发展，将特征从同一类中放置在特征空间中彼此更接近，同时最大化它们与其他类的距离。由于deep 3分类器在训练过程中学习了用于描述模式的最佳特征，因此上述特征工程失去了部分重要性，它与直接使用音频痕迹的视觉表示相结合，使分类器能够选择信息量最大的特征。将模式表示为流水线开始时的图像的另一个原因是最著名的深度分类器（如卷积神经网络（CNN））的内在结构，它需要图像作为输入。这促使研究人员在音频分类中使用CNNs来改进将音频信号转换为时频图像的方法。在对音频图像进行深度学习的首批研究中，Humphrey和Bello[16,17]探索了CNN作为解决音乐分类问题的替代方法，定义了自动和弦检测和识别的最新技术。Nakashika等人。[18]在GTZAN数据集上执行音乐类型分类[19]将频谱图转换为GCLM地图以训练cnn。Costa等人。[20]融合的规范方法，例如LBP训练的带有CNNs的支持向量机，在LMD数据集上的性能比现有的方法要好。

除了直接来源于图像分类的方法外，很少有研究集中在不同的分类方面，以便使这种过程更具体地用于声音识别。Sigtia和Dixon[21]旨在调整CNN的参数和结构，并展示了如何通过使用修正线性单元（ReLu）替换sigmoid单元和使用Hessian自由优化的随机梯度下降来减少训练时间。Wang等人。[22]提出了一种新的用于声音事件识别和检索的稀疏编码CNN方法，在噪声和干净条件下进行性能评估时，该方法获得了比大多数其他方法更具竞争力甚至更好的结果。Oramas等人提出的另一种混合方法。[23]结合不同的模式（专辑封面图像、评论和音频曲目），使用适合每个模式的深度学习方法进行多标签音乐流派分类，并优于单峰方法。在分类性能上的明显提高引入了深度分类器的使用，使得声音识别也应用到生物多样性评价等其他任务中。在当前不断提高环境意识的4个背景下，高精度的声音识别系统可以在缓解或管理诸如动物物种损失风险增加或影响野生动物群的气候变化等威胁方面发挥关键作用[24]。例如，鸟类被公认为生态研究的生物学指标。因此，它们的观察和监测对于生物多样性的保护越来越重要，另外一个优势是获取视频和音频信息具有微创性。迄今为止，许多数据集可用于开发分类器，以识别和监测不同物种，如鸟类[25,26]、鲸鱼[27]、青蛙[25]、蝙蝠[26]、猫[28]。例如，曹等人。[29]结合CNN和手工制作的特征对海洋动物进行分类[30]（鱼类和姆巴里底栖动物数据集[31]）。Salamon等人。[32]根据43种鸟类的5428次飞行呼叫，研究了融合深度学习（使用CNN）和浅层学习的鸟类物种识别问题。在这两个工作中，CNN与模式规范技术的融合都优于单一方法。

深度学习方法的主要缺点之一是需要大量的训练数据[33]，在这种情况下，需要音频信号，因此需要它们的视觉表示。在训练图像数量有限的情况下，数据增强是一种强有力的工具。动物声音数据集通常比必要的要小得多，因为样本收集和标记可能非常昂贵。通常，音频信号可以在时间和/或频率域中直接在原始信号上或在转换成频谱图之后增强。在[34]中，不同的增强技术被应用于BirdCLEF 2018计划（www.imageclev.org/node/230）的训练集，其中包括超过30000个鸟类声音样本，涉及1500多种物种。首先在时域内对Bird音频信号进行增强，例如从每个文件中的随机位置提取块，对持续时间应用抖动，从随机文件中添加两个音频块背景噪声和背景大气噪声，应用随机循环移位和时间间隔丢失。然后将每个增强的音频块转换成谱图，然后通过基音偏移和频率拉伸、分段时间拉伸和频率拉伸以及应用颜色5抖动在频域中进一步增强。完全增广导致的影响提高了近10%，识别性能量化为平均倒数秩。在动物音频分类领域，Sprengel等人。[35]在鸟类音频分类中使用标准音频增强技术，如时间和音调偏移。此外，他们通过对属于同一类的两个不同样本求和来创建更多的样本。这是因为同一类的两只鸟的声音仍然应该正确分类。Pandeya等人。[28]证明了在本文第5节所述的国内cat声音数据集上，通过随机选择时间拉伸、音调偏移、动态范围压缩和插入噪声等简单技术增强音频信号，提高了ROC曲线下的精度、F1分数和面积。尤其是，通过在每个原始音频文件中包含更多的增强克隆（1到3个），性能改进得到了提高。相反，Oikarinen等人。[36]表明，通过翻译、添加随机噪声和将输入乘以接近1的随机值来增加其频谱图，并没有显著改善对绒猴音频信号的分类。值得注意的是，这项工作的目的不仅仅是对物种或叫声类型的分类，而是识别叫声类型和来源动物。其他技术，如语音识别，也适用于动物声音分类。例如，Jaitly等人。[37]提出了声带长度扰动（VTLP），它在提取描述子以创建新样本的过程中改变声带长度。结果表明，该方法在语音识别中是非常有效的。高桥等人。[38]使用具有强大数据增强功能的大型卷积网络对音频事件进行分类。他们还使用了VTLP并引入了一种新的变换，该变换包括对同一类的两个不同扰动样本求和。在这项工作中，我们比较了不同的数据增强方法，每种方法都耦合不同的cnn。这样，就训练了一组网络。最后，利用求和规则对分类器集进行组合。该方法在两个不同的音频分类数据集上进行了测试：第一个与国内猫声分类相关（[28]），第二个与鸟类分类相关（[24]）。我们的实验被设计来比较和最大化通过改变数据增强方法和分类器的6个组合所获得的性能，并且它们表明我们的增强技术在提高分类精度方面是成功的。我们对社区的主要贡献如下：·在两个数据集中测试/提出/比较了不同的音频数据增强方法；·对基于不同数据增强方法训练的CNNs的集成系统之间的融合进行了详尽的测试；·在我们的实验中使用的所有MATLAB源代码将在https://github.com/LorisNanni上免费提供

2。音频信号的图像表示，
为了得到音频信号的图像表示，我们对信号进行了离散Gabor变换（DGT）。DGT是短时傅里叶变换的一种特殊情况，其中窗函数是高斯核。连续Gabor变换定义为高斯信号与复指数信号乘积之间的卷积：
（此处有公式请看原论文）
其中㼿（㼿）是信号，㼿是频率，㼿是虚单位。参数㼿2是高斯窗口的宽度。离散型差分格式使用离散卷积。输出㼿（㼿，㼿）是一个矩阵，其列表示在固定时间的信号频率。我们使用了http://ltfat.github.io/doc/gabor/sgram.html[39]中提供的DGT实现。
3. Convolutional Neural Networks
在这项工作中，我们使用CNNs进行特征提取（训练SVMs）和直接分类。1998年由LeCun等人引入。[40]是深度前馈神经网络，其中神经元仅在局部连接到前一层的神经元。在训练阶段，权值、偏差和7个激活函数被迭代调整。除了输入层（即要分类的图像或其部分）和输出/分类（类）层（由每个要分类的类的一个神经元组成）之外，CNN还包含一个或多个隐藏层。不同类型的隐藏层是卷积（CONV）、激活（ACT）、池（POOL）和完全连接（FC）。CONV层通过将输入卷的局部区域（接收场）卷积到相同大小的滤波器（因此是输出卷的单个整数）来执行从输入卷的特征提取。然后，滤波器以定义的步幅在同一输入图像的下一个接收场上滑动，再次计算新接收场与同一滤波器之间的卷积。对整个输入图像执行此操作将为下一层提供输入。在每个CONV层之后，应用一个非线性动作层来提高网络的分类和学习能力。常见的激活函数是非饱和ReLU函数㼿（㼿）=max（0，㼿）或饱和双曲正切㼿（㼿）=tanh（㼿）、㼿（㼿）=tanh（㼿）或sigmoid函数㼿（㼿）=（1+㼿—㼿）-1。池层需要执行非线性下采样操作（例如，最大或平均池），旨在减少表示的空间大小，同时减少1）参数的数量，2）过拟合的可能性，以及3）网络的计算复杂度。池层通常出现在两个CONV层之间。FC层通常是最后一个隐藏层：它们拥有与前一层中所有激活完全连接的神经元。输出类层执行最终分类：SoftMax是类层常用的激活函数。

CNN的转移学习或微调本质上重新启动了预训练网络的训练过程，以使CNN适应不同的分类问题。我们对先前在ImageNet[41]或Places365[42]数据集上预先训练过的cnn进行微调。我们测试并组合了两种不同的CNN架构：
1。GoogleNet[43]。CNN是2014年ImageNet ILSVRC挑战赛的冠军。它的结构包括需要训练的22层和5个游泳池层。它还引入了8个新的“初始”模块（INC），即由输出串联的并行卷积滤波器构成的子网络，大大减少了可学习参数的数量。使用两个预先训练过的GoogleNets：一个在ImageNet数据库上训练[41]，另一个在Places365[42]数据集上训练。
2。VGGNet[44]。这家CNN在2014年ILSVRC排名第二。它是一个非常深的网络，包括16层（VGG-16）或19层（VGG-19）CONV/FC。CONV层是非常均匀的，在每两个或三个CONV层之后使用一个池层的非常小（3x3）卷积滤波器（而不是像AlexNet[45]中那样在每个CONV层之后）。VGG-16和VGG-19都是在ImageNet数据库上训练的[41]。

Data Augmentation approaches
在本文中，我们测试了以下四个增强协议。对于第三和第四个协议，我们使用了Audiogmenter[46]提供的方法，Audiogmenter[46]是一个用于MATLAB的音频数据扩充库。
4.1 Standard Image Augmentation
我们的第一个数据增强协议（标准img，图2）结合了计算机视觉中的标准数据增强技术。我们以50%的概率独立地在左右（RandYReflection）和上下（RandYReflection）方向反射图像。我们还将图像沿两个轴线性缩放[1，2]中的两个随机数（RandXScale和RandYScale）。此外，我们应用随机旋转的角度在[-10，10]（随机旋转）和平移的像素数在[0，5]（随机平移和随机平移）。

4.2 Standard Signal Augmentation
我们的第二个数据增强协议（StandardSGN）依赖于MATLAB内置的音频信号数据增强方法。我们为每个训练信号创建10个新信号，应用以下50%概率的转换：1。信号速度按[0.8,1.2]中的随机数缩放（SpeedupFactoryRange）。2。在[-2,2]个半音阶（半音阶移位范围）中随机数的音高偏移。三。体积以随机数增加/减少[-3,3]dB（VolumeGainRange）。四。在[0,10]dB（SNR）范围内添加随机噪声。5个。在范围内的时间偏移[-0.005,0.005]秒（时间偏移范围）。

4.3 Spectrogram Augmentation
我们的第三个数据增强协议（Spectro，图3）直接作用于谱图，生成每个原始谱图的六个转换版本。我们实现了以下六个不同的功能（以斜体显示）：1。谱图随机移位随机应用音调移位和时间移位。2。spectrogramSameClassSum通过对来自同一类的两个随机图像的光谱图求和来创建新图像。三。声道长度标准化（VTLN）通过应用随机裁剪和VTLP来创建新图像[37]。VTLP将谱图切割成10个不同的时间切片，并对每个切片应用以下公式

其中，0、π是基本频率和最大频率，并且随机选取[^，y]。我们将a和b分别设置为0.9和1.1。四。spectrogramemdaaugment应用均衡混合数据增强（EMDA）[47]通过计算具有相同标签的两个随机选择的光谱图的加权平均值来创建新图像，其中㼿是原始数据集的大小。我们还将i）在[0，50]中随机选择的时间延迟应用于一个谱图，并且ii）根据公式㼿㼿㼿㼿（㼿）=㼿Φ（㼿1（㼿），㼿1）+（1-㼿）Φ（㼿2（㼿㼿㼿），其中㼿，㼿是[0，1]中的两个随机值，对它们进行扰动，㼿是时移，Φ是由向量㼿=（㼿0，㼿，㼿）参数化的均衡器函数。㼿0为中心频率，在[㼿0min，㼿0max]=[1006000]中随机采样。㼿是增益，随机采样于––㼿㼿㼿㼿㼿㼿㼿，㼿㼿㼿㼿㼿㼿㼿]=[-8,8]。㼿-因子㼿在[㼿㼿㼿㼿，㼿㼿㼿㼿]=[1,9]中随机抽样。所有这些参数都可以由用户选择，这里报告的值是在我们的实验中使用的值。5个。randTimeShift通过随机选取[1，㼿]中的shift㼿，其中㼿是输入谱图的水平尺寸，并将谱图切割为在时间㼿前后拍摄的两个不同图像㼿1和㼿2来应用时间偏移。我们通过反转㼿1和㼿2的顺序获得新图像。6。randomImageWarp将细样条图像扭曲[48]（TPS扭曲）应用于光谱图。TPS Warp通过随机改变输入像素的子集㼿的位置来扰动原始图像，并使用线性12插值来适应不属于㼿的像素。我们只在水平轴上改变谱图。此外，我们还应用了频率和时间掩蔽，这在实践中是通过将谱图的两行一列的条目设置为零来实现的。我们将行的宽度设置为5像素，列的宽度设置为15像素。

4.4 Signal Augmentation
我们的第四个协议（信号，图4）直接作用于原始音频信号，产生11个转换版本的输入信号。它包含以下10个函数（以斜体显示）：1。wow resampling对原始信号应用wow重采样。Wow重采样是音高偏移的一种变体，其强度随时间而变化。转换由：㼿（㼿）=㼿+㼿㼿sin（2㼿㼿㼿）2㼿㼿㼿13给出，其中x是输入信号，我们选择㼿㼿=3和㼿㼿=2。2。噪声添加白噪声，使得信号和噪声之间的比率为㼿dB，其中㼿可以由用户选择。我们用了㼿=10。三。剪辑使音频信号正常化，使10%的样本不在[-1，1]。然后将超出范围的样本x剪裁为符号（x）。四。加速增加或降低音频信号的速度。在我们的实验中，我们应用了15%的速度增加。5个。谐波失真连续5次对信号应用二次失真：其中sin5（）表示应用了5次的正弦函数。6。增益将音频信号的增益增加特定的分贝数。在我们的实验中，我们采用了10分贝的增强。7号。randTimeShift随机将每个音频信号分成两部分，将它们交换并重新安装到新的随机移动信号中，即，如果㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿㼿]。8个。soundMix将来自同一类的两个不同音频信号相加，以创建一个新的合成信号。9号。应用动态范围压缩程序将动态范围压缩（DRC）[49]应用于输入音频信号。DRC是一种根据递增的分段线性函数，提高音频信号的低强度，衰减高强度，从而压缩音频信号动态范围的技术。10个。pitchShift将音频信号的音调移动特定数量的半色调。我们选择增加和减少两个半色调。图4报告了两个音高偏移的例子：pitchShiftA增加两个半音高，pitchShiftB减少两个半音高。

Experimental results
我们以识别率为绩效指标，采用分层十倍交叉验证方案，评估资料扩充的效果。我们在以下两组动物音频记录数据集上测试了我们的方法：BIRDZ，在[24]中使用的控制和真实世界音频数据集。这些真实世界的记录是从Xeno canto档案馆（http://www.Xeno-canto.org/）下载的，选择了11种广泛分布的北美鸟类。课程包括：1）蓝松鸦，2）歌麻雀，3）沼泽鹪鹩，4）普通黄喉雀，5）削麻雀，6）美洲黄莺，7）大蓝鹭，8）美洲乌鸦，9）雪松蜡翅，10）家雀和11）靛蓝斑鸠。该数据集包括不同类型的频谱图：恒定频率、频率15调制哨声、宽带脉冲、具有不同频率成分和强谐波的宽带。在全球范围内，BIRDZ包含2762个鸟类声学事件，其中339个检测到的“未知”事件对应于噪音和其他未知物种的发声。CAT，CAT声音数据集见[28,50]。它包括10个平衡的声音类（大约300个样本/类）。课程包括：1）休息，2）警告，3）生气，4）防御，5）打架，6）快乐，7）狩猎心理，8）交配，9）母亲呼叫和10）痛苦。声音的平均持续时间约为4秒。这个数据集的作者收集了来自不同来源的猫的声音：Kaggle、Youtube和Flickr。在下表1中，我们报告了四种数据增强协议获得的性能，并将它们与无增强（NoAUG）作为基线进行了比较。我们对cnn进行了30个阶段的训练，除了StandardIMG，由于它的收敛速度慢，我们对它进行了60个阶段的训练。为了减少训练时间，我们对NoAUG使用了30个批量，对所有其他协议使用了60个批量。学习率（LR）设为0.0001，除了标准img中的两个GoogleNets（我们使用LR=0.001，因为它们在LR=0.0001时表现不佳）。名为“VGG16–batch size”的CNN是标准的VGG16，其中batch size始终固定为30。此外，在表1/2中，我们还报告了四种融合方法：1。融合——使用每种数据增强协议训练的五个CNN之间的局部和规则；2。融合No+Si+Sp，14个cnn的求和规则，即用NoAUG训练的4个cnn、用Spectro训练的5个cnn和用信号训练的5个cnn（对每个协议进行不同的训练）；163。融合Si+Sp，作为先前的融合，但不考虑NoAUG的CNNs。只有用Spectro训练的5个cnn和用信号训练的5个cnn采用和规则组合。融合Si+Sp+SSG，作为前一次融合，加上5个用增广协议标准sgn训练的cnn。VGG16可能会出现一个收敛问题：如果它在训练阶段没有收敛，我们将再次运行训练。为了避免和规则融合中的数值问题，所有非a值的分数都被认为是零。另一个数字问题是VGG16可以将相同的分数分配给所有的模式，例如当VGG16在训练数据中不收敛时（训练集中的随机性能）。在这种情况下，我们认为所有的分数都是零。

报告结果可得出以下结论：
1。两个测试数据集的最佳折衷性能/计算时间是通过“融合Si+Sp”得到的。
2。在所有的测试中，没有一个单一的数据增强协议能胜过所有其他的协议。Spectro在CAT和BIRDZ中的性能最好。但在两组数据中，信号均优于NoAUG。最好的独立CNN是VGG16与信号耦合，尽管它的性能明显低于合集获得的性能；
3。最好的独立CNN是VGG16与信号耦合，尽管它的性能明显低于合集获得的性能；
4。用于图像增强的计算机视觉标准方法img获得了最差的结果，也与NoAUG相比，显示了对音频信号及其频谱图使用特定增强技术的重要性。

在下表3中，我们将我们的最佳融合方法Si+Sp与文献数据进行了比较，结果表明，在这两个数据集中，它的性能都优于最先进的性能。

注意，与[52]的比较是不公平的，因为在这项工作中使用了一个简单得多的测试协议：“在每个试验中，数据集被随机分成60%的训练集和40%的测试集”。

我们报告了从Pandeya等人中提取的两种方法的结果，分别称为[28]和[28]–CNN，后者基于用于特征提取的CNN集合来表示音频信号。不幸的是，在音频动物分类领域，有几篇论文只关注一个数据集。我们知道，在两个不同的数据集中评估我们的数据增强协议限制了我们强结论的强度。尽管如此，本文中测试的两个数据集都是免费提供的，并且在这里用一个清晰明确的测试协议对它们进行了测试。通过这种方式，我们报告了音频分类的基线性能，可用于比较将来开发的其他方法。

Conclusion
本文探讨了不同的数据增强技术如何通过深度网络提高自然声音（鸟鸣和猫鸣）的自动音频分类精度。提出了不同类型的音频信号数据增强方法，并进行了测试和比较。由于这些信号的性质，数据增强方法被应用于原始音频信号和它们作为谱图的视觉表示上。使用不同的数据扩充方法（我们组织成四个协议）训练一组cnn，然后用和规则组合这些cnn。我们的结果表明，不同的精细调谐CNNs的集成在两个测试音频分类问题中的性能最大化，优于以前的最先进的方法。据我们所知，这是CNNs在音频分类中最大的数据增强研究。这项工作将进一步发展，包括其他数据集，如[27，53]，以获得一个更全面的验证，拟议的CNN集成。我们还计划i）在其他声音分类任务（如鲸鱼和青蛙分类）上测试我们的集成；ii）评估20种不同的CNN拓扑、传输学习微调步骤中的参数以及数据增强方法如何改善或降低集成性能。本文提出的方法的MATLAB代码可以在https://github.com/lorisnani上免费进行比较。

Acknowledgment
作者感谢NVIDIA公司通过捐赠Titan Xp GPU和坦佩雷科学计算中心的大量计算资源来支持这项工作。

你可能感兴趣的:(papers)

CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
第81期 | GPTSecurity周报 aigc网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.大语言模型与代码安
强化学习与网络安全资源-论文和环境 AI拉呱 web安全安全
TableofContentsRL-EnvironmentsPapersBooksBlogpostsTalksMiscellaneous↑EnvironmentsPentestingTrainingFrameworkforReinforcementLearningAgents(PenGym)TheARCDPrimary-levelAITrainingEnvironment(PrimAITE)CSL
arxiv论文爬虫 plasma-deeplearning pycharm ar 爬虫
文章目录readmeArxivInterestingPapersCrawlerDescription:Thetimerangeofthepaperdownloading:Themodeofthedownloading:Therootofthedownloading:Thedomainofthedownloading:Thecustomizedkeywords:Thecustomizedkeywor
KDD2015,Accepted Papers weixin_34124651 大数据人工智能数据库
AcceptedPapersbySessionResearchSessionRT01:SocialandGraphs1Tuesday10:20am–12:00pm|Level3–BallroomAChair:TanyaBerger-WolfEfficientAlgorithmsforPublic-PrivateSocialNetworksFlavioChierichetti,SapienzaUni
【AI视野·今日NLP 自然语言处理论文速览第八十期】Fri, 1 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP LLM 大语言模型
AI视野·今日CS.NLP自然语言处理论文速览Fri,1Mar2024Totally67papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersLooseLIPSSinkShips:AskingQuestionsinBattleshipwithLanguage-InformedProgramSamplingAuthorsGabrielGrand,V
【CVPR 2021】Knowledge Review：知识蒸馏新解法 BIT可达鸭深度学习人工智能计算机视觉模型压缩知识蒸馏
【CVPR2021】KnowledgeReview：知识蒸馏新解法论文地址：主要问题：主要思路：符号假设：具体实现：实验结果：关注我的公众号：联系作者：论文地址：https://jiaya.me/papers/kdreview_cvpr21.pdf主要问题：目前大部分关于KD的方法都是基于相同层或者相同Block之间的知识迁移。但是Teacher往往深层表示抽象的语义信息，底层表示简单的知识的信息
InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens 伊织code #Paper Reading InfiniteHiP 推理 GPU LLM token
InfiniteHiP:ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers/2502.08910Sourcecode:https://github.com/DeepAuto-AI/hip-attention/SGLangIntegrationavailablen
Stable Diffusion创始人：DeepSeek没有抄袭！ Datawhale stable diffusion 人工智能
Datawhale分享观点：EmadMostaque，编译：Datawhale视频中英对照如下：Distillationisnothingnew,andthere'snowaytokindofstopthisfromthemodelbasis.蒸馏技术并不是什么新事物，而且从模型的角度来看，没有办法完全阻止这种情况的发生。Butifyouactuallylookatwhatthepapersays
利用ChatGPT阅读文献：指南与技巧摆烂大大王 chatgpt MathorCup数学建模 chatgpt 论文阅读人工智能学习
阅读文献对于学术研究和深度学习至关重要。ChatGPT作为一款高级人工智能聊天机器人，可以帮助用户更高效地阅读和理解文献。以下是如何利用ChatGPT阅读文献的一些指南和技巧。1.文献检索在你阅读文献之前，首先需要找到相关文献。可以使用如下命令让ChatGPT帮助你进行文献检索：/findpapers关键词或主题例如，如果你需要寻找关于人工智能在医疗领域应用的文献，可以输入：/findpapers
OpenAI的编程语言和框架，给程序员带来了帮助有哪些 API技术大佬Anzexi58 OpenAI 人工智能人工智能深度学习
OpenAI是一个人工智能开发公司，成立于2015年，总部位于美国旧金山。这家公司致力于研究和开发先进的人工智能技术，旨在将这些技术应用到解决全球一些最棘手的问题上。OpenAI以其卓越的技术和实验室出品的groundbreakingAIpapers而闻名。OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open
CT-Mamba:一种用于低剂量CT降噪的混合卷积状态空间模型论文解读 ZcZc__1 深度学习人工智能图像处理
论文：CT-Mamba:AHybridConvolutionalStateSpaceModelforLow-DoseCTDenoising代码：zy2219105/CT-Mamba，作者称将会在论文正式发表后提供。本文参考了该网站，其对CT-Mamba提供了更详细的描述：https://www.aimodels.fyi/papers/arxiv/ct-mamba-hybrid-convolutio
第76期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.关于使用大语言模型
第84期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能 gpt AIGC
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
第72期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.从孤立指令到互动鼓
第84期 | GPTSecurity周报 aigc
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
awesome-Gaussian-Splatting Jfeng7810 3d
Awesome3DGaussianSplattingResourcesAcuratedlistofpapersandopen-sourceresourcesfocusedon3DGaussianSplatting,intendedtokeeppacewiththeanticipatedsurgeofresearchinthecomingmonths.Ifyouhaveanyadditionsors
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
第78期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.ChatNVD：借
第81期 | GPTSecurity周报 aigc网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.大语言模型与代码安
第83期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
第79期 | GPTSecurity周报 aigcgpts
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
IJCAI2024 无脑敲代码，bug漫天飞会议
CallforPapers–IJCAI2024重要日期(所有时间都是地球上的任何地方，UTC-12)摘要提交截止日期:2024年1月10日作者信息截止日期:2024年1月16日论文全文截止日期:2024年1月17日附录和重新提交信息截止日期:2024年1月24日简易拒绝通知:2024年2月22日作者回复时间:2024年3月18日至21日书面通知:2024年4月16日会议:2024年8月3日星期六至
第66期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用高级大语言模型
第65期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全语言模型
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.基于第一性原理的大
特征点提取与匹配原文论文下载长沙有肥鱼视觉SLAM十四讲计算机视觉
ORB原文下载链接：(PDF)ORB:anefficientalternativetoSIFTorSURFSIFT原文下载链接：https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdfSURF原文下载链接:https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdfORB和AKAZE对比论文下载链接：h
今日欧美圈：Sam Smith专辑改期，The Box狂揽B榜十周冠胡萝卜音乐
新一期Billboard单曲榜上，《TheBox》狂揽十周冠，DuaLipa热单《Don'tStartNow》升至亚军，LilUziVert有三首歌曲进入前十。SamSmith新专辑《ToDieFor》发行日期推迟到6月5日。新单要来啦！LaurenJauregui宣布新单《Lento》将在3月20日发行。HarryStyles登上BeautyPapers写真释出！在《冰雪奇缘2》中为Honeym
英语精读笔记.新概念第三册(5)The facts确切数字英文研习社
文章原文：Editorsofnewspapersandmagazinesoftengotoextremestoprovidetheirreaderswithunimportantfactsandstatistics.Lastyearajournalisthadbeeninstructedbyawell-knownmagazinetowriteanarticleonthepresident'spal
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f