AI 菌

PANNs：用于音频模式识别的大规模预训练音频神经网络

文章目录

- 摘要
- 1、引言
- 2、音频标记系统
- - 2.1 CNNs
  - 2.2 ResNets
  - 2.3 MobileNets
  - 2.4 一维CNNs
- 3、Wavegram-CNN 系统
- - 3.1 Wavegram-CNN systems
  - 3.2 Wavegram-Logmel-CNN
- 4、数据处理
- - 4.1 数据均衡
  - 4.2 数据增强
- 5、迁移到其他任务
- 6、实验
- - 6.1 AudioSet 数据集
  - 6.2 评价标准
  - 6.3 AudioSet 打标结果
- 7、结论

摘要

音频模式识别是机器学习领域的一个重要研究课题，它包括音频标注、声音场景分类、音乐分类、语音情感分类和声音事件检测等任务。近年来，神经网络已被应用于解决音频模式识别问题。然而，以前的系统是建立在特定数据集上的，数据集时长有限。

最近，在计算机视觉和自然语言处理中，在大规模数据集上进行预训练的系统已经很好地推广到一些任务上了。然而，在大规模数据集上进行音频模式识别的预训练系统的研究还很有限。本文提出了在大规模音频数据集上训练的预训练音频神经网络(PANN)。

本文提出了一种同时使用对数-梅尔谱和波形作为输入特征的Wavegram-Logmel-CNN结构。本文最好的PAN系统在AudioSet标签上达到了最先进的平均平均精度(MAP)0.439，超过了之前最好的系统0.392。本文将PAN迁移到六个音频模式识别任务中，并在其中几个任务中展示了最先进的性能。

源码和预训练模型见： https://github.com/qiuqiangkong/audioset_tagging_cnn

1、引言

音频模式识别的一个里程碑是AudioSet的发布，这是一个包含超过5,000小时的527个声音类别的音频记录的数据集。AudioSet没有发布原始音频记录，而是发布了从预先训练的卷积神经网络中提取的音频片段的编码特征。一些研究人员已经研究了具有编码特征的 building systems。

然而，编码特征可能不是音频记录的最佳表示，这可能限制那些系统的性能。在本文中，提出了使用多种神经网络对原始音频集录音进行训练的预训练音频神经网络(PANN)。本文显示了几个PAN系统比以前最先进的音频标记系统性能更好。我们还研究了PANN的音频标记性能和计算复杂性。

我们提出将PANN迁移到其他音频模式识别任务中。以前的研究人员已经研究了音频标记的迁移学习。例如，在《Transfer learning by supervised pre-training for audio-based music classification》中提出的百万首歌曲数据集上对音频标签系统进行预训练，从预训练的卷积神经网络(CNN)中提取的编码特征被用作第二阶段分类器的输入，例如神经网络或支持向量机(SVMs)。在MagnaTagATune和声学场景数据集上预先训练的系统在其他音频标记任务上进行了微调。这些迁移学习系统主要使用音乐数据集进行训练，并且限于比AudioSet更小的数据集。

本文的主要工作包括：

介绍了2020年8月23日在AudioSet上训练的两个具有190万个音频片段和527个声音类的本体的PANN；
研究了各种PANN的音频标记性能和计算复杂度之间的权衡；
提出了一个称为Wavegram-Logmel-CNN的系统，它在音频集标注上达到了0.439的平均精度(MAP)，超过了以前最先进的系统MAP 0.392和Google的MAP 0.314；
证明了PANN可以转移到其他音频模式识别任务，性能优于几个最先进的系统；

2、音频标记系统

音频标记是音频模式识别的一项基本任务，其目的是预测音频片段中音频标记的存在与否。音频标记的早期工作包括使用手动设计的特征作为输入，如音频能量、过零率和梅尔频率倒谱系数(MFCC)。

生成模型，包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)和判别支持向量机(SVMS)已经被用作分类器。最近，卷积神经网络(CNN)等基于神经网络的方法被用来预测音频记录的标签。基于CNN的系统在几个DCASE挑战任务中取得了最先进的性能，包括声学场景分类和声音事件检测。

然而，这些作品中的许多都集中在特定的任务上，声音类的数量有限，并且没有被设计成识别广泛的声音类。本文重点是在AudioSet上训练大规模的PANNs来解决一般的音频标记问题。

2.1 CNNs

普通卷积层：每个卷积层包含几个核，这些核与输入特征图卷积以捕获其局部模式。用于音频标记的CNN通常使用LOG Mel谱图作为输入。将短时傅立叶变换(STFT)应用于时间域波形以计算频谱图。然后，对谱图应用Mel滤波器组，然后进行对数运算以提取对数Mel谱图。
使CNN适应于AudioSet标注：本文使用的PANN是基于我们之前为DCASE 2019挑战提出的跨任务CNN系统，在CNN的倒数第二层增加了一个额外的完全连接层进一步提高表象能力。本文将大小为2×2的平均池化应用于每个卷积块用于下采样，因为2×2平均池化已被证明优于2×2最大池化。
使用二进制交叉熵损失函数来训练PANN：

2.2 ResNets

ResNets：对于音频分类，较深的CNN比较浅的CNN具有更好的性能。非常深的传统CNN的一个挑战是，梯度不能从顶层正确地传播到底层。为了解决这个问题，ResNets[32]在卷积层之间引入了快捷连接。这样，前向和后向信号可以从一个层直接传播到任何其他层。捷径连接只引入少量的额外参数和少量的额外计算复杂性。一个ResNet由多个块组成，每个块由两个核大小为3×3的卷积层组成，以及输入和输出之间的快捷连接。每个瓶颈块由三个卷积层组成，该卷积层具有网络中的网络体系结构，其可以用来代替ResNet中的基本块[。
为AudioSet标记调整的ResNet：我们对ResNet进行如下调整以用于AudioSet标记。首先，在对数MEL谱图上应用两个卷积层和一个下采样层，以减小输入的对数MEL谱图大小。我们实现了三种不同深度的ResNet：22层8个基本块的ResNet，38层16个基本块的ResNet，以及16个剩余块的54层ResNet。表二显示了适用于AudioSet标签的ResNet系统的架构。BasicB和BotchieckB分别是基本块和瓶颈块的缩写。

2.3 MobileNets

传统的MobileNets：当系统在便携式设备上实现时，计算复杂性是一个重要的问题。与CNN和ResNet相比，MobileNets的目的是减少CNN中的参数数量和乘加运算。通过将标准卷积分解为深度卷积和1×1逐点卷积，MobileNet基于深度可分离卷积。
使MobileNets适应AudioSet标签：我们采用MobileNetV1和MobileNetV2系统进行音频集标记，如表III所示。V1块和V2块是MobileNet卷积块，分别由两层和三层卷积层组成。

2.4 一维CNNs

以前的音频标记系统是基于Log Mel谱图的，这是一种手工制作的功能。为了提高性能，一些研究人员提出建立一维CNN，直接在时域波形上操作。例如，戴等人提出了一种基于一维CNN的声学场景分类方法，Lee等人提出了一种新的分类方法。

DaiNet：DaiNet将长度为80且跨度为4的核应用于音频记录的输入波形。这些核是可以在训练中学习的。首先，对第一卷积层进行最大值运算，使系统对输入信号的相移具有较强的鲁棒性。然后，利用核大小为3、步长为4的一维卷积块提取高层特征。在UrbanSound8K分类中，每个卷积块有四个卷积层的18层DAINet获得了最好的结果。
LeeNet：与DaiNet在第一层应用大核不同，LeeNet[42]在波形上应用了长度为3的小核，以取代谱图提取的STFT。LeeNet由几个一维卷积层组成，每个卷积层后面跟着一个大小为2的下采样层。最初的LeeNet由11层组成。
一维CNN在音频集标注中的应用：我们对LeeNet进行了改进，将其扩展到具有24层的更深层次的体系结构，将每个卷积层替换为由两个卷积层组成的卷积块。为了进一步增加一维CNN的层数，我们提出了一个小核尺寸为3的一维残差网络(Res1dNet)。我们用残差块代替LeeNet中的卷积块，每个残差块由两个核大小为3的卷积层组成。卷积块的第一层和第二卷积层分别有1和2的膨胀，以增加相应残留块的接受场。在每个残差块之后应用下采样。通过使用14和24个剩余块，我们分别获得了具有31层和51层的Res1dNet31和Res1dNet51。

3、Wavegram-CNN 系统

以前的一维CNN系统没有比以对数-梅尔谱作为输入训练的系统性能更好。以前的时域CNN系统的一个特点是它们不是被设计来捕获频率信息的，因为在一维CNN系统中没有频率轴，所以它们不能捕获具有不同基音偏移的声音事件的频率模式。

3.1 Wavegram-CNN systems

频率模式对于音频模式识别很重要，例如，具有不同基音移位的声音属于同一类别。波形图被设计用来学习一维CNN系统中可能缺乏的频率信息。通过从数据中学习一种新的时频变换，波形图还可以改进手工制作的对数MEL频谱图。然后，波形图可以取代对数梅尔谱图作为输入特征，从而产生我们的波形图CNN系统。我们还将Wavegram和log Mel谱图作为新的特征相结合，构建了Wavegram-LogmelCNN系统，如图1所示。

为了建立波形图，我们首先将一维CNN应用于时间域波形。一维CNN从卷积层开始，滤波器层的长度为11，步长为5，以减小输入的大小。这会立即将输入长度减少到原来的1/5，从而减少内存使用量。紧随其后的是三个卷积块，其中每个卷积块由分别具有1和2膨胀的两个卷积层组成，被设计来增加卷积层的感受野。

我们将一维CNN层的输出大小表示为T×C，其中T是帧的数量，C是频道的数量。我们通过将C个通道分成C/F组来将该输出重塑为大小为T×F×C/F的张量，其中每组具有F个频率单元。我们称这个张量为波形图。波形图通过在每个C/F通道中引入F个频率仓来学习频率信息。我们在提取的波形图上应用了第II-A节中描述的CNN14作为主干架构，这样我们就可以公平地比较基于波形图和对数梅尔谱的系统。像CNN14这样的二维CNN可以捕获波形图上的时频不变模式，因为在波形图中核既沿时间轴卷积又沿频率轴卷积。

3.2 Wavegram-Logmel-CNN

此外，我们可以将波形图和对数MEL谱图合并为新的表示法。这样，我们就可以利用来自时间域波形和对数MEL谱图的信息。该组合沿通道尺寸进行。波形图为音频标记提供了额外信息，补充了对数MEL谱图。图1显示了Wavegram-Logmel-CNN的体系结构。

4、数据处理

在这一部分中，我们介绍了AudioSet标签的数据处理，包括数据均衡和数据增强。数据平衡是一种用于在高度不平衡的数据集上训练神经网络的技术。数据增强是一种用于增强数据集的技术，以防止系统在训练期间过度适应。

4.1 数据均衡

可用于训练的音频片段的数量因声音类别而异。例如，有90多万个音频片段属于“演讲”和“音乐”两个类别。另一方面，只有几十个音频片段属于“牙刷”这一类别。不同声音类别的音频片段数量具有长尾分布。

在训练期间，训练数据以小批方式输入到PAN。如果没有数据平衡策略，音频剪辑将从AudioSet统一采样。因此，在训练过程中，更有可能对具有更多训练片段的声音类进行采样，例如《讲话》。在极端情况下，小批量中的所有数据可能属于同一声音类别。这将导致PAN过度适应训练片段较多的声音类，而不适合训练片段较少的声音类。为了解决这一问题，我们设计了一种均衡采样策略来训练PANN。也就是说，从所有声音类别中大致相等地对音频片段进行采样，以构成小批量。我们使用术语“大约”是因为一个音频片段可能包含一个以上的标签。

4.2 数据增强

数据增强是防止系统过度匹配的一种有用方法。AudioSet中的一些声音类只包含少量(例如数百个)训练片段，这可能会限制PANN的性能。我们在训练期间应用Mixup和SpeAugment来增加数据。

Mixup: Mixup是一种通过对来自数据集的两个音频剪辑的输入和目标进行内插来扩充数据集的方法。例如，我们将两个音频片段的输入分别表示为x1、x2，并将它们的目标分别表示为y1、y2。然后，可以分别通过 $x=λx_1+(1−λ)x_2$ 和 $y=λy_1+(1−λ)y_2$ 来获得增广输入和目标，其中λ是从贝塔分布中采样的。默认情况下，我们在对数MEL谱图上应用混合。我们将在第VI-C4节中比较混合增强在对数-梅尔谱图和时间域波形上的性能。
SpecAugment：SpecAugment使用频率遮罩和时间遮罩对音频片段的对数MEL谱图进行操作。应用频率遮罩，从而对f个连续的MEL频率箱 $f_0，f_0+f]$ 进行遮罩，其中f从0到频率遮罩参数f 0的均匀分布中选择， $f_0$ 从[0，F−f]中选择，其中F是MEL频率箱的数量。每个对数MEL谱图中可以有多个频率遮罩。该频率掩码可以提高PANN对音频片段的频率失真的稳健性。时间掩码类似于频率掩码，但应用于时间域。

5、迁移到其他任务

以前关于音频迁移学习的工作主要集中在音乐标记上，并且局限于比AudioSet更小的数据集。首先，我们在图2(A)中演示了PAN的训练。这里，DAudioSet是AudioSet数据集，X0、Y0分别是训练输入和目标。FCAudioSet是用于AudioSet标记的完全连接层。在本文中，我们提出对以下迁移学习策略进行比较。

从零开始训练一个系统。所有参数都是随机初始化的。系统类似于PANN，不同之处在于最终的完全连接层取决于任务相关的输出数量。该系统被用作基准系统，并与其他迁移学习系统进行比较。
使用PAN作为特征抽取器。对于新任务，使用Pann计算音频片段的嵌入特征。然后，将嵌入的特征用作分类器的输入，例如完全连接的神经网络。当训练新的任务时，PAN的参数是固定的，并且没有被训练。仅训练建立在嵌入特征上的分类器的参数。图2(B)显示了这一策略，其中DNewTask是一个新的任务数据集，而FCNewTask是一个新任务的完全连接层。PAN被用作特征抽取器。基于提取的嵌入特征构建分类器。带阴影的矩形表示冻结和未训练的参数。

6、实验

首先，我们评估了PANN在AudioSet标注上的性能。然后，将神经网络转移到多个音频模式识别任务中，包括声学场景分类、一般音频标注、音乐分类和语音情感分类。

6.1 AudioSet 数据集

AudioSet是一个具有527个声音类别的本体的大规模音频数据集[1]。AudioSet中的音频片段是从Y ouTube视频中提取的。训练集由2,063,839个音频片段组成，其中包括22,160个音频片段的“平衡子集”，其中每个声音类别至少有50个音频片段。评估集由20,371个音频片段组成。

我们没有使用[1]提供的嵌入功能，而是在2018年12月使用[1]提供的链接下载了AudioSet的原始音频波形，并忽略了无法再下载的音频片段。我们成功下载了1,934,187个完整训练集的音频片段(94%)，包括20,550个平衡训练集的音频片段(93%)。我们成功地下载了评估数据集的18,887个音频片段。如果音频片段短于10秒，我们就用静默将其填充到10秒。考虑到来自Y ouTube的大量音频片段是单声道的，采样率很低，我们将所有音频片段转换为单声道，并将其重新采样到32 kHz。

对于基于对数-梅尔谱图的CNN系统，对具有1024[33]大小的汉明窗口和320个样本的跳跃大小的波形应用STFT。此配置导致每秒100帧。在[33]之后，我们应用64个Mel滤波器组来计算对数Mel谱图。MEL组的下限和上限截止频率设定为50 Hz和14 kHz，以消除低频噪波和锯齿效果。我们使用torchlibrosa1，librosa[46]函数的一个PyTorch实现，将LOG MEL谱图提取构建到PANN中。10秒音频片段的对数MEL谱图的形状为1001×64。额外的一帧是由于在计算短时傅里叶变换时应用“中心”参数造成的。使用批大小为32的ADAM[47]优化器和学习率为0.001的优化器进行训练。系统使用单卡Tesla-V100-PCIe-32 GB进行训练，每个系统需要大约3天的时间从头开始训练600k次。

6.2 评价标准

均平均精度(MAP)、曲线下平均面积(MAUC)和d素数被用作AudioSet标签的官方评估指标。AP是召回和查准率曲线下的区域，AP不依赖于真负例的数量，因为准确率和召回率都不取决于真负例的数量。另一方面，AUC是反映真阴性影响的假阳性率和真阳性率(召回)下的区域。D-素数[1]也被用作度量，并且可以直接从AUC[1]计算。所有指标都是按个别类别计算的，然后求所有类别的平均值。

6.3 AudioSet 打标结果

表四显示了我们提出的CNN14系统与以前的AudioSet标签系统的比较。
表IV的最下面几行显示了我们提出的CNN14系统获得了0.431的MAP，表现优于以往系统。
各个类上的表现

7、结论

我们提出了在AudioSet上训练的用于音频模式识别的预训练音频神经网络(PANN)。为了建立PANN，人们研究了多种神经网络。我们提出了一种从波形中学习的波形图特征，以及一种在音频集标记中实现最先进性能的波形图-对数-有线电视新闻网，存档了0.439的mAP。我们还研究了PANN的计算复杂性。我们证明了PANN可以被转移到广泛的音频模式识别任务中，并且性能优于以前的几个最先进的系统。当对新任务的少量数据进行微调时，PANN可能会很有用。在未来，我们将把PAN扩展到更多的音频模式识别任务。

学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
RNN循环神经网络原理解读 zhishidi ai笔记 rnn 人工智能深度学习
我们把循环神经网络想象成一个有记忆的助手，特别擅长处理按顺序出现的信息，比如句子、语音、股票价格、音乐旋律等。核心思想：记住过去的信息，帮助理解现在。普通神经网络的局限（没有记忆）想象一个普通的神经网络（比如用于识别图片的）：输入：你给它一张图片。处理：它分析这张图片的像素。输出：告诉你图片里是“猫”还是“狗”。问题：它每次只看一个独立的输入（一张图片），输入之间没有联系。给它看一个视频（连续很多
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
Linux 命令：cd hweiyu00 Linux命令 linux 运维
Linuxcd命令详细教程一、cd命令概述cd是Linux系统中用于切换工作目录的核心命令，全称“changedirectory”。它是文件导航的基础工具，通过绝对路径、相对路径或特殊符号，可快速在文件系统中移动，掌握其用法是Linux操作的必备技能。资料已经分类整理好：https://pan.quark.cn/s/26d73f7dd8a7二、cd命令基本语法cd[目标目录]核心参数说明：目标目录
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
机器人系统导航里程计介绍 Xian-HHappy 机器人机器人人工智能算法里程计
一、引言在移动机器人的研究与应用领域，精准且实时地确定机器人的位置与姿态是实现其自主功能的关键。里程计作为达成这一目标的核心技术之一，在移动机器人的自主导航、路径规划、定位以及地图构建等诸多关键领域扮演着举足轻重的角色。随着机器人技术的持续演进，里程计已蜕变成为移动机器人实现SLAM（同步定位与地图构建）功能的基石。它通过对各类传感器所采集数据的精细计算与处理，运用增量式递推的策略，实时推算出机器
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
WebRTC（十一）：RTCP和SRTCP 却道天凉_好个秋 WebRTC webrtc
RTCP基本概念RTCP是RTP的控制协议，用于监控媒体传输质量和参与者状态，并与RTP一起工作。RTP用于传输媒体数据（如音视频），RTCP则用于传输控制信息。RTCP通常和RTP同时使用，并通过不同端口（通常RTP使用偶数端口，RTCP使用其下一个奇数端口）。主要用于：传输质量反馈：丢包率、时延、抖动等统计信息。媒体源身份识别：包括CNAME（CanonicalName）标识每个参与者。带宽控
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
[特殊字符] Git团队协作实战指南真实的菜 git git elasticsearch 大数据
Git团队协作实战指南让多人开发不再是噩梦！从菜鸟到大神的团队协作进阶之路快速导航为什么团队协作这么重要？⚔️代码冲突？别慌！代码审查：让Bug无处遁形团队规范：统一江湖️神器推荐：工欲善其事沟通艺术：话说三分权限管理：该给的给，该收的收CI/CD：让机器替你干活问题追踪：一个都不能少新人培训：从零到英雄最佳实践：前人栽树常见坑点：踩坑指南实战案例：真刀真枪工具箱：装备升级为什么团队协作这么重要？
Git工作流篇：宝子们的团队协作秘籍 [特殊字符] 真实的菜 git git
Git工作流篇：宝子们的团队协作秘籍嘿，各位码农朋友们！前面我们一起学了Git的基础操作、分支管理和高级技巧，现在该聊聊团队协作的核心话题了——Git工作流！别小看这个话题，选对了工作流，团队效率蹭蹭往上涨；选错了，天天解冲突到怀疑人生。今天就来给大家盘点几种主流工作流，保证让你找到最适合自己团队的那一款！目录导航工作流是个啥？集中式工作流：简单粗暴型功能分支工作流：进阶必备Gitflow工作流：
搜索领域知识图谱的知识推理算法研究搜索引擎技术知识图谱算法人工智能 ai
搜索领域知识图谱的知识推理算法研究关键词：知识图谱、知识推理、搜索算法、图神经网络、路径推理、规则推理、表示学习摘要：本文深入探讨搜索领域中知识图谱的知识推理算法。我们将从知识图谱的基本概念出发，分析不同类型的知识推理算法原理，包括基于规则的推理、基于表示的推理和基于路径的推理。通过实际案例和代码实现，展示这些算法如何提升搜索效果，最后讨论该领域的未来发展趋势和挑战。背景介绍目的和范围本文旨在系统
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
Delta视觉定位系统东城十三 vuca 数码相机计算机视觉目标跟踪算法人工智能机器学习
Delta视觉定位系统软件应用背景Delta机器人以并联构型实现“轻量、高速、高精度”三位一体，成为高速分拣、精密装配、食品包装等领域的佼佼者。然而，其卓越的物理性能要转化为实际作业中的高精度定位取放能力，视觉定位系统是不可或缺的“眼睛”和“导航员”。尤其在面对高速运动目标或随机摆放（无序）物体的复杂场景时，视觉系统是实现高效、精准作业的核心技术保障。通过机器视觉实时识别目标物体的位置与姿态，引导
OA门户网站方案，含经典必要功能 Alex艾力的IT数字空间 jenkins 运维架构数据库微服务 java 单元测试
一、核心功能模块设计新手引导系统功能设计：分步引导：采用蒙层+气泡提示形式，按用户角色（如新员工、管理员）动态展示核心功能路径（如流程提交、知识检索）。场景化教学：嵌入交互式流程演示（如审批流程模拟），支持用户实时操作练习。进度跟踪：记录用户完成状态，未完成引导时在首页置顶提示。技术实现：基于Vue3的动态路由配置，结合用户行为分析（如点击热区）优化引导路径。统一应用入口功能设计：智能导航栏：根据
庙算兵棋推演AI开发初探（7-神经网络训练与评估概述）超自然祈祷智能决策人工智能神经网络深度学习
前面我们提取了特征做了数据集、设计并实现了处理数据集的神经网络，接下来我们需要训练神经网络了，就是把数据对接好灌进去，训练后查看预测的和实际的结果是否一致——也就是训练与评估。数据解析提取数据编码为数据集设计神经网络-->>神经网络训练与评估神经网络一个重要指标是收敛，就是用可以逼近任意函数的神经网络是否可以逼近你数据集中隐含的模式。再重复一遍【特征工程】与【神经网络】的区别：前者就像人发现了牛顿
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
第 3 章：神经网络如何学习鱼摆摆拜拜神经网络学习人工智能
第3章：神经网络如何学习在第二章中，我们详细了解了神经网络的静态结构：由神经元组成的层，以及连接它们的权重和偏置。现在，我们将进入整个教程最核心的部分：神经网络是如何从数据中"学习"的？这个学习过程是一个动态的、不断调整自身参数以求更佳预测的过程。我们将通过四个关键概念来揭示这个秘密：前向传播(ForwardPropagation)：数据如何通过网络产生一个预测？损失函数(LossFunction
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
Bootstrap 5学习教程，从入门到精通，Bootstrap 5 侧边栏导航(Offcanvas) 语法知识点及案例（26）知识分享小能手 Bootstrap5 前端开发网页开发 bootstrap 学习前端 typescript javascript html css
Bootstrap5侧边栏导航(Offcanvas)语法知识点及案例一、Offcanvas语法知识点1.基本结构Offcanvas由以下几个主要部分组成：触发按钮（通常带有data-bs-toggle="offcanvas"属性）Offcanvas容器（带有.offcanvas类）关闭按钮（通常放在offcanvas内部）2.核心类.offcanvas:主容器.offcanvas-start/.o
Bootstrap 5学习教程，从入门到精通，Bootstrap 5 滚动监听（Scrollspy）语法知识点及案例代码（25）知识分享小能手网页开发 Bootstrap5 前端开发 bootstrap 学习前端 javascript typescript html css
Bootstrap5滚动监听（Scrollspy）语法知识点及案例代码Bootstrap5的Scrollspy组件允许根据用户的滚动位置自动更新导航链接的激活状态。这对于创建具有固定导航栏的单页网站特别有用，能够提升用户体验和导航的便捷性。一、Scrollspy语法知识点1.基本结构要使用Scrollspy，需要以下几个关键部分：导航栏（Navbar）：包含指向页面不同部分的链接。目标容器（Tar
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
HarmonyOS NEXT仓颉开发语言实战案例：动态广场幽蓝计划 harmonyos 华为
大家好，今日要分享的是使用仓颉语言开发动态广场页面，也比较像朋友圈页面：整个页面分为两部分，分别是导航栏和状态列表，导航栏比较简单，我们可以先写下导航栏的具体代码和页面的基本结构：Column{Row(10){Text('推荐').fontColor(Color.BLACK).fontSize(17).fontWeight(FontWeight.Bold)Text('关注').fontColor(
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l