客院载论

论文学习——A Proposal For Foley Sound Synthesis Challenge（如何开发出一个完整的FoleySound系统）

文章目录

- 引言
- 正文
- - Abstract
  - Introduction
  - - 问题
  - 2 Case Study：Research Challenges
  - 3 BackGrounds背景
  - - 3.1 Previous Works on Foley Sound Synthesis重点！！之前关于伪声合成的相关研究
    - - 问题
    - 3.2 Existing Dataset现存数据集
  - 4. FoleySound Synthesis Challenge伪声合成系统的开发难点
  - - 4.1 Consideration on FSS Problem Definition（重点，如何具体的描述这个问题）
    - 4.2 Our Suggestion：Progressive Approach（这个是开发思路，可以借鉴一下）
    - - Level 1：Categorical Sound generation特定类别声音生成
      - Level 2：Sequential generation from text description根据文字描述进行序列化生成
      - Level 3：Sequential generation from video从视频中生成序列音频
      - Level 4：Mixed Soundtrack generation混合音轨合成
    - 4.3 Consideration on the Official Dataset官方数据集的考虑
    - 4.4 Our Suggestion：Official Dataset官方数据集合
    - 4.5 Consideration on Evaluation
    - - 4.5.1 Objective Evaluation Metrics客观评估指标（对于处于第一阶段的我来说，十分重要）
  - 5 Conclusion
- 总结

引言

这篇文章是DCASE说明文档之前的一封提议的论文，指出为什么需要开设一个专门针对FoleySound合成的竞赛。这篇文章可以作为我写综述的材料，提供一些具体的应用和创新落脚点。
为了周四的组会，还是需要在一个小时内完成这篇文章的翻译和学习。
这个文章大部分和之前那个DCASE的官方文档相类似，所以我就挑重点来翻译，重复并且不重要，我就简略概括一下。
对FoleySound声音进行了具体的定义，将这个问题划分为四个阶段，给出了合理解释。
对FoleySound的相关研究给出了介绍，并且指明了数据集以及相关的内容。

正文

Abstract

“FoleySound”指的是在后期制作中，添加到多媒体中的音效，以增强其声学特征，例如模拟脚步声、环境背景声或者屏幕上可见物体的声音等。
虽然传统上foley是由foley艺术家制作的，但随着声音合成和生成模型的最新进展，对自动或机器辅助技术的兴趣日益增加。为了鼓励更多的人参与这一不断发展的研究领域，我们提议进行一个自动foley合成的挑战。
通过对音频和机器学习中成功的以往挑战的案例研究，我们设定了所提议挑战的目标：对不同的foley合成系统进行严格、统一和高效的评估，总体目标是吸引研究界的积极参与。我们概述了foley声音合成挑战的细节和设计考虑，包括任务定义、数据集要求和评估标准。

Introduction

FoleySound音效，指的是为了增强音频质量而添加到多媒体中的日常音效的再现。
在专业的媒体制作中，如电影和电视节目，foley的使用非常普遍；包括声音事件（如脚步声、枪声、汽车、人群）和环境效果（如雨声、风声、雪声）。为了满足各种声学事件的需求，后期制作工作室通常拥有一个大型的音效目录。为了获得完美匹配的音效，通常会编辑现有的音效或录制新的音效。录音过程可能需要有创意甚至具有艺术性。
例如，维基百科中介绍了一个常见的技巧：‘玉米淀粉放在皮袋中会产生雪脆的声音’。尽管这听起来很有趣，但这是一个具有挑战性和繁琐的过程，但对于多媒体内容中的许多声音事件来说，这是必要的。foley音效合成技术的好处是显而易见的；它使工作流程更加高效。
最近，研究人员开始应用深度神经网络来生成foley音效，这是受到最近在语音和音乐信号生成方面的成功的激励[2, 3]。然而，这个问题还处于初级阶段 - 在问题定义、数据集和评估方面还没有标准。建立一个挑战是促进集体研究进展的有效方法。在明确挑战时，已经成功地设定了标准的问题定义和评估方案。挑战还通过明确地奖励成功的研究成果来激励研究社区。
本文提出了一个关于Foley声音合成的挑战。Foley声音是在多媒体中用来增强所描述的环境或动作的感知的人工创建的音效。这个挑战的主要目标是激发与DCASE（声音场景和事件的检测和分类）社区相关的讨论和想法，并最终在未来的DCASE工作坊中建立一个官方的挑战。
- 文章的结构如下：
  - 第2部分：回顾了音频、语音和音乐研究领域的最近挑战。这部分可能会提供关于这些挑战的方法、结果和经验教训的见解，为提议的Foley声音合成挑战奠定基础。
  - 第3部分：概述了与Foley声音合成相关的现有研究和数据集。这部分将提供背景，突出当前的最新技术、研究中的空白和这些任务可用的数据集。
  - 第4部分：Foley声音合成挑战的核心提议。这部分将详细介绍：
    - 问题定义：明确概述挑战的内容、预期结果和约束。
    - 数据集：关于将用于挑战的数据集的信息，包括它们的来源、特点和与任务的相关性。
    - 评估指标：评价提交内容的标准。这可能包括准确性、保真度、真实感等相关指标的度量。
  - 第5部分：结论，总结了提议的挑战的重要性、对DCASE社区的潜在影响和预期结果。

问题

语音生成的代表论文
- Tacotron:-2017：端到端的语音合成系统，直接从字符序列生成语音波形。
- Tacotron 2：结合Tacotron的改进框架和WaveNet,能够生成十分逼近人声的效果
- WaveNet：DeepMind开发，专门用于生成原始音频波形，使用因果卷积和膨胀卷积来捕捉音频序列中的长范围模式。

2 Case Study：Research Challenges

本节回顾了五个现有的研究挑战：Blizzard Challenge、CHiME、DCASE、Music Demixing challenge 和 AI Song Contest。
Bizzard Challenge：解决在公偶那个数据集上的，不同的语音合成技术。Blizzard Challenge始于2005年，目的是为了更好地了解在公共数据集上的不同语音合成技术。在他们的第一个挑战中，参与者提交了五种文本类型的合成语音，包括小说和新闻。为了专注于语音合成技术而不是文本分析技术，组织者选择了相对简单的文本。结果由三类听众评估：语音专家、志愿者和美国大学生。评估完全是主观的。对于三种简单的文本类型，听众被要求在5点量表上对其进行评分；而对于其他两种，他们被要求转录他们听到的内容，以便可以评估语音的可理解性。至今，它仍然是语音合成研究中的一个重要年度活动。
CHiME挑战是关于语音分离和识别的，始于2011年，作为之前类似挑战的一个改进版本。改进包括问题定义的现代化（噪声类型、信号混合模型等）、难度的调整以及更现实的数据集/评估指标的引入。对于研究者来说，CHiME仍然是一个最重要的场所，新方法在这里被介绍并在他们严格创建的数据集上进行测试。
DCASE (Detection and Classification of Acoustic Scenes and Events) 是音频研究领域中最活跃和成功的挑战之一。作为IEEE AASP工作坊的一部分，第一届DCASE承办了两项任务：声学场景分类和声音事件检测，并接受了21个系统。后来在2013年的WASPAA上，有六篇论文在DCASE海报环节中被展示。2016年，DCASE开始与挑战一起举办自己的工作坊。到2021年，DCASE为六项任务收到了394份提交，并被认为是声学场景分析中最相关和最突出的学术场所。DCASE的范围已经扩展到一些高度实用的应用（低复杂度的声学场景分类和机器监控的异常检测）、生物声学（哺乳动物和鸟类声音理解）和自然语言理解（音频字幕和自然语言查询）。
Demixing挑战和AI Song Contest分别在2021年和2020年成立。在Demixing挑战中，参与者提交他们的音乐源分离系统，并指定是否使用了外部数据集。尽管源分离中的客观指标在测量感知质量方面有限制，但由于它被认为可以很好地代表源分离的性能，所以使用了一个客观指标（信号到失真比）来评估系统。相反，在AI Song Contest中，参与者提交最终曲目，然后纯粹由评委和在线投票进行主观评估。考虑到任务的艺术性，这是一个合理的选择，尽管诸如评委和公众投票之间的平衡等细节可能会发生变化。

3 BackGrounds背景

3.1 Previous Works on Foley Sound Synthesis重点！！之前关于伪声合成的相关研究

伪声合成系统（FFS）已经使用很多传统的音频合成技术研究过了，但是只能做很简单的声音合成，比如说奔跑，走动，跳动的声音，别的声音搞不了。而且这些研究主要是应用于虚拟环境，随着人物的移动能够生成与之一致的声音。
在较新的，数据驱动的方法中，很多研究者使用深度生成模型（GANs,Wavenet,Tacotron），扩展了能够生成的目标声音类别。
《Visually Indicated Sounds》这篇文章在2016年第一个提出了基于深度学习的声音合成系统，并用这个系统生成了数据集“The Great Hits“的配音。这个数据集比较特殊，记录的是击打或者剐蹭各种物体表面的视频。对于这个受限的动作类型和声音事件来说，这个系统是一个简化的伪声合成系统。除此之外，这个系统还需要学习视觉事件的类型和时间并生成相关的音频信号。
还有很多别的系统能够生成很多别的伪声，这些声音包括烟花声、狗叫、脚步声、枪声等。这些工作都是基于更加真实的数据集，比如说：AudioSet,VEGAS和VGGSound等。
为了生成和视频同步的FSS系统，很多研究方法都是基于GAN的。他们用的模型概念相似，都是由视觉编码器调节来合成STFTs或者波形。但是他们的输入类型不同。
- 《Towards an End-to-End Visual-to-Raw-Audio Generation with GAN》和《Generating Visually Aligned Sound From Videos》这两篇论文都是使用输入视频的embedding决定的。《Generating Visually Aligned Sound From Videos》中，他的生成器是由相应音频特征共同训练的视觉特征来调节的，这样模型能够学会关注与音频相关的视觉对象。
- 《FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos.》使用视觉动作类和视觉动作频谱图来调节声音生成器。
- 《Taming Visually Guided Sound Generation》使用的是VQ-GAN,这个是VQ-VAE和GAN的损失函数的结合。
上述提到的大部分论文都是基于视频查询，使得系统能够遵循FoleySound艺术家的工作流程。因此，FSS系统一般都是需要一个视觉理解模块。在《AudioCLIP：extending CLIP to Image,Text and Audio》和《Wav2CLIP：Learning Robust Audio Representations From CLIP》中，使用训练好的CLIP编码器将这三种模态进行组合，并且这些编码器可以用于分类、检索等不同的任务。
基于模型和数据集的最新进展，我们可以相信FoleySound合成系统已经在转折点。有很多很厉害的音频生成模型，比如说自回归模型，VAE,GANs还有基于Diffusion的模型。视觉理解模型也足够成熟，能够应用在不同的应用中。除此之外，还有很多音视频数据可以给我们做实验。

问题

还要不要继续从事这方面的研究？
- 看了一下这个相关背景，忽然间有点不想干了，这个太成熟了，不过既然那么成熟，为什么说这是第一届举办？还是继续往下好好看吧？而且既然已经那么成熟，为什么还要做一个简化版的比赛？难道他是说专门用来做的评价系统的吗？
Visually Indicated Sounds 这篇文章那么厉害吗？
- 这个只能针对特定类型的视频进行配音，主要是针对敲击和刮擦的动作进行配音。而且除了学习这类声音，这个系统还需要学习视频中动作事件类型和事件的相关关系。
- 这个系统中对于声音的生成不是重点，重点反而是视频信息和声音信息的同步。
视频同步音频生成的四篇论文，需要好好读读！
- 《Towards an End-to-End Visual-to-Raw-Audio Generation with GAN》：直接根据视频生成与视频相关音频。
- 《Generating Visually Aligned Sound From Videos》：生成与视频视觉对齐的音频
- 《FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos》:
- 《Taming Visually Guided Sound Generation》

3.2 Existing Dataset现存数据集

在这部分，我们首先介绍一下4个视频数据集：AudioSet,VEGAS,VGGSound,The Greatest Hits，这四个数据集再上一节的相关的论文研究中，都使用过了。除了这四个，我们还会介绍一些别的数据集，UrbanSound8k,FSDKaggle2018还有Clotho三个数据集。
视频数据集一直是之前FSS研究的主要数据来源。
- AudioSet是一个来自YouTube的5800小时视频数据集，包含了10秒的片段，这些片段被手动标记为527种音频事件类别。由于所有视频都是从YouTube采样的，音频和视频的低质量可能是一个问题。
- VEGAS是AudioSet的一个策划子集，总共55小时，平均7秒。其创建者选择了10个类别，并过滤了项目，只包括具有直接音频-视觉关系的视频。
- VGGSound包含超过550小时的10秒视频片段，涵盖310类声音事件。与VEGAS类似，创建者仔细选择了样本，以去除具有弱音频-视觉关系的视频。
- The Greatest Hits是一个由动作-声音配对视频组成的数据集，如第3.1节所述，它描述了在各种表面上敲击和刮擦鼓棒的动作。
不带视觉信息的音频数据集也可以为FSS任务提供良好的数据来源
- Urbansound8k是一个包含8,732个短音频片段的声音数据集，已经成为声学事件分类任务的有用资源。但是，该数据集中的项目是从较长的音频文件中裁剪出来的4秒片段，这降低了数据集的整体声音多样性。
- FSDKaggle2018包含11,073个音频文件，按照AudioSet的本体进行标记，共有41个类别。这些项目是从Freesound采样的，然后在MTurk上手动注释。
- Clotho是为音频字幕任务创建的数据集。每个音频文件都有5个字幕；即它的4,981个音频文件配有24,905个音频字幕。音频样本的持续时间为15到30秒，字幕为8到20个单词。这可以用来开发一个文本查询的FSS系统。
现有的数据集都没有提供所需的清晰音频样本，当使用foley声音时。使用噪声声音生成高质量的foley声音是可能的。但是，在FSS挑战的初始版本中，我们认为最好有一个带有高质量foley声音的数据集，以简化任务。

4. FoleySound Synthesis Challenge伪声合成系统的开发难点

4.1 Consideration on FSS Problem Definition（重点，如何具体的描述这个问题）

一个FSS问题可以通过以下几个方面来定义，这部分，我们首先回顾这几个方面，我们会将这个问题以一个狭隘并且严格的版本进行定义，以便于为后来更加复杂的系统做准备。
Type Of Sound声音类型：
- FoleySound生成的声音可以归为两类，一类是单纯的某一个声学事件（枪声等），还有一类是决定场景的环境音或者背景音（下雨的声音或者刮风的声音）
Reality of acoustic event声音事件的真实性：
- 一些foley声音与现实中的物体或声音事件相绑定，例如，现有汽车型号的喇叭声、狗叫声、关门声等。而其他声音更多地是人类想象的产物，例如激光枪或恐龙的声音。由于缺乏参考，后者的声音生成更多地是一种艺术，这使得它很难进行客观或主观的评估。
Type of input query输入查询的类型 ：
- 输入视频，这是常用的输入，但是这涉及到多个问题，还有视频理解，不仅仅是音频生成。重点应该是关注生成音频的质量。
- 输入文字，文字可以是一个场景或者声音的描述，类似口技，生成对应的声音。
- 本质上，是输入给系统一个声音类别，系统自动生成相应的声音。
Final audio format最终的音频格式
- 生成的foley声音的最简单形式可能是一个无回声的单通道音频信号。人们还可以考虑添加更多的音频处理，如多通道混音和混响。

4.2 Our Suggestion：Progressive Approach（这个是开发思路，可以借鉴一下）

在考虑了上述因素后，我们建议采用以下描述的渐进式方法，从最简单的问题定义开始，随着挑战在未来几年的发展，逐渐向复杂的问题转变。

Level 1：Categorical Sound generation特定类别声音生成

这是Foley Sound问题最简化的方式了，直接根据标识符生成特定的类型的声音。生成的声音可以用来扩展Foley Sound Artist所使用的样本库。这部分主要是通过评价生成声音的多样性和音频质量进行判定的。

Level 2：Sequential generation from text description根据文字描述进行序列化生成

基于level 1,我们获取一段场景的文字描述作为输入，然后系统会自动生成相关的音频片段。这部分目标在于利用第一阶段的生成模型生成的单个片段音频组合成一个合理的声音场景。每个文本提示都会包含一个或多个声音事件，系统将根据第一级的标准以及与提示的相关性和覆盖范围进行评估。

Level 3：Sequential generation from video从视频中生成序列音频

更高级的格式**将直接从视频序列开始工作，完全绕过分类和文本描述。**从某种意义上说，这可以被视为一个最小的“全自动”foley系统，因为不需要手动干预来描述或组成场景。系统将根据与第二级类似的标准进行评估。

Level 4：Mixed Soundtrack generation混合音轨合成

这一级在第三级的基础上增加了多通道混音（立体声、5.1等）到生成过程中。除了前几级的评估标准外，还将包括立体声分离和空间沉浸的主观评估标准。

4.3 Consideration on the Official Dataset官方数据集的考虑

Simulated Sound模拟声音：Foley Sound应该是一个经过处理和加工过的声音，通过这个声音，需要反应一个声音印象，而不考虑实际的声音事件。例如，一个好的"身体撞击"的Foley声音会是一个响亮且夸张的低频冲击声，而不是真实的身体撞击声，这在实际中几乎是听不到的。

4.4 Our Suggestion：Official Dataset官方数据集合

在本节中，我们提出了与第4.2节中的第1级FSS问题定义相兼容的数据集规范。在Gaudio实验室，一些作者所在的地方，有内部的Foley艺术家，该公司愿意提供音频文件来创建官方数据集。
类别的数量：
- 为了缩小第1级定义中的问题范围，类别数量将被限制为一个较小的数字。但是，应选择类别以覆盖各种Foley声音类型。例如，可以选择四个类别：脚步声和枪声（脉冲声），狗吠（音调声）和嗖嗖声（带有变化持续时间的空气声）。
项目数量：
- 这可能对FSS系统的性能至关重要。我们假设每个类别的项目数量应该大于一百，但这可能会发生变化，并且将来需要进一步讨论。
音频质量
- 考虑到Foley声音的用户，即专业内容创建者，所需的是全带宽（44.1 kHz）信号。
视觉提示
- 根据第4.2节中的第1级问题定义，在官方数据集的第一个版本中，将没有视觉信息。

4.5 Consideration on Evaluation

客观评估捕全面，需要主观评估，但是费时间，这里对两种评估进行一个综合的讨论。

4.5.1 Objective Evaluation Metrics客观评估指标（对于处于第一阶段的我来说，十分重要）

Inception Score（IS）：Inception得分（IS）在被引入用于评估如GANs这样的隐式生成模型后已经变得很受欢迎。IS是基于辅助分类器模型的后验分布来定义的。IS通常被解释为锐度和多样性的乘积，分别代表分类器对其输出标签的信心和生成样本的类别多样性。换句话说，IS能够敏感地反映类别身份和多样性的质量。然而，它不能捕捉到模式的不一致性，即模式的增加或丢失。
Fréchet inception distance (FID) 是用于评估生成模型的另一种广泛使用的指标。与IS不同，FID的计算依赖于辅助模型的隐藏表示。辅助模型不需要是分类器，且FID对表示空间的选择具有鲁棒性。最近，使用音频分类器为音频生成采用了FID，并命名为Fréchet音频距离(FAD)。FID（以及FAD）是根据生成的和真实样本的隐藏表示集合来计算的。每一组表示都适应于多变量高斯分布，这两个分布的Fréchet距离成为生成样本的FID得分。由于它直接建模了隐藏表示的分布，FID对模式变化敏感，包括伪模式的增加或丢失。
似然值也值得讨论，尽管我们不建议使用它。对于密度估计，似然值是一个关键指标，因为它直接显示了模型如何估计目标分布。但是，我们建议不使用似然值，原因有两个。首先，它通常与感知质量不一致。其次，它的适用性有限，因为对于某些生成模型（如GANs、VAEs或扩散概率模型）来说，似然值的计算是不可能的。
总结：
Fréchet inception distance (FID) 是一个评估生成模型的指标，它依赖于辅助模型的隐藏表示。与此不同，Fréchet音频距离(FAD)是为音频生成而设计的。FID能够敏感地反映隐藏表示的分布变化。另一方面，尽管似然值是一个直接的评估生成模型的指标，但由于与感知质量不一致和其适用性有限，因此不建议使用它。

5 Conclusion

在这篇论文中，我们提出了音频研究中的一个新挑战——Foley声音合成。我们回顾了几个近期的挑战，包括它们的目标、进展和影响。我们还回顾了Foley声音合成的现有研究和数据集。基于这些回顾，我们提出了一个关于Foley声音合成挑战的简要提议，其中包括我们对问题定义、数据集和评估的建议。我们希望这篇论文能引发讨论，从而启动所提议的挑战，并最终在Foley声音合成方面取得进展。

总结

这篇文章，需要知道FoleySound合成系统的具体应用，以及当前拥有那些技术。
同时，这篇文章提到了声音合成技术，那么当前最新的声音生成技术有哪些？又该通过哪些指标来衡量这个声音合成技术？
目前的音频生成技术，主要是关于语音和音乐的生成，并不是常规声音的生成，所以并不能用来做FoleySound合成，所以需要将原来的模型应用到新的领域。
目前的FoleySound主要是关于视频同步声音的生成，并且相关的数据集比较全面，单纯的音频数据集也有，可以用来指导生成FoleySound声音，目前关于视频信息的FoleySound已经有很多了，但是还不是很完全，但是使用音频生成相关的FoleySound暂时还没有。
这篇文章，详细定义了Foley Sound generation的问题，包括问题的输入，输出，以及具体的使用场景。除此之外，也对这个问题的几种阶段进行了总结，第一阶段就是简单的音频生成，第二阶段是按照文字生成对应的音频，第三阶段是按照视频进行配音，第四阶段对声音进行理解处理。
总的来说，还是能够按照这个项目的要求往下做，还是可以有所产出的。

目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
Spring Boot 应用的接口访问从 HTTP 改为 HTTPS day day day ... http spring boot https
LINUX1.生成SSL证书使用工具（如`keytool`或`openssl`）生成SSL证书。以下以`keytool`为例：keytool-genkeypair-aliasmydomain-keyalgRSA-keysize2048-storetypePKCS12-keystorekeystore.p12-validity3650-输入密码并填写证书信息。-生成的`keystore.p12`文件
如何创建自定义回调处理器 bBADAS python 开发语言
在现代AI开发中，回调是一个强大的工具，它允许我们在特定事件触发时执行自定义逻辑。本文将深入探讨如何为LangChain创建自定义的回调处理器，从而实现更加灵活的模型交互。技术背景介绍在使用AI模型时，尤其是在处理自然语言生成任务时，可能需要对生成的每个标记（token）进行处理。LangChain提供了一些内置的回调处理器，但为了满足特定的需求，创建自定义回调处理器是非常有必要的。核心原理解析创
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
再聊 Reducer Context 和 Redux
原文链接这是一次突发奇想的感悟，感觉还挺神奇的，遂记录一下。前言作为一个React的开发者已经蛮久的了，大大小小的应用也开发了不少，除了一开始学习React时用过Redux以外，后来基本都不碰了，不管多么复杂的应用，我也简单的觉得使用Context就能够解决我所有的问题。说来惭愧，我基本没有思考过Redux存在的原因，可能是React真的做的太好了，又或者是我们现在的设备性能已经严重过剩了，让我完
Lombok常用注解 AWen_X Java常用框架注解 java 开发语言
Lombok常用注解Lombok是一个Java库，通过注解的方式帮助开发者减少样板代码的编写，提高开发效率。本文将Lombok常用注解分类整理，并提供详细说明和使用示例。目录构造器相关注解字段相关注解方法相关注解代码简化注解异常处理注解日志相关注解实用工具注解高级用法注解配置与扩展构造器相关注解@NoArgsConstructor作用：生成一个无参构造器。示例：@NoArgsConstructor
工作记录 2017-01-20 月巴月巴白勺合鸟月半医疗行业开发技术分享 Microsoft Visual Studio开发技术分享健康医疗 C#
工作记录2017-01-20序号工作相关人员1修改从AmazingChart导出的数据的程序。处理AmazingChart的数据的导入，预计下周一可以提交。修改EDI837的生成。更新RD服务器。郝更新的问题1、更新了DataExport。1.1增加了BillingJobInfo\ProblemList、PatVisit\ProviderInfo\ProviderList、PatMas\Probl
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
程序员集体失业？DeepSeek这6个反常识用法竟能替代写代码后端
上周三凌晨两点，我盯着满屏报错的SpringBoot项目抓耳挠腮时，无意间在GitHubtrending榜发现了个宝藏项目。这个让3000+程序员连夜改简历的AI工具，居然把我的烂代码变成了性能提升40%的优雅实现——这可不是什么天方夜谭，而是我亲身经历的DeepSeek实战故事。你可能不信，现在用自然语言描述需求就能生成可运行代码。就像上周我接到个紧急任务：要在三天内完成电商平台的优惠券系统。当
SvelteKit 最新中文文档教程（6）—— 状态管理
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
《解锁元宇宙构建：AI与云原生区块链的协同奥秘》人工智能深度学习
在科技飞速发展的今天，元宇宙已从最初的概念设想逐渐步入人们的视野，成为全球瞩目的焦点。元宇宙，这个融合了虚拟与现实、跨越时空界限的数字世界，正以其独特的魅力和无限的潜力，引领着新一轮的科技革命和产业变革。而在这场变革的背后，AI与云原生区块链技术宛如两颗璀璨的明星，交相辉映，为元宇宙的构建提供了不可或缺的关键支撑。AI：赋予元宇宙“智慧灵魂”智能内容生成，丰富元宇宙的“物质基础”在元宇宙的广袤世界
华为IPD研发管理体系的3大核心框架解析猴哥聊项目管理 IPD（产品集成开发）自动化测试工具前端国产化信创项目经理华为IPD 项目管理软件
开篇：从“偶然成功”到“持续领先”，华为IPD的蜕变密码1999年，华为面临研发周期长、产品质量不稳定、过度依赖“英雄主义”的困境，甚至被内部称为“工程师的乐园，客户的噩梦”。引入IBM的IPD（集成产品开发）体系后，华为实现了研发周期缩短40%-60%、新产品收益增长100%的飞跃。如今，这套体系已成为全球企业竞相学习的标杆。本文将深入解析华为IPD的三大核心框架，揭示其如何将产品开发从“无序博
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
C语言中的函数 NaZiMeKiY C/C++c语言 linux 开发语言
一.函数：1.函数的概念：函数就是程序中独立的功能2.函数的使用场景：我们需要反复书写的代码，但是又不确定什么时候会用到二.函数的定义和调用：①：函数的结构返回值类型函数名(形参1,形参2,...,形参n){函数体;return返回值;}②：举例：#includevoidstudy(){printf("准备开始学习\n");printf("打开b站\n");printf("打开自己想要学习的课程\
记录学习的第七天 xiufeia 学习
还是老规矩，力扣的每日一题这道题我的思路是有了，不过在实现思路的时候遇到很多问题我首先也是想到了用一个哈希表之类的把出现次数最多的元素依次记录下来，然后再进行分配，不过由于我的STL不太熟练，所以我用的方法存在问题我的思路与题解的思路存在最大的差异就是，题解是根据每一行来存的，而我想的是每一列进行存元素。接着写了两道滑动窗口的题。滑动窗口需要注意的就是外循环扩展右指引，内循环扩展左指引，然后进行出
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
设备树学习（二十三、番外篇-中断子系统之softirq）奔跑的小刺猬设备树设备树原理和实现
既然开始学了，那么还是一次把中断的所有知识都系统的学一下。刚好有蜗窝大神的博客做指引。http://www.wowotech.net/irq_subsystem/soft-irq.html一、前言对于中断处理而言，linux将其分成了两个部分，一个叫做中断handler（tophalf），是全程关闭中断的，另外一部分是deferabletask（bottomhalf），属于不那么紧急需要处理的事情
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
DeepSeek私有化部署搭建、本地知识库、可联网查询RAG检索增强生成 TonyH2002 DeepSeek 本地部署私有化搭建联网查询
一、如何私有化部署DeepSeek如何部署DeepSeek，具体可参考以下内容：喂饭式教程-腾讯云轻量服务器部署DeepSeek：https://cloud.tencent.com/developer/article/2494571喂饭式教程-腾讯云HAI服务部署DeepSeek：https://cloud.tencent.com/developer/article/2495288喂饭式教程-腾讯
Java数据类型 Arrays VS ArraysList VS LikedList 解析 fantasy_4 Java java
在学习Java过程中，在刷题时总是搞不清楚这三种数据结构的区别，打算写篇文章记录一下ArraysVSArrayListArrayListVSLinkedList总结ArraysVSArrayListArraysArrayList类型Java的基本数据类型Java集合框架中的一个类，实现了List接口存储内容基本数据类型+对象引用对象引用可变性数组长度创建后不可变长度可变适用场景查询元素会比较快，直
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

论文学习——A Proposal For Foley Sound Synthesis Challenge（如何开发出一个完整的FoleySound系统）

文章目录

引言

正文

Abstract

Introduction

问题

2 Case Study：Research Challenges

3 BackGrounds背景

3.1 Previous Works on Foley Sound Synthesis重点！！之前关于伪声合成的相关研究

问题

3.2 Existing Dataset现存数据集

4. FoleySound Synthesis Challenge伪声合成系统的开发难点

4.1 Consideration on FSS Problem Definition（重点，如何具体的描述这个问题）

4.2 Our Suggestion：Progressive Approach（这个是开发思路，可以借鉴一下）

Level 1：Categorical Sound generation特定类别声音生成

Level 2：Sequential generation from text description根据文字描述进行序列化生成

Level 3：Sequential generation from video从视频中生成序列音频

Level 4：Mixed Soundtrack generation混合音轨合成

4.3 Consideration on the Official Dataset官方数据集的考虑

4.4 Our Suggestion：Official Dataset官方数据集合

4.5 Consideration on Evaluation

4.5.1 Objective Evaluation Metrics客观评估指标（对于处于第一阶段的我来说，十分重要）

5 Conclusion

总结

你可能感兴趣的:(论文,音频生成,学习,DCASE,FoleySound)