智源社区

生成模型最新进展丨2023智源大会精彩回顾

导读

扩散模型的发展引起了各界对生成模型的广泛讨论，推动了语音、音频、图像等模态的理论模型进步。6月10日的北京智源大会“生成模型”论坛邀请了斯坦福大学副教授Stefano Ermon、浙江大学教授赵洲、智源研究院研究员刘广、加州大学洛杉矶分校助理教授周博磊、斯坦福大学助理教授吴佳俊，共话生成模型领域的最新进展，展开了别开生面的前沿讨论。

使用分数而不是可能性是建模分布的关键思想。-- Stefano Ermon

音频比文本更复杂，不止包含语义信息，也包含韵律、时长、能量、音高等属性。-- 赵洲

数据混合扩充的方式可能是个正确的方向。-- 刘广

把生成模型和机器决策结合起来，可以提供一些新的思路。-- 周博磊

利用自然界中存在的丰富的结构、符号和程序，是为了在视觉世界中更好地感知和理解。-- 吴佳俊

论坛专家名单

李崇轩 |中国人民大学准聘助理教授

Stefano Ermon | 斯坦福大学副教授

赵洲 | 浙江大学教授

刘广 | 智源研究院研究员

周博磊 | 加州大学洛杉矶分校助理教授

吴佳俊 | 斯坦福大学助理教授

朱军 | 清华大学教授、智源首席科学家

Recent advances

in score-based diffusion models

Stefano Ermon | 斯坦福大学副教授

图像生成技术的基础是构建一个能够理解自然图像结构的模型，模型需要理解什么样的像素序列是合理/不合理的。这种模型还可以被用来检测对抗性攻击，或者找出机器学习系统的输入是否有问题。

建立一个复杂的生成模型是有挑战性的，因为概率分布需要建立在非常高维的空间上，同时模型需要能够为大量可能的对象分配概率。

得分函数是对数密度函数的梯度，通过得分函数，可以直接使用任意神经网络进行建模。这是一项关键创新，使我们能够使用更强大的神经网络来开发图像的概率模型。

将目标函数重写为等价形式，实际上是试图最小化在不同数据点估计分数的范数，同时最小化在训练集中的数据点评估分数的雅可比轨迹。当处理高维数据时，可以比较它们的随机投影而不是直接比较梯度的向量场，可以扩展到像图像这样的高维数据集，仍保留分数匹配、一致性和渐近正态性的许多良好性质。

所有这些优秀的图像-文本-图像生成模型的核心是这种基于郎之万动力学估计数据分布的得分的想法。扩散模型允许以一种非常自然的方式控制生成过程，可以应用于不同数量的投影和不同类型的测量。

使用分数而非概率是建模分布的关键思想，能够使用任意的神经网络来对梯度的矢量场进行建模，可以在不使用对抗性方法或者在极大极小的情况下，使用扩散模型进行可控生成，从这些模型中进行采样，不仅可以生成样本，而且在样本中可以评估模型下的可能性。

多模态生成式语音模型

赵洲 | 浙江大学教授

本次报告从三个角度来介绍生成式模型在声学模型的应用：生成语音的NATSpeech模型；语音生成歌声的DiffSinger模型；生成音频的Make-An-Audio模型。音频生成也是一种语音生成。其框架，一般由三个部分组成：（1）前端。通过NLP的技术从文本中提取发音、韵律；（2）给定音素，合成频谱；（3）声码器，输入频谱图，输出语音。

NATSpeech模型基于Transformer框架做了一些改进。Transformer框架的推理速度相对是比较慢的；并且存在一些漏词的现象。为了同时提高推理速度和解决漏词的现象，NATSpeech采用了非自回归的预测形式，实现了模态转换的学习过程。

DiffSinger模型可以完成一些高表现力合成工作，沿用PortaSpeech的思想，用之前的模型生成出来的频谱编码，对不同的频谱进行加噪，进行一次性加噪和加速降噪，生成歌曲。

Make-An-Audio可以给文本、图片、视频配音，修复音频，支持通用音频合成。

AudioGPT 把之前的工作进行集成，支持不同的任务，从音频到文本、音频到音频、文本到音频、图片到音频不同的生成工作，得到整合的能力。

“低资源”的多语言文生图模型

AltDiffusion-M18

刘广 | 智源研究院研究员

现有的文生图领域研究存在三个主要问题：

（1）缺乏高质量数据集。开源数据集的质量是参差不齐的，语言分布极度不均衡，可以获取的渠道有限。

（2）可控生成。在生成的时候，可控性还不够高，难以实现复杂编辑。

（3）文生图的评价。自动化评价指标跟人的主观评价指标一致性较低，人工评价成本比较高，缺乏统一的评价标准的定义。

本次报告主要针对高质量数据集的问题展开。

中文开源图文的数据集，在多语言分布上很不均衡。为了训练Diffusion的多语言版本，先训练了多语言版本的CLIP，分别对英文和中文的数据蒸馏。这种训练模式会降低英文表达能力。把这个CLIP模型接到原来的Diffusion模型上，做了一个扩展，相当于是把原来的2.1扩展成18种语言文图生成模型，从而能够支持18种语言。

把Aquila模型、最新智源公布的语言模型和Diffusion模型对接，可以用文字输入去做一些图片的生成，同时，还接入多步可控编辑的模块，把复杂的多步的指令输入到语言模型中。语言模型分解指令，然后再基于指令做可控图像编辑的模型，可以在很大程度上保留所有的细节信息，同时实现对部分的区域进行高精度的修改。

不管是AltDiffusion模型，还是AltCLIP模型，把不同语言混合到一起进行对比学习，或者Diffusion模型训练的时候，都会遇到数据不平衡的问题。如果只在一个语言环境中训练会破坏语言的对齐能力，如果把多种不同平行语言的能力放在一起做训练，可能会缓解这样的问题。

基于鸟瞰图的可控

和可交互的大规模场景生成

周博磊 | 加州大学洛杉矶分校助理教授

这里关注的是有条件的场景生成，更直接的一种表征方式是鸟瞰图的表征方式。第一部分，利用鸟瞰图进行场景生成，研究希望生成这种第一视角的驾驶图片；第二部分，基于鸟瞰图进行场景仿真，加入一些物理的表征，使整个场景就可以真正动起来，也可以跟下游的任务（比如自动驾驶）联系起来。

研究希望把输入的一个鸟瞰图生成不同视角第一人称的图片。解决方法是对BVE-Gen 进行建模，分别对鸟瞰图及图片生成进行学习，再把两部分联系起来，采取编码的不是文本而是BEV，把鸟瞰图变成特征后，将图片解码出来。

研究尝试把生成模型和神经场模型结合起来。神经场模型可以重建场景，并没有生成能力，但是神经场模型自身带有很多3D信息，把这两者进行融合，相当于用二维鸟瞰图生成三维结构图，再从三维结构图里面进行神经的渲染，把场景渲染出来。

研究提出了DiscoScene的模型。模型的输入是一个鸟瞰图的3D的抽象表征，象征物体对应的位置，可以把前景和背景两者结合起来，相当于把GAN的模型跟神经场模型结合，提高图片真实度。通过改变输入的Layout的结构，把生成出来的图片进行对应编辑，使用神经网络进行渲染。与之前的一些方法进行了对比，在3D-aware的细分领域，这些场景里面DiscoScene模型效果都是目前最好的。

MetaDrive的驾驶模拟器可以更好地把机器决策跟机器感知结合起来，其效率相对以前的模拟器大幅提高，在单机PC上面，可以达到500帧的训练效率，保证了它的场景可以从实际数据库里面导入一些新的场景。同时团队研发了一个TrafficGen的模型，生成过程分两个步骤：把车放入鸟瞰图；对每一辆车生成未来轨迹，从而对这个场景进行仿真。

TrafficGen模型已经开源，可以把TrafficGen产生的场景导入到其他的模拟器，帮助模拟器拓展场景。

Understanding the Visual World

Through Naturally Supervised Code

吴佳俊 | 斯坦福大学助理教授

本次报告对什么是编码以及什么是自然监督有更广泛的解释。利用自然界中存在的丰富的结构、符号和程序，是为了在视觉世界中更好地进行感知和理解。从根本上说，编码规则的形成只有两个过程：第一种编码规则来自人类；第二种编码来自自然。一类自然对象都有相同的内在分布，包括几何形状，包括纹理，包括构成的材料，如何反射光线，还包括它们的物理特性。即使真正学到了物体内在的生成分布，仍然有事物内在的规则性、结构或编码，自然将它们提供给我们。通过生成神经网络执行这种更通用的约束或编码，能帮助我们更好地理解视觉世界。

关注相关视觉数据的程序论文，从草图到自然图像开始，到单图像学习，然后从一个平面到多个平面，直到3D方向的研究。3D中的物体形状，通常具有抽象和程序化的结构。从某种意义上说，使用学习方法来模拟实际成形过程，能够推断出形状的程序表示。同样的，在计算机图形学中，关于如何使用计算机图形学的过程模型来处理形状，就是使用神经网络进行推理。因为形状程序的分配非常有限，使用神经网络作为程序执行器，这样就可以进行大部分自监督的训练。

在几何学中这些形状有明确的规律，比如它是旋转对称的。一旦有了形状，将对象平铺，这样就可以得到表面的法线和纹理。进行标准的内在图像分解，可以在重新渲染期间将其放回，重建纹理，然后将其放置到极点和形状，重建原始图像。

通过设置不同的内在的图像组件，表面法线和反射率得到3D效果，可以对物体进行虚拟化，可以从不同的视图观察。

视觉世界中的一类示例或一种对象，它们天然共享基本相似的内在特性、几何形状、反射率。这些是会考虑纳入的基本的自然监督编码，这是一种普遍性，确实适用于所有地方。未来可以考虑如何将其扩展到具有复杂背景的更复杂场景，即照明、对象和背景之间的复杂交互，这些场景有些更具程序性，有些则更少。

至于如何从被动感知到互动，再到与场景互动，其中很多都是受认知启发的。那么，如何将人类认知与自然语言联系起来，因为语言和谈论事物的方式是另一个重要的自然监督来源，将是另一个更具启发性的研究工作。

圆桌讨论

Q1、生成式AI的发展可能有很多滥用问题，导致社会安全性或者一些其他的问题，如何从技术上解决这些隐患？

朱军：从AIGC发展之后，技术可能被用在恶意的目的。2019年前后，有用生成式模型-GAN技术合成虚假视频在网上传播带来一些恶意的效果。在那之后，大家都在想着用程序、用人工智能来识别自动检测这种Video、图片、语音、文本等等。

相关的技术方面在AIGC更进一步发展之后，生成质量是更高的，实际上计算机生成的内容和自然的、真实的图片或者视频也好，还是有很多区别的，比如说它的一些特征分布会存在差异，包括有一些通过换脸等等合成出来的图片或者视频，本身在自然度上，平滑上会存在特征的区别，用这些信息可以通过计算机算法方式更精准地来做识别，这个也有很多的进展和相关的应用。

但是这本身是相互在演进的，未来的AIGC是不是能够发展到完全超过了，现在对人来说很多程度是可以接受，视觉上可以达到比较好的效果，但是未来在算法上，也会对检测算法带来更多影响，我相信肯定会是这样的。

但是检测本身，我觉得还是检测内容上比较有负面影响的内容，并不是对检测是不是算法生成，这可能并不是那么地急迫，相对来说我觉得就像刚刚讲的一些案例，有一些目的的内容，这可能从本身要表示的内容上可以去进一步地检测，不光是从展示的视觉特征上。

吴佳俊：就像朱老师最后说的，AIGC肯定会越来越精确，以至没有办法分辨。最终是需要社会有系统性的解决问题，就像炸药一样，我们要制定规则。如果说这个技术变得越来越方便的时候，尤其现在可以改造模型，你可以转化Token，进一步就可以模仿人类的行为，你可以得到这个人在做别的事情，各种场景下的结果，我觉得它肯定会非常真实。现在可能Video的效果还不太好，将来会越来越好，Video在网上有很多数据，至少通过外表的角度看起来是真实的角度，效果是很真实的。这个问题到最后就不是一个纯粹技术性的问题，就是需要一个综合社会考虑的问题。

赵洲：现在的生成模型可能会有一些生成的不自然的地方，可以来进行检测。随着模型越来越大，越来越逼真，之后是很难分辨出来的。我的一个看法就是，并不需要否定生成技术的本身，主要针对它可能会出现一些比如说恶意内容的情况来采取措施。

如果模型越来越逼真，越来越细节，个人认为可能还有一个方式可以来分辨，就是在模型生成的时候，给模型加载数字的水印。加载数字水印的同时，标注生成的内容是通过哪个模型或者哪个机构生成的，从而很快找到这个内容的来源。

Q2、从算法或者基础模型发展来看，在Diffusion之后，您觉得我们还会有下一步大的突破吗？

朱军：肯定会有下一步大的突破，就像Diffusion model出来之前，大家说GAN已经非常好了，但突然有一天Diffusion出来之后，很多人转而拥抱Diffusion model。现在其实Diffusion model从本质上也不是说没有局限，也存在很多开放性的问题。

Q3、吴佳俊教授的报告从知识出发，或者自然的一些规律出发，它有很好的约束能力、控制能力，有很好的泛化性。但是最近也有一种新的方法，类似于大规模预训练模型，两种方法互有优劣，如何看待它们未来的发展前景？

吴佳俊：我不觉得它们有什么原理上的不同，我觉得它们目标相同，只不过出发点不同。它们在很大程度上属于同样抽象的概念。可能抽象的概念实际是一种非常微妙的方式出现的，并不是说它们是互相矛盾的，其实可能只是一个范围。

Q4、以后多模态模型会如何的发展？我们需要做到多少模态？或者说是不同模态之间怎么样去互相提升等等这些问题。

赵洲：我们现在做理解和生成这两个问题都是分别来解的，在大模型的时代下，我们是希望把理解和生成一起放在一个统一的模型中，比如说以人机交互为例，我们输入Talking-face，输出语音等不同的模态。

Q5、下一步生成模型如果再突破，或者未来发展最人激动人心的点是什么？

赵洲：生成模型与大语言模型相结合，能够实现很好的人类和机器的智能交互，会有很多全新的场景可以构思，比如物理空间到虚拟空间智能交互的映射，都是非常有趣的。

吴佳俊：我有两个期待，一个是短期的，可以继续研究的video方向；还有一个怎么更好地做3D方向，到底是选择什么样的数据，处理现有的数据还是实时的数据。从ProlificDreamer开始，能够做得更好，做得更具有泛化性，更有适应性，我觉得这是非常令人激动的。

第二个，我觉得这一个基础研究问题，关于将来的方向，AI把任务完成很好以后，怎么样能够控制住AI的发展方向，让它能够具备持续的生产力。模型要生成的不管是音频、歌曲、视频、文字也好，AI需要把控最好的衡量标准，能够实现人类和设备更好的互联互动，这个还是有很多的工作要做，当然也涉及到很多社会性的问题。

朱军：机器人和实体相结合。将来我们看到的不光是一个模型、一个算法，可能是一个实体的对象，可以和环境、和人、和各个方面来进行交互和演进。

- 点击“查看原文” ，观看完整大会视频回放 -

回放 -

具身智能与强化学习前沿进展丨2023智源大会精彩回顾

大模型与人类的未来丨基于认知神经科学的大模型论坛精彩回顾

如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

生成模型最新进展丨2023智源大会精彩回顾

你可能感兴趣的:(人工智能,计算机视觉,机器学习)