LiveVideoStack_

AIGC音视频工具分析和未来创新机会思考

编者按：相较于前两年，2023年音视频行业的使用量增长缓慢，整个音视频行业遇到瓶颈。音视频的行业从业者面临着相互竞争、不得不“卷”的状态。我们需要进行怎样的创新，才能从这种“卷”的状态中脱离出来？LiveVideoStack 2023上海站邀请到了PPIO边缘云的创始人王闻宇，和我们分享了他针对这一问题进行的思考。本次分享包括近年音视频行业的分析、国外4款AIGC应用工具介绍、最新论文情况介绍，以及王闻宇对行业的看法和展望，以期为音视频从业者提供更具广度的行业视角。

文/王闻宇

整理/LiveVideoStack

大家好，今天有幸再次来到LVS的讲台给大家做分享。今天主要分享国外比较出名的音视频工具及理论依据，以及一些视频AIGC相关最新论文的情况，还有我对行业情况的思考。

我是王闻宇，现任PPIO边缘云联合创始人和CTO。从业音视频行业多年、之前PPTV网络电视创业团队成员，也是架构师。现在在做PPIO边缘云，是以提供算力为核心的服务，主要服务音视频传输，转码，云端渲染和AIGC等业务。下面这张图片是我用AIGC做的照片。

-01-

发生了什么

首先，2023年发生了什么事？

这张图摘自《2023中国网络视听发展研究报告》。可以明显看到，整个音视频行业的使用量已经达到了增长缓慢的极限。比起22年底，21年底用户人数只增加了一个百分点。22年产业的市场规模的增长速度也只有4.4个百分点。整个音视频行业遇到了瓶颈，开始进入一个很缓慢的时代。

这是我们音视频行业的从业者面临着“卷”的根源，大家都在相互竞争。我们怎么样创新才能从这种“卷”中出来？

过去一年，世界发生了什么？请看下图，这是ChatGPT，它达到一个亿的用户只用了两天的时间，超过了历史上所有的APP，甚至包括Tiktok，Instagram，Snapchat，Facebook等。

再看下图，Stable Diffusion成为历史上增速最快的项目。和它对标的项目是比特币、以太坊、kafka、spark等知名项目。而且，Stable Diffusion基本上是垂直的线，一天时间就达到了几万关注。

这就是这次的十倍变化要素，AI的魅力。

这里回溯一下AI的发展过程：①在20世纪50年代，就有了基于规则的少量数据处理；后来80年代，基于统计学发展出了机器学习；②21世纪后，伴随显卡的性能提升，神经网络，深度学习逐步得到应用；③特别是2014-2017年，神经网络得到一系列的发展，包括CNN卷积神经网络RNN、循环神经网络、VAE、GAN生成对抗网络等，AI在很多领域有了落地的应用。④直到2017年，Transfarmer的伟大发明，带领我们进入了今天大语言模型的时代。⑤后来在2020年，Diffusion的发明，非常惊艳的生成图片效果，点燃了AIGC绘画的的浪潮。

那么视频在什么时代呢？我的看法是视频可能离走过这个鸿沟还有一定距离，这是在我分析过国外的APP后得出的想法。

接下来我给大家分享4款AIGC的应用。

-02-

音视频应用AIGC在萌芽

第一款应用是D-ID，它的核心是实现面部的动画。

这是对他们公司做的分析，包括融资和创始人的经历。国外音视频的创业者并不都是名校毕业生。中国人只要再努力一下，是很容易超越国外的产品的。

关于技术的实现，在他们CEO的一篇演讲中有提到如何将声音和嘴型进行对齐的内容，还提到了一种音频驱动人脸的全神经辐射的技术。

它的本质是把一个图像从2D生成3D的建模过程，但是文章中没有提到具体是怎么做的，我们根据AD-NeRF进行相关的假设。

AD-NeRF这篇资料讲述了音频驱动人脸的技术原理。AD-NeRF是一种由语音信号直接生成说话人视频的算法，仅需要目标人物几分钟的说话视频，该方法即可实现对该人物超级逼真的形象复刻和语音驱动。首先利用人脸解析方法将整个训练画面分为三部分，分别是背景、头部和躯干。其次，通过头部的前景和背景的后景去训练头部部分模型。然后，通过头部部分隐函数生产的图像和背景作为后景，再把躯干作为前景，去训练躯干部分的模型。

同时，声音部分也作为AD-NeRF模型的一个新的特征输入，通过DeepSpeech的方法，将声音转化成29维的特征数据，输入到AD-NeRF模型当中。

在生成图像的时候，通过对头部模型和躯干模型输入相同的特征，其中包括音频特征和姿态特征，来完成AD-NeRF模型的推理。在最终立体渲染图像的过程当中，首先采用头部模型积累像素的采样密度和RGB值，把渲染好的头部图像贴到静态背景上，然后躯干模型通过预测躯干区域的前景像素来填充缺失的躯干部分。通过以上的方法，AD-NeRF实现了音频驱动人脸当中头部与上身运动一致，并让产生动作与表情非常自然。

第二个分享的是Wonder Studio AI。它的两位创始人不是计算机工程师，一个是艺术家，一个是《头号玩家》的演员。它是在电影中或视频中，把一个真实的人换成另一个真实的人或数字人。

这个项目的融资不多，但做的东西非常惊艳。两位创始人都是电影制片人，还有一些顾问共同实现这个体系。有两篇文章提到他们项目的实现方法，一篇是他们的官方文章，另一篇是国内一位博主对他们进行的分析。

要做到视频内CG角色的实时替换，首先利用Opnepose等人体姿态估计算法对人物的3D姿态进行捕捉，并将其与建模好的CG模型进行绑定。其次，由于选定人物与CG模型在视频中所占的空间环境不同，因此需要对选定人物的轮廓进行精准识别，并经过一定的处理让选定人物仿佛在原视频中没有出现过一般，这里需要采用人物擦除算法。

目前，由清华团队提出的Inpaint Anything能够轻松实现这一需求。该算法基于Meta开源语义分割算法Segment Anything Model（SAM）对目标人物轮廓进行精准识别，生成Mask，再利用图像生成算法LaMa或stable Diffusion能够实现对Mask的图像内容进行自定义填充。

但Wonder Studio官方没有提到他们的方案具体是怎么实现的，以上是我就这个技术本身做的想法。

第三个工具是AIGC的官方应用，叫做Runway，它的定位是新一代的艺术，也是一个2c的产品。它提供了一个平台，可以对视频进行风格编辑，还有一系列的工具。它分为两代：Gen1和Gen2。Gen1只能视频转化成视频，视频加上文字最后转化为视频。

这家公司的融资背景非常深厚，在过去几年紧跟AIGC的浪潮及爆发性场景的应用。值得注意的是，它的三位创始人员都是艺术家。而我们国内创业或公司创新的人都是工程师或者学术方面的人员。这家公司都是艺术家创业，可见他们更注重做出来的东西的感受。这也体现了东西方文化上的差异。

已有的研究中表明CLIP的图像embedding对图像内容在图像中的位置和形态不敏感，而更关注内容本身，因此它是与深度这一结构信息较为“正交”的，使得Gen-1可以将图像解耦为彼此干扰较小的结构信息和内容信息。

Gen-1和Stable Diffusion路径很像，把中间的竖线去掉，基本上就是Stable Diffusion的架构。它把一个原始的视频形成画面，图像的深度图作为结构信息、CLIP编码器的图像embedding作为内容信息，在隐空间进行扩散模型的训练。生成的时候也是把输入的文本通过CLIP方式转化回去，最后再进行干预，就能呈现视频的结果。不同的是，它还运用了图片的模式转化，即MiDaS，把图片生成一个框架，再干预这个环节。大概的技术原理是用文本干预视频的过程，从而得出最后的效果。

https://arxiv.org/abs/2302.03011这篇论文是他们的官方论文。这个应用思路其实比较简单，如果大家要做也不会很困难。

第四个工具是Rewind。这个工具特别厉害，很遗憾的是它只能在苹果电脑上使用。它把大家日常工作的内容全部录下来，整理后再通过GTP进行对接。这个工具严格来说不是完整的视频应用，但它是个类视频应用，我是它的重度用户。可以通过回拉里面的进度条得知自己今天做的任何事，里面的文本也是可以摘出来的。

这个公司很有意思，Altman投了2轮，种子轮和天使轮，另外还拿到了很多知名的投资。

这个工具很有创意，它和音视频技术关系不大。核心点是调用了苹果的M1和M2芯片的接口，对显示的内容做OCR，再把OCR后的内容用文本方式存起来，

另外，官方宣称它用了H.264技术进行压缩，来同时把视频录制了下来。（但是这里我是持怀疑的，能把视频大小压缩到70倍，但我觉得H.264的技术还有些挑战）

最后，再把OCR的文本通过向量工程的方式和Chatgpt对接，从而具备了智能能力。当你问它（Rewind）你做了什么，它通过向量工程向Chatgpt调API来完成这一过程，所以它基本可以帮你总结出你每天都做了什么，你之前遇到了什么问题。它能够对你的日常工作进行归类，这是我用这个工具的原因。

其实AIGC视频工具还有很多，我这里讲的4个是比较典型的使用场景。

-03-

视频生成研究最新趋势

另外谈谈我对视频生成技术的学习和研究。

生成的本质是什么？我认为生成的本质是高维空间建立映射，不论是文字、图片，还是视频、音频，最终都会转化为数学问题，并在高维空间中建立起映射。而人脑正是因为能够建立起这种高维的映射，才能形成一定的智能。

前面也提到的，CLIP是非常关键的技术，是StableDiffusion的子模型，打通了文本和图像的映射关系。CLIP的原理是对文本和图片分别通过Text Encoder和Image Encoder输出对应的特征，然后在这些输出的文字特征和图片特征上进行对比学习，再将它进行映射。

为了训练CLIP，OpenAI从互联网收集了共4个亿的文本-图像对，论文称之为WIT(Web Image Text）。WIT质量很高，而且清理得非常好，其规模相当于JFT-300M，这也是CLIP如此强大的原因之一。

这是谷歌的一篇论文，讲的是视频的Diffusion Model，它可以理解为是StabDiffusion的变种，它在StableDiffusion的每个过程中都引入了一个时间维度t，以实现时间注意力机制，使得它生成的画面之间有一定的联系。

为了使扩散模型适用于视频生成任务，这篇论文提出了3D UNet，该架构使用到了space-only 3D卷积和时空分离注意力。具体来说，该架构将原UNet中的2D卷积替换成了space-only 3D卷积（space-only 3D convolution）。随后的空间注意块仍然保留，但只针对空间维度进行注意力操作，也就是把时间维度flatten为batch维度。在每个空间注意块之后，新插入一个时间注意块（temporal attention block），该时间注意块在第一个维度即时间维度上执行注意力，并将空间维度flatten为batch维度。论文在每个时间注意力块中使用相对位置嵌入（relative position embeddings），以便让网络能够不依赖具体的视频帧时间也能够区分视频帧的顺序。这种先进行空间注意力，再进行时间注意力的方式，就是时空分离注意力。

这种时空分离注意力的UNet可以应用在可变序列长度上，这种时空分离注意力的方式有一个好处是可以对视频和图片生成进行联合建模训练。就是说可以在每个视频的最后一帧后面添加随机的多张图片，然后通过掩码的方式来将视频以及各图片进行隔离，从而让视频和图片生成能够联合训练起来。

但是这个机制其实比较弱，只能生成一些非常简单的画面。

近期有两篇论文值得一提，一个是Diffusion over Diffusion，这篇论文的定位是关于生成长视频的思考。Diffusion over Diffusion主要解决的问题是长视频之间前后关联的问题。之前的视频基本都是自回归的架构，生成得比较慢，因为它是串行的。

它的特点是什么？它为什么要Diffusion over Diffusion？因为它是一种分层结构的扩散模型，通过一层层扩散生成视频。

Diffusion over Diffusion的视频生成过程是一个“从粗到细”的视频生成过程，先通过在全局扩散模型（Global Diffusion）中输入文字来生成整个时间范围内的关键帧，然后在局部扩散模型（Local Diffusion）中输入文字和上一层Diffusion生成的两张图片，递归地生成填充附近帧之间的内容，最终生成长视频。

这种分层结构的设计使模型能够直接在长视频上进行训练，不仅消除了视频生成领域中训练短视频与推理长视频之间差距，也确保了视频情节的连续性，同时也能极大的提升了生成效率。

通过官网的演示资料可以看到，它下面写的是一个prompt演讲，根据prompt生成一个稍微长一点的视频内容。在prompt换了之后，它又能生成一个稍微更长点的、更多样化的（内容）。这就是它的演示结果。

下面这篇论文的名字叫Any-to-Any，这是一篇综合图像、语音、视频和文本的多模态论文。其中Any to any的含义是，你能将上述模态数据进行任意组合的输入，得到任意组合的输出。例如输入的时候可以根据图片、文本、声音，最后生成一个带语音的视频。

这篇论文提出了模型可组合扩散（Composable Diffusion，CoDi），这是第一个能够同时处理和生成任意组合模态的模型。它具体是怎么做的？

首先这篇论文为了对齐不同模态之间的特征，设计了Bridging Alignment（特征桥接对齐）方式，采用CLIP为基准，冻结CLIP文本编码器权重，再使用对比学习在文本-音频、文本-视频数据集上进行训练，使得音频、视频编码器提取的特征能对齐CLIP预训练模型中文本编码器提取的文本特征。

第二步，为每种模态（例如文本、图像、视频和音频）训练一个潜变扩散模型（Latent Diffusion Model，LDM）。这些模型可以独立并行训练，利用广泛可用的特定模态训练数据（即具有一个或多个模态作为输入和一个模态作为输出的数据）确保出色的单模态生成质量。

最后，通过为每个扩散器添加交叉注意力模块和一个环境编码器V来实现的，将不同LDM的潜变量投影到共享的潜空间。之后再固定LDM的参数，只训练交叉注意力参数和V。由于不同模态的环境编码器是对齐的，LDM可以通过插值表示的V与任何组合的共同生成模态进行交叉注意力。这使得CoDi能够无缝地生成任何模态组合，而无需对所有可能的生成组合进行训练。

官网的演示很震撼。例如这三个是带有声音的视频。

这三个分别是文本、图片、下雨的声音。这三个结合起来，就生成了一个泰迪熊在雨中过街的画面。网上有一些评论，说这篇论文真正运用的时候差距很大，因为多模态需要大量的数据支持才可能做好。它还是学术级，离跨越鸿沟还有很远的距离。

-04-

未来音视频创新机会在哪

我接下来的思考是，未来音视频AIGC成熟且能大规模应用在什么时候？

这个图摘自红杉的报告。红色部分属于很不成熟的，黄色部分属于正在发展的，绿色部分就是成熟的。在这个预测里可以看到，文本和code在2023年能够做到很成熟，但是图片可能要到25年才能做到非常可控、可产品化，3D和视频预测要到2030年才能成熟。

不管是应用还是论文，基本上都是基于Diffusion的改良，甚至很多模型都是基于Diffusion模型的一种扩散，今天的很多更高级的视频、3D的生成框架，也离不开扩散。如果某天视频真的要参与化的时候，是不是需要有一种更原生的底层逻辑的突破、比扩散还高一个维度的突破才能做到？但是今天我们基于已有的技术，加上一些工程化的努力，我相信应该可以做很多东西了。

关于音视频的应用，如果和行业数据相关，我认为用好开源，加上一些工程上的产品级创新，再结合大模型，把向量工程、提示工程做好，基本就能解决大量的需求了。

-05-

关于PPIO边缘云

最后介绍一下我们的PPIO边缘云。PPIO 于 2018年由 PPTV 创始人姚欣和我联合创立，作为中国领先的独立边缘云服务提供商，PPIO在全国30多个省，超过1000多个县市及区域，为客户提供符合低时延、高带宽、海量数据分布处理需求的边缘云计算服务和解决方案。

PPIO的核心是以算力为本。这个图是运营商的骨干图，能够帮助理解边缘带宽。图中拿移动来举例，我们覆盖的范围并不是很大很多，而是相对分散的一些节点，但是这种节点的SOA也是可保证的。

从城域网的角度看，备用节点覆盖在BRAS这一层，甚至会放置在MEC。

把算力资源放下后，就能做一些边缘的推理服务。我们可以提供基于裸金属和GPU容器的的服务，同时也能提供上面调度的逻辑。另外我们还可以支持推理加速的框架，例如Oneflow、AITemplate、TensorRT等。

基于 PPIO 在边缘算力上的优势，我们构建了专门适用于 AI 推理场景的架构。它主要包含三个层面的服务：裸金属，容器，推理网关。

• 裸金属服务，主要适用于大模型的场景，例如：一个大语言模型的推理服务需要占用 4~10 张显卡，甚至要多机联合推理的情形。客户可以直接通过 IaaS 控制台或 OpenAPI 来申请、启动、停止和释放裸金属机。

• 容器服务，主要适用于可以灵活调度的场景，一般这类模型相对较小，一个推理服务实例只需要 1 张左右显卡，例如 StableDiffusion 的推理。容器服务实例由 PPIO k8s@Edge 系统管理，该系统保持与原生 k8s 兼容，可以满足客户按需弹性调度的需求。

• 推理网关服务，是上层用户请求层的智能调度服务，它可以根据后端推理实例的负载情况，动态地将用户的请求调度到最合适的实例上，并且它支持客户设置个性化的调度策略。另外当部分节点或实例故障时，该网关也可以智能地将其剔除，避免用户请求打到该实例上，对于已经调度到这些实例上的请求，网关将自动将这些请求重新转发到其他健康实例上去处理，整个过程对于请求方完全无感。

此外，在服务客户的过程中，我们发现有些时候显卡在接受较大的用户请求时，偶尔会出现显存不足的情况。比如在 3090 24G 上，刚好有一个模型要跑 30G 多一些怎么办？这时候很容易想到，将一部分内存来“充当”那显存使用，临时性地将显存的内容搬运到内存里，当这些显存的内容需要被访问时再搬回去，这样可以让上层的应用勉强能跑起来。为此我们基于 Nvidia 的 Unifed Memory 和 Cuda 劫持技术，构建了用户态的虚拟 GPU，实现了这一功能。该项技术使得推理服务在处理用户的较大请求过程中，显存的问题得到了极大的缓解。但是该技术也会使得显存和内存之间的 swap 操作变多，从而影响性能，因此在对性能有较高要求的场景，不建议设置太大的虚拟显存。

我们也有基于 Stable Diffusion WebUI 的一些应用，采用界面和算力分离的架构，不用 GPU，不用安装 WebUI，入门门槛低，也容易整合到用户自有的工作流中。用户也不用下载和维护模型，一方面我们已经集成了很多模型了，另一方面用户还可以添加自己的模型。

我们还提供了基于 Stable Diffusion 的 AI 图片生成和图片编辑的 API 平台，基本上从工程阶段已经做到了快、便宜，同样也能够支持各种模型，也能实现文生图，图生图，ControlNet，Upscaling，Inpainting，Outpainting，抠图，和擦除等系列功能，可以满足游戏素材生成，电商图片的修改等场景。

另外，我们也针对一些场景实现了主体固定的解决方案，就是能生成一系列图片，但保持主体不变、背景变换，特别适合当前流行的儿童插画，小说配图生成等场景。

最后，我最近经常也在思考，我们人类为什么有智能。再看看 AI 的高速发展，距离我们人类越来越近了，现在AI的原理越来越和我们的大脑近似，也是类似的矩阵、向量的计算，所以我顿时感觉人类的智慧没有想象中那么伟大。

或者再过十年，计算机超越人类是完全有可能的。而我们作为音视频行业从业者，需要积极拥抱新的技术创造更大的价值。

LiveVideoStackCon是每个多媒体技术人的舞台，如果您在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的出品人/讲师。

扫描下方二维码，可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核，并与符合条件的优秀候选人进行沟通。

扫描上方二维码

填写讲师申请表单

Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
树莓派 —— 在树莓派4b板卡下编译FFmpeg源码，支持硬件编解码器（mmal或openMax硬编解码加速）信必诺 FFmpeg 树莓派 FFmpeg 编译源码 mmal openMax 树莓派树莓派4b
FFmpeg相关音视频技术、疑难杂症文章合集（掌握后可自封大侠⓿_⓿）（记得收藏，持续更新中…）正文 1、准备工作（1）树莓派烧录RaspberryPi系统（2）树莓派配置固定IP（文末）（3）xshell连接树莓派（4）
C/C++ 知识总结灿烂阳光g 后端
目录C/C++STL数据结构算法Problems操作系统计算机网络网络编程数据库设计模式链接装载库海量数据处理音视频其他书籍复习刷题网站招聘时间岗位面试题目经验C/C++const作用修饰变量，说明该变量不可以被改变；修饰指针，分为指向常量的指针和指针常量；常量引用，经常用于形参类型，即避免了拷贝，又避免了函数对值的修改；修饰成员函数，说明该成员函数内不能修改成员变量。使用const使用stati
从零用java实现小红书 springboot vue uniapp（13）模仿抖音视频切换顽疲 uniapp java仿写小红书 uniapp抖音 java spring boot vue.js
从零用java实现小红书springbootvueuniapp（13）实战：用Swiper+Video打造抖音式丝滑视频流移动端演示http://8.146.211.120:8081/#/管理端演示http://8.146.211.120:8088/#/项目整体介绍及演示前言在上一篇文章中我们实现了视频笔记的发布功能，现在，我们将攻克一个更核心的体验功能：创建一个像抖音、快手那样的全屏、可上下滑动
python实现webrtc接入ipc_WebRTC音视频会议的优势 weixin_39998521
目前几乎所有主流浏览器都支持了WebRTC，越来越多的公司正在使用WebRTC并且将其加到自己的应用程序中。在浏览器端，依赖于浏览器获取音视频的能力，以及强大的网页上的渲染能力，就能够为高清的通信体验打下基础。同时，相比移动端来说，屏幕比较大，视窗选择也比较灵活。第一，跨平台。大家都了解浏览器对各个终端的特殊性，不止PC上有浏览器、移动端上有浏览器，甚至是一些知名的社交APP也嵌入了浏览器。这需要
AIGC与自动驾驶：文心一言的车载交互设计 AI天才研究院 ChatGPT 实战计算 Agentic AI 实战 AIGC 自动驾驶文心一言 ai
AIGC与自动驾驶：文心一言的车载交互设计关键词：AIGC、自动驾驶、车载交互、文心一言、自然语言处理、多模态交互、用户体验摘要：本文深入探讨人工智能生成内容（AIGC）技术在自动驾驶领域的创新应用，特别是百度文心一言如何重构车载交互体验。通过解析文心一言的核心技术架构、多模态融合算法、场景化交互模型，结合具体代码实现和数学模型，揭示其在语音交互、情境理解、个性化服务等场景中的技术优势。同时通过项
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
Cursor这类编程Agent软件的模型架构与工作流程 nine是个工程师谈谈架构 Agent 架构
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎评论私信交流。最近在关注和输出一系列AIGC架构。模型架构与工作流程大语言模型（LLM）核心编程Agent的核心是一个强大的大语言模型，负责理解用户意图并生成相应的代码和解决方案。Cursor这类编程Agent通常基于GPT-4或Claude等先进大语言模型构建。这些模型通过海量
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
4K超高清无缝切换与画面分割矩阵
格芬科技4K超高清无缝切换与画面分割矩阵技术解析格芬科技作为音视频传输与控制领域的领先企业，其4K超高清无缝切换与画面分割矩阵产品以高性能、高灵活性和高可靠性为核心优势，广泛应用于会议室、指挥中心、舞台演出、教育培训等场景。以下从产品特性、技术规格、应用场景及选型建议四个维度进行详细解析：一、核心产品与技术特性4K@60Hz超高清支持分辨率与刷新率：格芬科技矩阵产品（如GF-HDMI0404U、G
HDMI高清矩阵与无缝拼接矩阵 OEM定制控标 geffen08 TPHD141K vc-1 g711 es13
HDMI高清矩阵与无缝拼接矩阵：GEFFEN/GF-MIX系列介绍GEFFEN/GF-MIX系列矩阵是一款集成了高性能、高灵活性和高可靠性于一身的音视频处理设备，特别适用于需要高清视频信号切换、拼接和显示的场合。HDMI高清矩阵主要功能与特点：高清视频信号切换：GEFFEN/GF-MIX系列HDMI高清矩阵支持多路HDMI输入和多路HDMI输出，能够轻松实现高清视频信号之间的快速切换。无缝切换技术
[硬件接口]HDMI和DP 区别
DisplayPort和HDMI在FPGA应用场景的实现使用与区别概述DisplayPort（DP）和HDMI是两种主流的数字音视频接口，广泛应用于视频传输场景。在FPGA（现场可编程门阵列）应用中，DP和HDMI常用于视频处理、显示驱动和高带宽数据传输。本文档比较两者在FPGA实现中的使用方式、应用场景及主要区别，并以Markdown格式呈现。1.FPGA实现概述1.1DisplayPort在F
C语言基础-数据类型知柠 c语言
定义数据类型其实就是固定大小内存的别名，并且描述了一个变量存放什么类型的数据。简单来说，就是组织和操作数据。数据：计算机要处理的数据（数字、字符串、文字、符号、图片、音视频等）数据类型不仅帮助我们组织和操作数据，还决定了程序如何有效的利用内存。了解数据类型的内存需求是理解计算机管理和操作数据的关键。小贴士：程序运行需要在内存中数据类型分类和计算方法数据类型分类基本类型（C语言内置）数值类型整型（整
【面试系列】C++ 高频面试题野老杂谈全网最全IT公司面试宝典 c++面试编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录C++初级面试题及其详细解答1.解释C
ffmpeg的常见使用 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
fcpx音视频剪辑编辑 Final Cut Pro X（Mac电脑） fengyun2891 macos mac
fcpx一款专业的视频剪辑工具，专为苹果用户设计。它具备强大的视频剪辑、音轨、图形特效和调色功能，支持整片输出，提升创作效率。经过Apple芯片优化，利用Metal引擎动力，可处理更复杂的项目，并支持高分辨率视频格式，并提供了多种高级功能，例如多摄像头编辑、音频混合、色彩校正、视觉特效和动画等。原文地址：macFinalCutProXMacfcpx音视频剪辑编辑工具
技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？
昨天，在北京首映礼的暗场中，一段黏土风格的荒诞喜剧画面投映在银幕上：一根「宇宙肥肠」在太空中漂浮，讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》，全球首部AI单元剧集。这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表
WebRTC与RTMP
WebRTC和RTMP是两种不同的流媒体传输协议，分别适用于不同的场景。以下是它们的核心区别和特点：1.WebRTC（WebReal-TimeCommunication）特点：协议类型：基于UDP（低延迟，允许丢包），使用SRTP/SCTP加密传输音视频。延迟：极低（100ms-1s），适合实时交互（如视频会议、直播连麦）。使用场景：浏览器之间的点对点（P2P）音视频通话。低延迟直播（如数字人交互
C语言基础第1天：数据类型、常量
一、数据类型（一）数据类型的定义数据类型是固定大小内存的别名，它描述了变量存放数据的类型，其核心作用是组织和操作数据。计算机要处理的数据包括数字、字符串、文字、符号、图片、音视频等，数据类型不仅助力这些数据的组织与操作，还决定了程序对内存的有效利用方式。同时，了解数据类型的内存需求是理解计算机管理和操作数据的关键，因为程序运行依赖内存。（二）数据类型的分类基本类型（C语言内置）1.数值类型整型（整
互联网大厂Java程序员谢飞机面试记：从基础到微服务的奇幻之旅 seventeennnnn Java场景面试宝典 Java面试 JVM原理 Spring Boot 微服务分布式系统
互联网大厂Java程序员谢飞机面试记：从基础到微服务的奇幻之旅面试场景设定面试官：严肃、技术功底深厚，善于通过业务场景循序渐进地考察候选人谢飞机：搞笑水货程序员，对简单问题能回答出来，复杂问题含糊其辞背景：某互联网大厂总部会议室，谢飞机来应聘高级Java开发工程师职位第一轮面试：Java核心与JVM原理（音视频场景）面试官：谢先生，先聊一下Java语言特性吧。说说Java8中接口的变化有哪些？谢飞
AI办公Agent之Skywork Super Agents NeilNiu AI+开源项目人工智能
5月22日，昆仑万维科技股份有限公司（以下简称“昆仑万维”）面向全球市场同步发布天工超级智能体（SkyworkSuperAgents)。官网地址：https://www.tiangong.cn/这个工具主要采用了AIagent架构和DeepResearch技术，一站式生成文档、PPT、表格（excel）、网页、播客和音视频多模态内容。它具有强大的DeepResearch能力，在GAIA榜单排名全球
AlphaGPT通过国家AIGC生成式算法备案，为法律专业人士提供更加合规可靠的ai技术支持资讯分享周 AIGC 人工智能
在当前互联网信息时代,大模型算法已成各行业不可或缺的核心,不仅改善生活和工作,也在创新中展现巨大潜力。然而,随着算法应用的普及,如何合规管理算法,保护用户权益和隐私,确保公正运行,成为重要议题。日前,国内领先的法律科技企业iCourt宣布,其自主研发的法律垂类领域大模型AlphaGPT成功通过国家生成式模型深度学习合成算法备案。本次备案的通过,彰显了iCourt在法律AI领域有迈向了一个新的里程碑
【AIGC时代】OneCode前端框架入门指南：从环境搭建到第一个应用低代码老李 OneCode实战低代码软件行业学习前端框架
在人工智能生成内容(AIGC)技术飞速发展的今天，前端开发领域正经历着前所未有的变革。AI工具能够批量生成代码，但如何将这些自动生成的代码转化为可维护、高质量的生产级应用，成为开发者面临的核心挑战。OneCode框架凭借其独特的设计理念，在这一背景下展现出显著优势，本文将带您从零开始，快速掌握OneCode框架的使用方法。一、AIGC背景下选择OneCode框架的四大理由AIGC工具的普及为前端开
开源的人像动画生成工具LivePortrait 研创通之逍遥峰图像处理人工智能作画
LivePortrait是由快手科技联合中国科学技术大学和复旦大学共同开发的一款先进AI驱动肖像动画工具，它能够将静态的人像照片转化为带有真实面部表情和头部运动的动态视频。这项技术代表了当前AI生成内容(AIGC)领域的最新进展，通过创新的算法设计和高效的计算框架，为用户提供了强大且易用的动画生成能力。以下将从技术原理、核心功能、应用场景、使用方法和比较优势等多个维度，全面介绍这一工具。LiveP
筑牢 AIGC 安全防线：警惕提示词注入攻击 CS创新实验室 AIGC AIGC 安全大模型提示词提示词注入
在AIGC（生成式人工智能）技术蓬勃发展的当下，其在各个领域的应用日益广泛。然而，随着AIGC技术的深入应用，安全问题也逐渐凸显，提示词注入攻击便是其中不容忽视的一大威胁。对于AIGC开发者而言，深入了解提示词注入攻击并做好防范工作，是保障AIGC系统安全稳定运行的关键。提示词注入攻击的基本知识提示词注入攻击是指攻击者通过精心设计和构造提示词，利用AIGC模型对输入文本的处理机制，干扰模型的正常运
AIGC 领域 AI 写作如何实现智能内容推荐 SuperAGI2025 AIGC 人工智能 ai
AIGC领域AI写作如何实现智能内容推荐关键词：AIGC、AI写作、智能内容推荐、推荐算法、用户画像摘要：本文聚焦于AIGC领域中AI写作的智能内容推荐实现。首先介绍了该主题的背景，包括目的、预期读者等内容。接着阐述了核心概念与联系，如AIGC、AI写作、智能内容推荐等概念及其关联。详细讲解了核心算法原理，包括协同过滤、基于内容的推荐等，并给出Python代码示例。探讨了相关数学模型和公式，通过具
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

AIGC音视频工具分析和未来创新机会思考

你可能感兴趣的:(AIGC,音视频)