LiveVideoStack_

AI自动剪辑生成视频探索实践

点击上方“LiveVideoStack”关注我们

▲扫描图中二维码或点击阅读原文▲
了解音视频技术大会更多信息

编者按：随着短视频时代的到来，以短视频作为载体进行音乐推广具备了更大的想象空间。海量的视频和图像素材库使得音乐短片视频制作者往往需要花费大量的时间和精力去寻找或是制作与音乐短片相关的图像或视频，十分浪费人力物力。LiveVideoStackCon 2022上海站大会邀请到了网易云音乐音视频算法专家赵剑，详细介绍网易云音乐结合多年音乐领域多模态算法能力积累与实际业务需求，实现AI自动剪辑生成视频的技术探索与与实践。

文/赵剑

整理/LiveVideoStack

大家好，我是赵剑，来自网易云音乐，本次分享的主题是AI自动剪辑生成视频的探索实践，内容主要分为以下几个部分：

What — 什么是AI自动生成音乐视频？
Why — 为什么需要基于AI自动生成音乐视频？
How — 如何实现AI自动生成音乐视频？

首先为大家播放由三段不同类型的音乐视频，全程无人工参与，完全通过AI自动生成。

第一个视频的歌曲所表达的情感和视频画面的内容搭配及视频整体的视觉色彩都比较吻合，较好地传达了音乐创造者的情绪。对比传统的非音乐视频，音乐视频更需要画面传递音乐的情绪，而不能简单地将画面进行拼接。

大家可能觉得第二个视频只是基于简单的文本歌词匹配生成的音乐视频，但其实是结合音乐的旋律及评论等特性而生成。

第三个视频的音乐节奏非常快且难度较高，那么与之相应生成的视频也是热血的。

音乐视频的特性在于音乐需要作为情感的载体与听众产生共鸣，于是在生成视频时需要考虑到情感和视频的关系以及节奏和画面的匹配度、连贯性、色彩及视觉的一致性。

以上三个视频都由我们的音视频实验室“AI一键自动生成”音乐视频系统生成，它整合了音乐、视频、文本等相关的原子算法，从音乐内容及视频内容两部分进行分析，多模态、多角度地全自动生成音乐视频，助力音乐视频的创作、筛选和分发。

网易云音乐实验室业务以音乐的多样性为中心，分别从理解、处理以及生产三大技术方向出发，为多种业务场景提供定制化优化，目的是增强消费感知。为此，我们自研了很强的音视频沉浸式体验包，大家可以在APP中体验已上线的沉浸式音频。创作方面，我们分别从音乐以及视频这两条路径提高创作者的创作效率，包含了视频及音乐的自动化创作。

实验室以多年积累及自研的底层原子算法为基础，针对音视频不同的业务方向提供各类型的解决方案，为图中网易云音乐的各类型产品保驾护航。

1、Why音乐视频自动化剪辑生成

接下来正式为大家介绍AI自动剪辑生成视频的探索实践。

首先，为什么做音乐视频自动生成？如图是音乐消费的演变，无论是早期的磁带、CD、MP3，还是音乐流媒体公司的歌单，音乐始终以非可视化的听体验为主。近年来，短视频发展迅速，在视频化场景中，用户被各种各样UGC视频的bgm洗脑并收藏感兴趣的bgm。视频作为音乐的另一种情感化载体，为用户带来更多的沉浸式消费。

网易云音乐作为国内领先的数字音乐流媒体公司，在音乐视频化方面也进行了一些拓展。

如图，左侧是一个云音乐视频化的产品，我们会定期在云村发布音乐视频形式的活动，鼓励平台的音乐视频创作者参与。创作者根据不同类型的音乐从积累的视频素材库中筛选出与音乐相匹配的视频片段，再由视频编辑工具处理，最终生成音乐视频。在与平台创作者的沟通中，我们发现对于大部分创作者来说，痛点是制作音乐视频的门槛较高。他们不仅需要一定的音乐相关知识，同时需要人力管理对于他们来说比较庞杂的视频素材库，此外还需要学习使用专业的视频编辑工具。

如图是我们对平台创作者进行调研的结果，对比人工剪辑及算法自动生成，我们总结得出人工制作一个质量较高的音乐视频普遍需要30分钟到两天的时间，而算法完全自动化平均仅需3分钟。（统计数据包括15-30秒的视频，以及3-5分钟左右MV类型的视频）

许多创作者本身的乐理知识较为匮乏，算法自动生成能够自动分析音乐各要素，并在素材侧通过音乐、视频及文本的自动化管理，两者结合为没有系统学习过音视频剪辑的创作者带来福音，同时也大大提高了平台的视频生产效率。

2、AI自动剪辑生成音乐视频系统

其次，如何搭建高效自动生成音乐视频的系统？

如图是基本的架构图，下方最左侧是输入层，主要包括用户想要创作的音乐以及海量素材库，中间处理层包含全自动化生成相关的技术，最后渲染成片。

上层业务支持1：1的视频配乐，包括音乐配视频。并且我们的系统能力使得音乐剪辑生成能够达到1：N的实现。1：1和1：N的区别在于1比1是出去旅游时自拍了一段视频后从音乐库中随机挑选一首适合的音乐，这样一首音乐只和一个视频相关联。而1：N是在给定一首音乐的前提下，从海量视频库中挑选多个片段并进行从而形成完整的视频。

自动生成音乐视频的流程大致如下：首先随机上传一首音乐，通过音乐技术、文本相关的NLP的技术以及众多的视频技术对其进多维度分析，技术重点在于对各个模态的数据进行分析。

接着在素材库中进行多模态检索，按照音乐整体的时间维度，挑选众多的候选集列表。从上往下可以理解为音乐时间发展脉络，即在每个时间点有相应的众多视频，比如最开始的3s，候选列表有这些视频，但我们不需要这么多视频，只需要挑选出最合适的视频并且保证最终挑选出来的视频能够组成最优的序列。

最后是比较重要的素材编排技术及编排之后合成相关技术，包括自动化匹配特效，自动化生成视频封面等。

如图所示是完整的技术框架，数据层作为上层算法分析的输入，覆盖了音乐相关的音频和音乐相关的歌词、评论、素材，整体看来是多模态信息；底层技术包括音乐分析、文本分析、视频分析等，工作是不同模态内容的理解，同时包括管理的海量素材整体质量的提升；中层技术包括跨模态的匹配技术，解决了音乐音频，音乐文本以及视频不同模态之间的匹配问题。

在素材的编排技术层面，能够确保生成长序列的视频符合人眼的视觉色彩以及流畅性；最上层则是衍生而来的相关应用。

2.1. 音乐分析

接下来从四个方面详细介绍详细的技术框架：第一，音乐分析。

写作文时，大家最熟悉的是总分总结构，对应到音乐中就是曲式结构，简单地可以将其划分为非副歌以及副歌。较为复杂地可以划分为前奏、主歌、间奏，桥段等，前奏和主歌类似于文章中的不同片段，如果把文章改成倒排格式，那么段落之间可以再进行一些其他的组合，这就形成了不同的曲式结构。

既然我们是为音乐生成视频，那就应具备为不同的音乐片段生成相应视频的能力，所以需要制作音乐的曲式结构，对不同音乐段落的自动识别。尤其对于副歌的高潮片段，我们的诉求是对应不同的段落能够生成的不同类型的视频。

前面介绍了力度较粗的曲式结构中的段落，接着进一步细分介绍节奏点。

节奏点作为音乐律动的重要表现形式，我们在算法侧实现了针对不同类型的歌曲，不同模式的节奏点的表示方法，包含了手机视频编辑APP的卡点模式。我们在制作音乐时，卡点只是其中的一个小模块，涵盖了节拍点，小节点，段落点，不同模式。具体在什么情况下使用什么类型的卡点，我们根据歌曲的类型做了映射。针对创造者或者用户来说，他们希望看到在不同的段落点，视频画面的是自动切换的。图中可以看到节拍点在峰值处相当于是音频的节拍点，在每个节拍点做到了视频画面的切换。

图中反映的是我们自研的业内领先的一套多任务统一框架的音乐分析模型，支持曲式结构、节拍点、bpm等音乐元素的算法及音乐要素的识别。

在音乐方向搭建多任务的统一框架面临着许多挑战。不同于图像、语音或NLP方向等数据标注比较容易，没有门槛。对音乐来说，多任务的标注需要较强的音乐背景，基于平台的优势，我们积累了众多多任务下面的音乐数据。完成了多任务模型框架统一，在准确率及性能方面远超单模型。

为什么搭建多任务统一框架？音乐的要素如旋律及和弦是相辅相成的，可以把旋律理解为小孩子画的草图，和弦理解为草图的配色，它们之间存在内在的关系。如果都做成单任务，就损失了互相的约束信息，于是我们将其做成多任务框架。此外，如果对每一个音乐要素都单独做一个任务，那么需要N个模型，导致推理计算时的整体效率很低。

音乐作品本身承载着丰富的情感，情感和视觉颜色之间也存在着深层次的关系，不同色彩能够体现不同的情感。图中主歌部分对应的情感属于较低层，如果在情绪低沉的片段搭配鲜明的颜色显然不合适。所以就需要对音乐进行自动化的情感识别，并为其搭配适合的色彩。

针对音乐情感的自动识别，我们自研了一套多模态的情感识别网络框架。

上层音乐情感的整体识别系统支持从训练到推理的闭环，下层支持音频、歌词不同维度的情歌识别。由于情感本身是复杂的心理过程，不仅体现在音频、歌词中，也体现在评论中，所以下面这块也包括了音频、歌词及评论信息。整体是多模态的算法，给定一个音频包括文本相关信息，能够输出自动识别的情感。

音乐视频有些类似于传统的KTV，需要准确显示音频对应时间的歌词。平台中部分歌词是由热爱音乐的UGC用户上传而来，不可避免会存在一些噪声数据，即提供的歌词和播放的时间存在偏移或是缺失。此时就需要利用算法进行修正，也就是将UGC提供的歌词时间戳重新对齐音频。我们利用到针对音乐方向的语音识别及定制化语言模型，通过这两个模块完成歌词与音频时间戳的对齐。

如图，左侧是逐字歌词，每一个字的时间戳和音频的时间戳对齐。右侧是逐行歌词，只需逐行的开头时间戳与音频时间戳对齐。

音乐分析还有更多其他方面，我们这里主要介绍下音乐文本相关的技术。我们利用深度学习相关的LP侧的大模型，如boot及其他运算类模型完成音乐文本侧包括关键词、实体、语义匹配相关的任务。做关键词信息的目的是去除歌词中对视频生成来说无效的信息从而提取有价值的信息，此外还需提取歌词中特殊的实体。最后是语义匹配，主要做的是文本侧语义层面的相似度。

2.2. 视频分析

如图所示是视频素材生成的流程。首先需要数据源，针对于数据源，网易集团的海量中台库，通过用户上传共建及外部采买复用素材源。由于网易不仅只有音乐，所以需要对收集的素材源按照音乐标准进行处理加工，包括视频相关的一系列AI处理、转码、拆条、打标。另外不可避免地会出现重复视频，对此需要去重去劣、提质等。

完成以上步骤后依然无法保证是100%可用的，这就需要在第三个环节引入人工审核标准。最后将通过算法智能处理及人工审核后的素材在各个业务线共享，从而形成闭环的素材管理。

视频分析主要运用了当前的深度学习，即与视频AI相关的视频处理算法，其中最重点的是视频拆条。

素材输入后，首先将其拆条，再理解视频。此外，由于视频本身含有无效的区域，所以要进行有效区域的裁剪。针对特殊的应用场景，还需进行视频的掏分、增强。最后为生成的视频智能选取封面。在整个处理环节中不仅利用了流行的AI算法，还融合了被大家忽视的传统视频图像的算法。

以上这些步骤的主要目的是过滤低质量的视频内容，在海量库中挖掘高质量素材。

接下来会展开介绍上面提到的六个点，视频切片、视频有效区、视频超分增强、视频多模态、视频编排以及视频封面。

素材源中许多视频属于长视频，由许多场景及不同的镜头组成。对于音乐视频来说会有许多冗余的视频信息，视频切片的目的是提取精彩视频片段，同时按照视频场景进行切割，形成一系列视频序列。算法的主要思路是提取视频场景镜头的关键帧，运用AI相关算法（各类型质量打分、场景持续时间相关算法），根据不同要素权重决定片段是否为有效的精彩片段，从而形成一系列的视频片段序列。

如图，左侧是原始视频，右侧是根据场景及镜头进行视频切片后的呈现方式

我们更偏向于获得较为干净的素材，但有些素材是通过用户共建的方式获取而来，难免包括不纯净的素材，比如在字幕中包括与视频内容不符的文字信息。对此我们利用深度学习的OCR文字定位，霍夫变换传统方法检测视频画面的有效区域。针对字幕提取，我们利用算法定位（图中红线位置）大概的位置。有些同学可能会疑惑，如果画面中出现了在中间或是其他位置的干扰文字该怎么处理？首先需要剔除噪声数据，利用语音识别技术，根据歌词应该出现的时长及是否居中等要素权衡不同权重，判断画面中出现的文字是字幕还是干扰信息，最后进行剔除。右图中的绿色部分是最后留下的有效视频片段。

云音乐发展至今，早已不再局限于一个APP，我们同时在多终端拓展，针对特殊的设备要求。比如1920的素材显示在4K屏幕中，此时需要进行超分增强从而满足在不同分辨率的显示。在增强部分引入了人像聚焦区域的特殊增强，既增强了整体的视频画面，又增强了指定有效人脸位置及风景等特殊的显著区域。

在超分增强方面，主要对风景类及动漫类原素材进行处理。右上是原视频，右下是超分增强后的视觉效果。

2.3. 素材编排

当生成一段音乐视频时，在每一个时间戳的位置都有N个视频候选列表，对应到每个时间段都有一个候选集。那么在每个时间点只需要选取少部分的视频，同时每一步选取视频时应考虑到上面选取的视频和下面选取的视频会互相影响，在选择视频时既要考虑当前的时间戳，也要考虑全局的连贯性。

由此我们想到信息论中，信息熵越小，系统越有序，对于视频序列来说，思路类似。信息熵一个经典的应用是在生产模型中的隐马尔可夫，我们借鉴隐马尔可夫，将当前视频认为是显著状态。但视频的具体次序及先后关系其实是隐藏的状态，此时需要解决的问题是如何确保每一个时间段选择的是哪一个可见状态，以及它的隐藏状态，最终借助全局的优化算法实现了目标。在优化算法的过程中，我们考虑到了各维度的度量信息如视觉、语义、标签及镜头等。图中可以看到经过编排后的候选集中保留了从视觉、场景各方面来说相对最优的序列。

2.4. 多模态分析

多模态方面主要分为粗匹配及精细匹配。在粗匹配阶段，我们利用各个模态的标签，如针对音乐和视频分别有对应的标签体系。在粗匹配时基于标签体系映射找到合适的粗视频候选集，再进入各维度包括音乐、文本、音乐音频的不同模态的embedding层。其中音乐及文本、音频、视频的embedding是通过超大模型的训练获取而来，积累了人工挑选出的众多优质的音乐视频。

这里借鉴的思想类似clip模型，能够为视频或图像自动匹配文字，或是为文字自动匹配视频，主要通过借鉴一套大模型的框架，搭建出多模态的训练框架，最终能够表示音频、文本及视频，且它们之间能够跨模态检索。这套技术的应用范围非常广泛，包括视频收视频、文本收音频、跨模态检索，最右侧是精匹配后的效果。

生产一个视频后，需要通过算法自动生成视频封面。主要应用视频关键帧动态搜索技术，降低了计算量的同时能够计算整个视频跨度的内容，保证了计算效率及封面质量。

其次会经历一系列质量相关算法，包括图像自适应剪辑算法，为质量及自适应剪辑的各个维度赋予不同权重从而筛选最智能的封面。对比其他竞品的智能封面技术，我们并不完全基于AI算法，而是包括了许多传统算法进行控制。

右图是利用我们的智能封面选取算法达到的优势。

最左侧是原始的视频，右侧是生成的不同尺寸的封面图。

3、业务场景探索

上面提到了视频配乐即音乐配视频，我们在边听边看、云村及MV生成中落地了这项技术，用户看视频的同时可以消费音乐。

AI自动剪辑视频方面，我们每天会批量生成很多视频，并与创作者合作，通过由他们代运营的方式建立视频号。右上是治愈型动漫，右下是纯风景视频，最右侧是完全纯音乐的视频。

这部分是基于AI自动技能的技术，在集团内部跟其他业务部门合力打造了一个AI辅助创作视频平台，目的是提升PGC包括UGC创作的内容，在非音乐方向也在持续发力。

图中是我们支持的一些语音转视频或文章转视频。

同时我们将这一套技术在网易中台中形成了技术与技术之间的打通，在中台的内容审核，流通生产板块集成了能力。

4、总结与展望

既然已经搭建完成了音乐视频自动生成系统，那么后期就要考虑如何评价生成视频的质量及对于歌曲本身消费的转化率，于是需要搭建音乐视频评价系统。

此外还需丰富自动剪辑能力，在非音乐的方向进一步赋能。最后我们会继续提升素材库的丰富度，包括题材类型的扩充，向更多的目标重类创作家推广使用。

以上是本次分享的全部内容，谢谢！

(全文完)

▼识别二维码或猛戳下图订阅课程▼

喜欢我们的内容就点个“在看”吧！

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
bat+ffmpeg批处理图片，图片批量转码张雨zy 音视频 ffmpeg
直接在cmd中输入//批量转码文件for%ain("*.png")doffmpeg-i"%a"-fs1024k"%~na.webp"//删除所有pngdel*.png@echooff表示执行了这条命令后关闭所有命令(包括本身这条命令)的回显。而echooff命令则表示关闭其他所有命令(不包括本身这条命令)的回显，@的作用就是关闭紧跟其后的一条命令的回显脚本完整代码写入脚本中后，需要多加一个%，例如
ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
使用ffmpeg将pcm格式音频转化为mp3格式音频布丁小站 ffmpeg pcm 音视频
voidAudioCode::ENcode(AVCodecContext*cdc_ctx,AVFrame*frame,AVPacket*pkt){intret=0;/*sendtheframeforencoding*/ret=avcodec_send_frame(cdc_ctx,frame);if(ret=0){ret=avcodec_receive_packet(cdc_ctx,pkt);if(
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

AI自动剪辑生成视频探索实践

你可能感兴趣的:(音视频,人工智能,ffmpeg,运维)