言淦

如何用FFMpeg生成视频

前言

FFMpeg读做“FF Mpeg”， “FF”指的是 “Fast Forward”，而“Mpeg”指的是 Moving Picture Experts Group（动态图像专家组）。

根据官方介绍，FFMpeg是一个完整的、跨平台的音频和视频录制、转换和流媒体解决方案。简单来说，只要涉及 音视频开发，基本绕不开这个工具。

一、快速入门

FFMpeg快速入门的话，建议查看阮一峰老师的《 FFmpeg 视频处理入门教程》，里面讲述了音视频处理的一些基本概念，比如FFMpeg支持的容器、 编码格式以及 编码器；还有就是讲述 FFMpeg的常见用法，比如查看文件信息、转换编码格式、提取音频等。

二、音视频基础知识

我自己在使用FFMpeg的时候发现，想要把FFMpeg用得明白，一些基本的音视频基础知识的了解还是很有必要的，所以在这里做下总结。

现在短视频那么火，相信大家也是常看，而一个视频的构成其实也不复杂，就是 图像、音频、字幕的一个组合。

对于图像，它有两个概念需要区分好，分别是 图像格式和 色彩空间。图像格式就是图片压缩编码以及存储的方式，比如我们常见的 JPEG和 PNG。色彩空间是颜色的数学描述方式，根据不同的表示方法分为不同的色彩模型，最常用的色彩模型有三类， RGB(用于计算机图形学)， YUV(用于视频系统), CMYK(用于彩色印刷)。（后面会经常看到YUV）

对于音频，也有两个概念比较重要，一个是采集到的原始音频数据（比如PCM），另一个是压缩后的音频数据，比如AAC，后面也会经常看到。

对于字幕，常见的有三种格式，分别是 srt、 ssa和 aas。

srt字幕即文本格式字幕，它算是最简单的字幕了，因为它仅由 时间和字幕内容构成，比如下面：

  # 第一行是编号，表示第几个字幕
# 第二行是时间范围，精确到毫秒
# 第三话就是显示的文本内容

0
00:00:00,000 --> 00:00:01,000
假设张三携带10万美刀进行投资

1
00:00:02,000 --> 00:00:03,000
兑换成人民币后，银行就多了10万美刀的外汇

ssa字幕是比srt字幕更先进的字幕文件格式，而与它比较类似的ass字幕其实就是ssa字幕的plus版本，ass字幕的实质是 SSA v4.00+，是基于SSA 4.00+编码构建的。下面是ass字幕的具体内容：

  # 这是从上面的srt字幕转换得到的ass字幕
# Script Info：包含脚本的头部和总体信息
# V4+ Styles：包含了所有样式的定义
# Events：包含了所有脚本的事件，有字幕、注释、图片等
[Script Info]
; Script generated by FFmpeg/Lavc58.91.100
ScriptType: v4.00+
PlayResX: 384
PlayResY: 288
ScaledBorderAndShadow: yes

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,16,&Hffffff,&Hffffff,&H0,&H0,0,0,0,0,100,100,0,0,1,1,0,2,10,10,10,0

[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:00.00,0:00:01.00,Default,,0,0,0,,假设张三携带10万美刀进行投资
Dialogue: 0,0:00:02.00,0:00:03.00,Default,,0,0,0,,兑换成人民币后，银行就多了10万美刀的外汇

三、一个视频的构建

我之所以要用FFMpeg，源于我想通过图片生成视频，并加上音频和字幕，从而构成一个完成的视频，所以下面我主要说说在构建时的一些心路历程（坑）。

3.1 项目结构

本次实践生成的音视频都会上传到Github，可以点击这里查看：

  # 项目结构
$ tree -l -L 1
.
├── add_audio  # 添加音频
├── add_caption # 添加字幕
└── img_to_video # 图片转视频

3.2 图片生成视频

为了方便展示，我从网上随便找了一张图片：

图片转视频的命令如下：

  $ ffmpeg -r 25 -i img001.jpg -vcodec libx264 -pix_fmt yuv420p one_img_to_video.mp4
...
[libx264 @ 0x7faf5b809200] i8c dc,h,v,p: 65% 19%  9%  7%
[libx264 @ 0x7faf5b809200] kb/s:8960.40

下面是各个参数的逐个解析：

-r：rate，用于设定 视频帧率。视频帧率即每秒显示帧数，常见的有30FPS、25FPS或者24FPS。本次设定为25FPS，即每秒有25张图片。
-i：input，即输入源文件。
-vcodec：video codec，即视频的编码格式，常见的有H.264，即 libx264。
-pix_fmt：pixel formats，即像素格式， yuv420p是上文提到的YUV中的一种。
one_img_to_video.mp4：最后输出的文件名。

生成之后的视频，可以看到 时长非常短（0秒），这是因为帧率设定是25，但是只输入了一张图片，图片数不够，所以生成的视频时长非常短。

解决办法有两种：一是降低帧率（不推荐），二是增加图片数量（推荐）。

我一开始是通过降低帧率来提高时长（我的需求是同一张图片要显示10秒左右），因为25FPS就是一秒25张图片，那如果设置为0.1FPS，等同于 1张图片10秒，测试如下：

  $ ffmpeg -r 0.1 -i img001.jpg -vcodec libx264 -pix_fmt yuv420p one_img_to_video_small_rate.mp4

通过下图，可以看到 延长时长的目的确实达到了，但是这种方式生成的MP4其实是有问题的，不仅剪辑软件无法支持（比如剪映），在添加音频、字幕的时候也非常奇怪（血的教训）。

第二种方式是增加图片数量，这也是我使用剪映之后发现的，因为 与剪映拖动图片增加视频长度的原理是一致的：

批量增加图片可以随便写个脚本就可以得到，但是图片的数量需要计算一下，比如一个时长10秒，帧率25FPS的视频就需要 10 x 25 = 250张图片：

  # 输入为多张图片时，可使用这种写法
# %03d 其实就是 001、002、003...100
$ cd img_to_video

$ ffmpeg -r 25 -i img/img%03d.jpg -vcodec libx264 -pix_fmt yuv420p multi_img_to_video.mp4

这里可能有人会疑惑，为什么每次我都会带上 -pix_fmt yuv420p参数？这其实也是一个坑，因为如果不加这个参数，有些软件没办法识别生成的MP4文件，比如Mac 的 QuickTime Player。

原因可以从官方文档得到，因为我们生成视频的方式其实是通过图像序列（一系列的图片）的方式，对应的编码类型为 image2，这也是为什么有时在一些文章上可以看到他们的命令比上述命令多了 -f image2参数（加不加都无所谓）。在这种编码下，默认的 pix_fmt参数并不是 yuv420p，而是通过第一张图片得到，而JPG图片用的都是 RGB，所以最终生成的视频无法识别。

3.2 视频添加音频

通过上面的方式生成的视频是没有声音的，所以我们需要通过FFMpeg为其加上音频。

有时候我们得到的音频格式并不是 MP3，而是 WAV，这时我们可以通过下面的命令进行转换：

  $ ffmpeg -i input.wav -vn -ar 44100 -ac 2 -b:a 192k output.mp3

-i： 上文也提到过，即我们的输入文件

-vn：禁用视频，确保没有视频被包括在内

-ar：设置音频采样频率。对于输出流，它默认设置为相应的输入流的频率。对于输入流，这个选项只对音频抓取设备和原始解复用器有意义，并被映射到相应的解复用器选项中。

-ac：设置音频通道的数量。这里为2是为了确保它是立体声（2个通道）。对于输出流，它默认设置为输入音频通道的数量。对于输入流，这个选项只对音频抓取设备和原始解复用器有意义，并被映射到相应的解复用器选项中。

-b:a：将音频比特率（audio bitrate）转换为精确的192kbit/秒

上面的解释涉及到 解复用这个术语，那什么是解复用呢？当我们打开一个多媒体文件之后，第一步就是解复用，称之为Demux。为什么需要这一步，这一步究竟是做什么的？我们知道在一个多媒体文件中，既包括音频也包括视频，而且音频和视频都是分开进行压缩的，因为音频和视频的压缩算法不一样，既然压缩算法不一样，那么肯定解码也不一样，所以需要对音频和视频分别进行解码。虽然音频和视频是分开进行压缩的，但是为了传输过程的方便，还是将压缩过的音频和视频捆绑在一起进行传输。所以我们解码的第一步就是将这些绑在一起的音频和视频流分开来，也就是传说中的**解复用。**简单来说，解复用这一步就是将音频流和视频流分开，方便后续解码。

转换之后就可以为视频添加音频了，这里使用的视频是上文生成的图片视频（注意添加音频也能用wav格式，只不过我习惯用mp3）

  # 拷贝视频
$ cp img_to_video/multi_img_to_video.mp4 add_audio/input.mp4

# 添加音频有多种方式：
# 方式一：流拷贝（不推荐）
# 这种方式没有编解码的过程，只有解复用，所以速度很快，目前亲测不成功，不太建议
$ ffmpeg -i input.mp4 -i input.mp3 -codec copy audio_copy.mp4

# 方式二：手动选择特定流（不推荐，亲测无效）
$ ffmpeg -i input.mp4 -i input.mp3 -map 0:v -map 1:a -c copy audio_manually.mp4

# 方式三：重新编码（亲测有效）
$ ffmpeg -i input.mp4 -i input.mp3 -c:a aac -c:v libx264 audio_recode.mp4

# 有时候我们的音频长度大于视频长度，比如本次音频长度为20s，视频长度为10s，使用上面的命令会把视频长度拉长到20s
# 如果想要音频长度与视频长度保持一致，可加上 -shortest 参数
$ ffmpeg -i input.mp4 -i input.mp3 -c:a aac -c:v libx264  -shortest audio_recode_short.mp4

3.3 视频添加字幕

添加完音频后，就可以添加字幕了，关于字幕转换工具，可以自己手写一个，也可以用现成的，比如下面这个：

TXT to SRT Converter

使用起来也非常方便，每一行就是一行字幕，最后设置好起始时间就可以了（不一定与实际朗读匹配）：

添加srt字幕的命令如下：

  # 拷贝之前生成好的视频
$ cp add_audio/audio_recode.mp4 add_caption/input.mp4

# 添加字幕
$ ffmpeg -i input.mp4 -vf subtitles=input.srt video_with_srt.mp4

# 有时候可能会遇到下面的报错：Too many packets buffered for output stream 0:1
# 该异常抛出的原因是有些视频数据有问题，导致视频处理过快，容器封装时队列溢出
# 可以通过增大容器封装队列大小来解决，比如设置最大封装队列的大小为1024
$ ffmpeg -i input.mp4 -vf subtitles=input.srt -max_muxing_queue_size 1024 video_with_srt.mp4

有时候我们需要自定义字幕的样式，或者字幕的位置，这时可以先把srt字幕转换为ass字幕，再做调整。如果你安装了FFMpeg，一行命令就能完成转换，如果没有安装，也可以用一些在线工具实现，比如字幕酱。

FFMpeg转换命令:

  $ ffmpeg -i input.srt output.ass

添加ass字幕命令：

  
$ ffmpeg -i input.mp4 -vf "ass=output.ass" video_with_ass.mp4

最终效果如下：

如果想要控制字幕使用的文字、文字大小、以及显示位置等，则需要修改 [V4+ Styles]里面的内容：

  # 一共分为两行，第一行是字段名，第二行是字段值
# Fontname：字型
# Fontsize：字体大小
# MarginL：字幕距左边的距离，取值范围是0-PlayResX的数值
# MarginR：字幕距右边的距离，取值范围是0-PlayResX的数值
# MarginV：字幕高度，取值范围是0-PlayResY的数值
[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,16,&Hffffff,&Hffffff,&H0,&H0,0,0,0,0,100,100,0,0,1,1,0,2,10,10,10,0

注：其他参数的说明可参考这篇文章

假设我要把字幕大小改为20、且字幕往上移动，则对应的改动如下：

  [V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,20,&Hffffff,&Hffffff,&H0,&H0,0,0,0,0,100,100,0,0,1,1,0,2,10,10,50,0

最后重新添加即可：

  $ ffmpeg -i input.mp4 -vf "ass=new.ass" video_with_new_ass.mp4

最终效果如下：

写在最后

以上就是如何用FFMpeg构建完成视频的全流程了，希望对大家有所帮助！

参考教程

FFmpeg 视频处理入门教程
FFmpeg Formats Documentation
ffmpeg图片视频互转
Convert audio files to mp3 using ffmpeg
FFMPEG深入理解
TXT to SRT Converter
在线字幕格式转换工具
解决FFmpeg抛出的"Too many packets buffered for output stream 0:1."

脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
音视频流媒体开发【三十六】FFmpeg+QT播放器5-其他功能 AlanGe
音视频流媒体开发-目录5-stream_open和stream_close进⼀步掌握：ijkmp_prepare_async处理逻辑ijkmp_stop处理逻辑stream_openstream_open主要⼯作内容：初始化SDL以允许⾳频输出；初始化帧Frame队列初始化包Packet队列初始化时钟Clock初始化⾳量创建解复⽤读取线程read_thread创建视频刷新线程video_refre
华为云nbiot接入示例_云制播？云导播？我有点飘疑样华为云nbiot接入示例
互联网时代，不论是干饭人、打工人、还是读书人，追星族、学习族、还是少数民族（此处应有丁真），……都逃不开音视频技术带给我们的真香定律。2020年，我们经历了史无前例的悠长宅家时光，豪不夸张地说，各种媒体视频节目救了我们许多人的命。那么，我们的广大媒体人是怎么克服疫情期间的困难，来实现各种云直播、云主持、云见面会、云综艺的呢？今天我们就来揭秘一下广电媒体节目制播的过程~通常来说，广电节目制播包含这样
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
警方认定网红用濒危大白鲨做美食，网友神吐槽赛鲁斯
“天必像烟云消散，地必如衣服渐渐旧了；其上的居民也要如此死亡。唯有我的救恩永远长存；我的公义也不废掉。”——圣经话说这两天“濒危物种”这个词频繁出现，前些日子是长江白鲟被确定灭绝，同时其它鲟鱼被列为及其濒危，之后有一位网络美食博主在视频里烧烤鲨鱼，被怀疑是国际濒危的大白鲨。据光明网报道，7月14日，一位名叫“提子”的美食网红博主拍摄水煮鲨鱼和烧烤鲨鱼的视频火爆网络，有科普博主反映，这条鲨鱼是国际濒
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
科普关于v6厂和af厂蓝气球对比哪个好奢侈品总汇1
大家好，我是广城腕表，一个专注腕表知识的爱好者，不定时更新腕表真假对比，拆解评测以及视频解说，学会用专业知识了解腕表的好与坏，让您在玩表之路不入坑，本期给大家讲讲现在v6厂和af厂蓝气球对比哪个好。重要提醒→买大厂手表联系方式看文章底部蓝气球这个手表的总体上来讲，无论是V6厂的蓝气球还是AF厂的蓝气球，这两个都是和正品的尺寸对版，虽然说V6厂比AF厂厚0.5mm左右，但是只不过是不到一张纸的厚度，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
许光汉《正港分局》台剧全集【1080p超清韩语中字】网盘提取码（百度云夸克迅雷无删节资源）免费视频在线观看大全全网优惠分享君
《正港分局》作为一部备受瞩目的台湾剧集，自其在Netflix平台上线以来，便以其独特的鬼魅设定、紧凑的剧情、精湛的演员表演以及深刻的主题探讨，吸引了大量观众的关注与喜爱。该剧作为电影《关于我和鬼变成家人的那件事》的衍生影集，不仅延续了母剧的独特风格，更在故事深度和人物塑造上进行了全新的探索与拓展。正港分局全集(尽快保存，随时失效)链接：https://pan.quark.cn/s/dcbd1196
头盔识别误报率高？陌讯YOLOv7优化方案实测准确率达99%！
开篇痛点：算法失效的致命时刻在智慧交通领域，电动车头盔识别长期面临三大痛点：漏检危机：行人遮挡、雨天反光导致传统算法漏检率高达15%（某头部车企实测数据）误报泛滥：相似物体（背包、安全帽）误识别率超20%实时性缺陷：开源模型在1080P视频流中处理延时＞200ms，无法满足实时预警需求技术解析：陌讯算法三重创新架构graphTDA[双路输入]-->B[多尺度特征融合模块]B-->C[空间注意力机制
无货源电商操作流程，无货源赚差价方法，无货源运营变现方式！一起高省
伴随手机端拼购、短视频电商日渐火热，打着“零基础、低成本、月入过万元”口号的“无货源电商”模式吸引了不少人投资，然而，一些人交了培训费后却直呼被“割韭菜”。记者调查发现，无货源网店模式不仅会导致商品质量参差不齐、商标侵权、客户投诉等问题，一些“无货源电商”的课程培训还涉嫌虚假宣传乃至诈骗。所以小编提醒大家，投资需谨慎，尤其是各种课程，视频剪辑课，海外短视频课程，全部是割韭菜的，带货是很火我们要找对
UC网盘拉新怎么做？99%网友不知道的零基础保姆级教程流程太香了清风导师
UC网盘拉新玩法教程怎么做?UC网盘推广赚钱月入过万保姆级攻略教程!UC网盘是目前非常适合大家进行的线上CPA拉新副业，尤其适合擅长短视频变现的网友小伙伴们进行操作，那么UC网盘拉新具体操作有何教程技巧呢?本文将会从对接到操作细节为大家带来详细解读说明!一、UC网盘拉新授权对接：我们如果想要对接靠谱的一级服务商渠道，保证价格、数据、结算都没有问题还能够拥有显著优势，那么建议各位选择任推邦渠道，毕竟
AirPlay认证是什么？AirPlay认证流程有哪些（ai） Microtest_CS AirPlay认证
在当今日益数字化的世界中，无线连接技术已成为我们日常生活中不可或缺的一部分。其中，AirPlay作为苹果公司推出的一种无线媒体播放技术，为用户提供了将音频、视频和照片等内容从iOS设备、Mac电脑等发送到AppleTV、HomePod或其他兼容设备的便捷方式。然而，为了确保用户能够获得最佳体验，苹果公司对于支持AirPlay的设备或软件有着严格的认证流程，这就是所谓的AirPlay认证。一、Air
airplay认证流程有哪些？ Microtest_CS AirPlay认证
**AirPlay认证流程解析**在当前的数字时代，无线传输技术已成为连接设备、分享内容的标配。AirPlay，作为苹果公司开发的一种专有无线通信技术，允许用户将音频、视频和屏幕镜像从iOS设备、macOS计算机无线传输到支持的接收设备，如扬声器、电视和投影仪等。为了保障用户的使用体验和内容的传输质量，苹果公司设立了AirPlay认证流程，确保接入AirPlay技术的设备符合其标准和要求。**一、
AirPlay认证是什么？AirPlay认证流程有哪些？ Microtest_CS cocoa macos objective-c
AirPlay认证是苹果公司为其无线音频和视频流传输技术所设立的一种认证机制。它确保了使用AirPlay技术的设备能够无缝、高质量地传输音频和视频内容，为用户带来流畅且稳定的多媒体体验。在本文中，我们将详细探讨AirPlay认证是什么，以及AirPlay认证流程包括哪些步骤。一、AirPlay认证概述AirPlay是苹果公司推出的一种无线媒体传输技术，它允许用户将iOS设备、Mac电脑或iTune
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
短剧系统全栈开发指南：从0到1构建高并发微服务架构 wx_ywyy6798 短剧系统短剧系统开发海外短剧系统海外短剧系统开发短剧分销短剧分销系统短剧分销系统开发
一、短剧系统概述短剧作为一种新兴的数字内容形式，近年来在移动互联网领域迅速崛起。短剧系统开发不仅涉及传统视频平台的技术栈，还需要针对短内容、高互动、快速消费等特点进行专门设计。1.1短剧行业现状与发展趋势2023年短剧市场规模已突破300亿元，用户日均使用时长达到58分钟。短剧以其"短平快"的特点，填补了用户碎片化时间的娱乐需求。未来发展趋势包括：垂直领域精细化运营AI辅助内容生产互动式剧情发展跨
犀水家族办公室理财入门课程七：为什么我的基金一买进去就亏？犀水家族办公室
嗨大家好，老宋又来了，今天我们聊得深入一点，我们只聊一个问题，为什么你的基金一买就亏。很多小伙伴很爱学习，又是买书又是百度又是看视频，学习了很多筛选基金的办法，这指标那指标，什么三个月、半年、三年表现，阿尔法、贝塔一起上，自己在电脑面前精挑细选了一只基金，满怀希望买进去，结果一买进去就蹭蹭蹭下跌？是我智商有问题？其实乱买基金就是自己往火坑里面跳！什么？个股到处是坑，基金也有坑？大了去了，以前没听说
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
创客匠人：你做了那么多内容，为什么用户一来就走？老蒋新思维创始人IP 内容运营知识变现知识付费
上周看到一条新闻让我陷入沉思OpenAI联合微软和美国教师联盟，投资超过2亿美元，培训40万名老师如何使用AI做教学设计、内容评估、互动反馈。很多教育工作者因此实现了效率大幅提升，甚至可以在一周内设计出完整的教学路径。可你有没有发现，同样的“AI+内容”的浪潮，正在逼近我们这些做知识付费的人。你可能花了几个月时间搭建课程体系，录了几十个视频，也做了海报、社群、预热活动。你说：“我真的很努力了。”但
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
2018.6.19 廖忱瑶
第一次主持小组会。这是我的又一次突破！主持这个是从小以来从来不会去想的，逃避的，不敢面对的，躲在别人身后的事！最怕当众发言，让我发个言恨不得要了命似的。但是这次我做到了，做了我人生当中第一次主持人，虽然是个小型的视频会议主持，但是也算是突破了自己！今天把《干法》看完了，没来得及写心得和分享，明天把这两件事做完。晚上国胜助教问了我关于同学们的日记完成情况清不清楚，然后我在群里发起语音群聊，重点问了子
《梦界》何时何地爱梦的我
何时何地。夏日炎炎，多数人在这种时刻都是昏昏欲睡的。有些许的无聊，于是跑到学生的教室里和他们一起待着，孩子的精气神总是和年龄相关的。我趴在桌子上假装思考问题，大屏幕突然出现视频。内容看上去有些许的熟悉啊，这不就是我之前在教研室和老师们一起学习探讨的视频吗，怎么在这里。若是正常的研讨视频我也就不在意了，爱吃的我完全在视频里是从头吃到尾啊。若不是孩子们早知我的属性，怕是要笑话我吧，不过他们依旧是笑了。
碰一碰发视频、碰一碰写好评源码搭建技术开发，支持OEM贴牌 18538162800余+ 音视频矩阵线性代数
在移动互联网时代，便捷的交互体验成为吸引用户的关键。“碰一碰发视频”与“碰一碰写好评”功能借助近场通信（NFC）等技术，为用户带来了全新的操作体验，同时也为商家和内容创作者开辟了高效的推广与互动途径。本文将深入探讨这两项功能背后的技术开发要点。一、核心技术基础1.NFC近场通信技术NFC技术是实现碰一碰交互的基石。它基于ISO14443等协议，让设备在短距离（通常为10厘米以内）内进行安全的数据交
冯唐总结最俗成功十要素寄于心
脱不花知识短视频里刷到：一命二运三风水，四积阴德五读书，六名七相八敬神，九交贵人十养生。这是冯唐总结出来的一个人要取得成功最俗的十要素。一命就DNA基因。猪八戒再修炼也成不了孙悟空，这是基因决定的。二运是时机，就是我们有没有抓住关键的时机。运气它不是一个个人孤立的事件，而是有没有投身到一个关键的时代机遇里面去。三风水是指你有没有处在一个合适的环境当中，比如说行业，如果你在正确的时间处在了一个正确的
【k8s学习】Kubernetes新手学习，4小时视频笔记总结伊丽莎白2015
【学习视频地址】KubernetesTutorialforBeginnersFULLCOURSEin4Hours视频不一定打得开，不过我笔记也很详细了。【笔记内容】1-【k8s学习】Kubernetes学习——核心组件和架构2-【k8s学习】minikube、kubectl、yaml配置文件的介绍3-【k8s学习】在minikube上布署MongoDB和MongoExpress4-【k8s学习】k
U3复盘庄新妍
复盘1.从本单元中我学到的最重要的理念精读:ManagingPersonalFinances2.我在本片文章/音频/视频中学到的怦然心动的单词精读:entertainnotoriousimpulseprepaiddebitreloadallowancesparinglyornateresidencecomposerscorecopyistmisspendbeabouttogorgeousstrik
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方