Run_Feng

【入门篇】音视频基础知识

前言

说到视频，大家自己脑子里基本都会想起电影、电视剧、在线视频等等，也会想起一些视频格式 AVI、MP4、RMVB、MKV等等。
但是我们如果认真思考这些应该就有很多疑问，比如以下问题：

*  mp4 和 mkv有什么区别 ？
*  视频封装格式 和 解码格式 有什么区别？
*  什么是H.264 ？什么是 mpeg ？

等等很多疑问，我们不知道这些问题的答案是因为我们没有去了解他们背后的东西，下面我会给大家分享当初我学习时候的整理的一些知识。

一、光与颜色

1，光和颜色
光是一种肉眼可以看见（接受）的电磁波（可见光谱）。在科学上的定义，光有时候是指所有的电磁波。光是由一种称为光子的基本粒子组成。具有粒子性与波动性，或称为波粒二象性。

人类肉眼所能看到的可见光只是整个电磁波谱的一部分。电磁波之可见光谱范围大约为390～760nm（1nm=10-9m=0.000000001m）。
在这个世界如果没有光，我们就无法生存。

颜色是视觉系统对可见光的感知结果，研究表明人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞。红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同，对不同亮度的感知程度也不同。

自然界中的任何一种颜色都可以由R，G，B 这 3 种颜色值之和来确定，以这三种颜色为基色构成一个RGB 颜色空间。
颜色＝R(红色的百分比)＋G(绿色的百分比)＋B(蓝色的百分比)，只要其中一种不是由其它两种颜色生成，可以选择不同的三基色构造不同的颜色空间。

如图所示，适当的红光和绿光能合成黄光；适当的绿光和蓝光能合成青光；适当的蓝光和红光能合成品红色的光；而适当的红、绿、蓝三色光能合成白光。因此红、绿、蓝三种色光被称为色光的“三原色。”

2，颜色的度量
饱和度(saturation)
是相对于明度的一个区域的色彩，是指颜色的纯洁性，它可用来区别颜色明暗的程度。完全饱和的颜色是指没有渗入白光所呈现的颜色，例如仅由单一波长组成的光谱色就是完全饱和的颜色。
明度(brightness)
是视觉系统对可见物体辐射或者发光多少的感知属性。它和人的感知有关。由于明度很难度量，因此国际照明委员会定义了一个比较容易度量的物理量，称为亮度(luminance) 来度量明度，亮度(luminance)即辐射的能量。明度的一个极端是黑色(没有光)，另一个极端是白色，在这两个极端之间是灰色。
光亮度(lightness)
是人的视觉系统对亮度(luminance)的感知响应值，光亮度可用作颜色空间的一个维，而明度(brightness)则仅限用于发光体,该术语用来描述反射表面或者透射表面。

3，颜色空间

颜色空间是表示颜色的一种数学方法，人们用它来指定和产生颜色，使颜色形象化。颜色空间中的颜色通常使用代表三个参数的三维坐标来指定，这些参数描述的是颜色在颜色空间中的位置，但并没有告诉我们是什么颜色，其颜色要取决于我们使用的坐标。

下面介绍几种常见的颜色空间：

RGB:

用途：主要用来在LCD、CRT显示器上用的。

RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色。

目前的显示器大都是采用了RGB颜色标准，在显示器上，是通过电子枪打在屏幕的红、绿、蓝三色发光极上来产生色彩的。

电脑屏幕上的所有颜色，都由这红色绿色蓝色三种色光按照不同的比例混合而成的。一组红色，绿色，蓝色就是一个最小的显示单位。屏幕上的任何一个颜色都可以由一组RGB值来记录和表达。

显像管内电子枪射出的三个电子束，它们分别射到屏上显示出红、绿、蓝色的荧光点上，通过分别控制三个电子束的强度，可以改变三色荧光点的亮度。由于这些色点很小又靠得很近，人眼无法分辨开来，看到的是三个色点的复合．即合成的颜色。

以RGB24为例，图像像素数据的存储方式如下:

RGB的格式：

RGB16 RGB24 RGB32 等等这些到底格式有什么区别呢？

总的来说区别就是一个像素所使用的位数不同，显示出来的色彩丰富度不同，位数越大，色彩越丰富。

计算机使用的都是二进制，因此所有的数量级都是建立在二进制的基础上的，无论是存储空间，运算速度，文件大小等等。
如果要表示颜色，每一个对应的颜色都需要一个二进制代码来表示，

使用8位的二进制，可以表示 2^8 （2的8次方），也就是256种色彩。
使用16位的二进制，可以表示 2^16 （2 的16次方），也就是65536种色彩。
使用24位的二进制，可以表示 2^24 （2的24次方），也就是16,777,216种色彩。

一般称24bit以上的色彩为真彩色，当然还有采用30bit、36bit、42bit的。使用的色彩代码越长，同样像素的文件的文件大小也就相应的成幂次级增长。使用超过16位以上的色彩文件在普通的显示器，尤其是液晶显示器上看不出任何区别，原因是液晶显示器本身不能显示出那么多的色彩。但是对于彩色印刷就非常有用，因为油墨的点非常的细，同时由于印刷尺幅的放大原因，更大的文件可以在印刷的时候呈现出更细腻的层次和细节。

YUV：

用途：主要用于视频信号的压缩、传输和存储，和向后相容老式黑白电视。

在生理学中，有一条规律，那就是人类视网膜上的视网膜杆细胞要多于视网膜锥细胞，说得通俗一些，视网膜杆细胞的作用就是识别亮度，而视网膜锥细胞的作用就是识别色度。所以，人眼对亮度分辨率的敏感度高于对色彩分辨率的敏感度

从上图我们可以看出，我们更容易识别去除色彩的图像，而对于单独剥离出的只有色彩的图像，不好识别。

YUV色彩模型就是利用这个原理，把亮度与色度分离，根据人对亮度更敏感些，增加亮度的信号，减少颜色的信号，以这样“欺骗”人的眼睛的手段来节省空间，从而适合于图像处理领域。

YUV三个字母中，其中"Y"表示明亮度（Lumina nce或Luma），也就是灰阶值；而"U"和"V"表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。

使用YUV的优点有两个:
一、彩色YUV图像转黑白YUV图像。
如果只有Y信号分量而没有U、V分量，那么这样表示的图像就是黑白灰度图像。因此可兼容老式黑白电视。

二、YUV是数据总尺寸小于RGB格式。
因为YUV，可以增加亮度的信号，减少颜色的信号，用于减少体积。

YCbCr ：

在技术文档里，YUV经常有另外的名字, YCbCr ,其中Y与YUV 中的Y含义一致，Cb , Cr 同样都指色彩，只是在表示方法上不同而已，Cb Cr 就是本来理论上的“分量/色差”的标识。C代表分量(是component的缩写)Cr、Cb分别对应r(红)、b(蓝)分量信号，Y除了g(绿)分量信号，还叠加了亮度信号。

YCbCr模型来源于YUV模型，算是YUV的压缩版本，不同之处在于Y'CbCr用于数字图像领域，YUV用于模拟信号领域，MPEG、DVD、摄像机中常说的YUV其实是Y'CbCr。

其中Y与YUV 中的Y含义一致，Cb , Cr 同样都指色彩,，只是在表示方法上不同而已，Cb Cr 就是本来理论上的“分量/色差”的标识。C代表分量(是component的缩写)Cr、Cb分别对应r(红)、b(蓝)分量信号，Y除了g(绿)分量信号，还叠加了亮度信号。

在YUV 家族中, YCbCr 是在计算机系统中应用最多的成员, 其应用领域很广泛,JPEG、MPEG均采用此格式。一般人们所讲的YUV大多是指YCbCr。

YCbCr 有许多取样格式, 如4∶4∶4 , 4∶2∶2 , 4∶1∶1 和4∶2∶0：

**4:4:4 **

YUV三个信道的抽样率相同，因此在生成的图像里，每个象素的三个分量信息完整。

**4:2:2 **

每个色差信道的抽样率是亮度信道的一半，所以水平方向的色度抽样率只是4:4:4的一半

4:1:1

4:1:1的色度抽样，是在水平方向上对色度进行4:1抽样。对于低端用户和消费类产品这仍然是可以接受的。

4:2:0

4:2:0并不意味着只有Y，Cb而没有Cr分量。它指得是对每行扫描线来说，只有一种色度分量以2:1的抽样率存储。相邻的扫描行存储不同的色度分量，也就是说，如果一行是4:2:0的话，下一行就是4:0:2，再下一行是4:2:0...以此类推。对每个色度分量来说，水平方向和竖直方向的抽样率都是2:1，所以可以说色度的抽样率是4:1。对非压缩的8比特量化的视频来说，每个由2x2个2行2列相邻的像素组成的宏像素需要占用6字节内存。

4，颜色空间的转换：
不同颜色可以通过一定的数学关系相互转换：

RGB转YUV：
Y = (0.257 * R) + (0.504 * G) + (0.098 * B) + 16
Cr = V = (0.439 * R) - (0.368 * G) - (0.071 * B) + 128
Cb = U = -( 0.148 * R) - (0.291 * G) + (0.439 * B) + 128

YUV转RGB：
B = 1.164(Y - 16) + 2.018(U - 128)
G = 1.164(Y - 16) - 0.813(V - 128) - 0.391(U - 128)
R = 1.164(Y - 16) + 1.596(V - 128)

二、电视制式

1，介绍

电视信号的标准简称制式，可以简单地理解为用来实现电视图像或声音信号所采用的一种技术标准，就是用来实现电视图像信号和伴音信号，或其它信号传输的方法，和电视图像的显示格式，以及这种方法和电视图像显示格式所采用的技术标准。

只有遵循一样的技术标准，才能够实现电视机正常接收电视信号、播放电视节目。就像电源插座和插头，规格一样才能插在一起，中国的插头就不能插在英国规格的电源插座里，只有制式一样，才能顺利对接。

严格来说，电视制式有很多种，对于模拟电视，有黑白电视制式，彩色电视制式，以及伴音制式等。

目前世界上现行的彩色电视制式有三种：NTSC 制、PAL 制和SECAM 制。
中国大部分地区使用PAL制式，日本、韩国及东南亚地区与美国等欧美国家使用NTSC制式，俄罗斯则使用SECAM制式。

2，制式说明

NTSC电视标准：
NTSC电视标准主要用于美、日等国家和地区。

NTSC电视标准的特性：
（1） 525 行/帧，每秒29.97帧（简化为30帧）
（2）电视扫描线为525线。
（3）隔行扫描，一帧分成2 场(field)，262.5 线/场
（4）24比特的色彩位深。
（5）高宽比：电视画面的长宽比(电视为4:3；电影为3:2；高清晰度电视为16:9)
（6）场频为每秒60场( 帧数30 * 2 = 60 )
它是1952年由美国国家电视标准委员会指定的彩色电视广播标准，它采用正交平衡调幅的技术方式，故也称为正交平衡调幅制。

优点是电视接收机电路简单，缺点是容易产生偏色，因此NTSC制电视机都有一个色调手动控制电路，供用户选择使用；

PAL电视标准：
PAL电视标准主要用于中国、欧洲等国家和地区。

PAL电视标准的特性

（1）625 行(扫描线)/帧，每秒25帧.
（2）电视扫描线为625线
（3）隔行扫描，2 场/帧，312.5 行/场
（4）24比特的色彩位深
（5）画面的宽高比为4：3。
（6）场频为每秒50场( 帧数25 * 2 = 50 )
它是西德在1962年指定的彩色电视广播标准，它采用逐行倒相正交平衡调幅的技术方法，克服了NTSC制相位敏感造成色彩失真的缺点。

SECAM电视标准：
SECAM是法文的缩写，意为顺序传送彩色信号与存储恢复彩色信号制，是由法国在1956年提出，1966年制定的一种新的彩色电视制式。它也克服了NTSC制式相位失真的缺点，但采用时间分隔法来传送两个色差信号。

PAL制式和SECAM制式可以克服NTSC制容易偏色的缺点，但电视接收机电路复杂，要比NTSC制电视接收机多一个一行延时线电路，并且图像容易产生彩色闪烁。

因此三种彩色电视制式各有优缺点，互相比较结果，谁也不能战胜谁，所以，三种彩色电视制式互相共存已经五十多年。

三、照相机与摄像机

视频最早是由摄像机拍摄的制作而成的，摄像机的发明又是在照相机的基础之上的，所以说在这里，就不得简单说明下照相机与摄像机。

1，照相机基本原理
现实中照相机和摄像机的成像原理都是基于小孔成像为基础的。

我们知道，光在同一均匀介质中、不受引力作用干扰的情况下，沿直线传播；因此它在遇到阻隔物上的孔洞时会穿过它，并能在孔后一定距离内的对应平面上投射出一个倒立的实影；只要投影面周围的环境足够暗，影像就能被人眼所观看到。相信学生时代，大家都曾在自然常识课上做过“小孔成像”的试验，老师也肯定提到过这一原理与相机之间密不可分的关联；

照相技术的发明者正是利用光的这一的特性与传递原理，以光子为载体，把某一瞬间被摄景物的光信息以能量方式通过设在相机上“孔洞”传递给后方的感光材料。

照相机的基本工作原理就是——将景物影像通过光线的各种传播特性准确地聚焦在具有感光能力的成像平面上，通过各种辅助手段控制光线的流量，从而获得符合用户要求的影像画面，最后通过不同的手段保存下来。

最早的照相机结构十分简单，仅包括暗箱、镜头和感光材料。
现代照相机比较复杂，具有镜头、光圈、快门、测距、取景、测光、输片、计数、自拍等系统，是一种结合光学、精密机械、电子技术和化学等技术的复杂产品。

2，摄像机的发明过程
摄像机的发明，起源于一个有趣的故事。

1872年的一天，在美国加利福尼亚州一个酒店里，斯坦福与科恩发生了激烈的争执：马奔跑时蹄子是否都着地？斯坦福认为奔跑的马在跃起的瞬间四蹄是腾空的；科恩却认为，马奔跑时始终有一蹄着地。争执的结果谁也说服不了谁，于是就采取了美国人惯用的方式打赌来解决。他们请来一位驯马好手来做裁决，然而，这位裁判员也难以断定谁是谁非。这很正常，因为单凭人的眼睛确实难以看清快速奔跑的马蹄是如何运动的。

于是富翁请来了英国摄影师爱德华.麦布里奇来作实验。麦布里奇把24架照相机的快门连上24根线，在极短的时间里，使照相机依次拍下24张照片，再将这些照片一张一张地依次按次序看下去，以便观察马儿是怎么样跃进的，又是怎么样着地的。为了这一实验，麦布里奇和助手们吃尽了苦头，付出了大量的劳动，历时六年的工夫，终于拍出了一套宝贵的"马跑小道"的珍贵资料，同时也证实了这个美国富翁的预言是正确的。然而，麦布里奇的成功又向人们提出了一个新的问题：如何解决连续摄影的问题，因为他用24架照相机仅仅只能拍摄奔马的一段动作，如果奔马跑一公里的长距离，就得用成千上万架照相机，胶卷的长度将会绕地球一周了。所以，如何运用一架单镜头的摄影机来代替多镜头的摄影机或者一组摄影机，就成了解决连续摄影的关键问题。

1874年，法国的朱尔·让桑发明了一种摄影机。他将感光胶片卷绕在带齿的供片盘上，在一个钟摆机构的控制下，供片盘在圆形供片盒内做间歇供片运动，同时钟摆机构带动快门旋转，每当胶片停下时，快门开启曝光。让桑将这种相机与一架望远镜相接，能以每秒一张的速度拍下行星运动的一组照片。让桑将其命名为摄影枪，

这就是现代摄影机的始祖。

3，视频经过哪些步骤，存储到计算机中？

（1）成像
主要靠镜头来完成，拍摄主体反射的光线通过镜头进入相机后聚焦，形成清晰图像。

（2）光电转换
图像落在CCD/CMOS光电器材上，通过光电转换形成电信号。

（3）记录

经处理器加工，进行编码压缩，然后把信号记录在磁带或存储卡上。

四、声音

1，声音介绍

声音：
声音是一种物理现象。物体振动时产生声波通过空气传到人们的耳膜经过大脑的反射被感知为声音。

声音有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。

声音以波的形式振动（震动）传播，声音作为一种波，频率在20 Hz~20 kHz之间的声音是可以被人耳识别的。

音的高低：是由于物体在一定时间内的振动次数频率而决定的。振动次数多音则高，振动次数少音则低。

音的长短：是由于音的延续时间的不同而决定的，音的延续时间长音则长，音的延续时间短音则短。

音的强弱：是由于振幅音的振动的幅度的大小决定的。振幅大音则强振幅小音则弱。

音色：即声音的特色是由发声体的材料、结构以及泛音的多少决定的。

种类：

按照频率分类：
频率低于20Hz的声波称为次声波；
频率在 20Hz~20kHz的声波称为可闻声；
频率在 20kHz~1GHz的声波称为超声波；
频率大于1GHz的声波称为特超声或微波超声。

2，声音存储的发展，从 “模拟录音” 到 “数字录音”

谈到录音，不得不谈到爱迪生发明的现代录音设备的鼻祖：留声机。

留音机最初是1877年伟大的世界发明大王爱迪生发明的，在一次调试话筒时因为听力不好，爱迪生用一根针来检验传话膜的震动，不料针接触到话膜后随着声音的强弱变化产生一种有规律的颤动，而这一现象就成了他发明的灵感。

因为我们都知道，发送和接受是两个相对应的过程。说话的快慢高低能使短针发生相应的不同颤动，那么反过来，这种颤动也能发出原来的说话声音，可以将声波变换成金属针的震动，然后将波形刻录在圆筒形腊管的锡箔上。当针再一次沿着刻录的轨迹行进时，便可以重新发出留下的声音。于是他就用这一原理制作出了他的第一台留音机。

随着历史的发展慢慢经过了：
机械录音（以留声机、机械唱片为代表）----- 光学录音（以电影胶片为代表）----- 磁性录音（以磁带录音为代表）等模拟录音方式，直到二十世纪七、八十年代逐渐开始进入了数字录音（数字音频）的时代。

3，数字音频
什么是音频？
音频（Audio）指人能听到的声音包括语音、音乐和其它声音如环境声、音效声、自然声等。

为什么要存在数字音频？
由物理学可知，复杂的声波由许许多多具有不同振幅和频率的正弦波组成。代表声音的模拟信息是个连续的量，不能由计算机直接处理，必须将其数字化。
经过数字化处理之后的数字声音信息能够像文字和图形信息一样进行存储、检索、编辑和其它处理。

什么是数字音频？
数字音频是指使用数字编码的方式也就是使用0和1来记录音频信息，它是相对于模拟音频来说的。

在CD光盘和计算机技术未出现之前都是模拟音频（如录音带），其中数字/模拟转换器简称：DAC、模拟/数字转换器简称：ADC.

我们知道声音可以表达成一种随着时间的推移形成的一种波形：

但是如果想要直接描述这样的一个曲线存储到计算机中，是没有办法描述的。
假如描述也只能是这样表达：曲线下去了，上去了，又下去了，又上去了，显然这样是很不合理的。
人们想到了一个办法：

每隔一个小小的时间间隔，去用尺子量一下这个点的位置在哪里。

那么只要这个间隔是一定的,我们就可以把这个曲线描述成：{9,11,12,13,14,14,15,15,15,14,14,13,12,10,9,7...}

这样描述是不是比刚才的方法要精确多了？如果我们把这个时间间隔取得更小，拿的尺子越精确，那么测量得到的，用来描述这个曲线的数字也可以做到更加地精确。

然后我们可以把这些电平信号转化成二进制数据保存，播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出，就可以了。

用专业的术语来说，我们每两次测一下位置的时间间隔，就是所谓的采样率。采样率等于多少，就意味着我们每秒钟进行了多少次这样的测量。所谓音质，就是指最后我们描述这个曲线的数字，到底和真实的曲线误差有多大。

数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言，它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。

4，从“模拟信号”到“数字化”的过程：

模拟信号到数字化的过程需要三个步骤：

（1）采样：
所谓采样，即以适当的时间间隔观测模拟信号波形不连续的样本值替换原来的连续信号波形的操作，又称为取样。

采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富。

采样的基本定理：为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样。

（2）量化：
在数字音频技术中，把表示声音强弱的模拟电压用数字表示，如0.5V电压用数字20表示，2V电压是80表示。模拟电压的幅度，即使在某电平范围内，仍然可以有无穷多个，如1.2V,1.21V,1.215V…。而用数字来表示音频幅度时，只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示，这称之为量化。

（3）编码：　
计算机内的基本数制是二进制，为此我们也要把声音数据写成计算机的数据格式，这称之为编码。

5，数字音频的分类：

数字音频主要包括两类：波形音频和 MIDI音频：

** 波形音频：**
波形音频文件是通过声音录入设备录制的原始声音，直接记录了原始真实声音信息的数据文件，通常文件较大。

MIDI音频：
译作乐器数字化接口，是为了把电子乐器与计算机相连而制定的一个规范，是数字音乐的国际标准。数字式电子乐器的出现，为计算机处理音乐创造了极为有利的条件。MIDI声音与数字化波形声音完全不同，它不是对声波进行采样、量化和编码，而是将电子乐器键盘的弹奏信息记录下来，包括键名、力度、时值长短等，这些信息称之为MIDI消息，是乐谱的一种数字式描述。当需要播放时，只需从相应的MIDI文件中读出MIDI消息，生成所需要的乐器声音波形，经放大后由扬声器输出。

五、视频相关专业术语

（1）视频：
连续的图象变化每秒超过24帧（Frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。r

（2）帧(Frame)：
是影像中常用的最小单位，相当于电影中胶片的每一格镜头，一帧就是一副静止的画面，连续的帧就形成了视频。

（3）帧速率（FPS）：
每秒钟所传输图片的个数，也可以理解为处理器每秒刷新的次数，通常用FPS标识，当然帧数越高，画面也就越流畅。

（4）转码：
指将一段多媒体包括音频、视频或者其他的内容从一种编码格式转换成为另外一种编码格式。
（原视频 -- 解码 -- 像素数据 -- 编码 -- 目标视频）
（原音频 -- 解码 -- 音频数据 -- 编码 -- 目标音频）

（5）视频编码：
讲到视频编码，大家可能都会问为什么视频要编码？
--- 要知道，采集的原始音视频信号体积都非常大，里面有很多相同的、眼看不到的、耳听不到的内容，比如，如果视频不经过压缩编码的话，体积通常是非常大的，一部电影可能就要上百G的空间。

--- 专业的来说，视频编码也就是文件当中的视频所采用的压缩算法，视频编码的主要作用是将视频像素数据（RGB，YUV等）压缩成为视频码流，从而降低视频的数据量。

（6）视频解码：
有了编码，当然也需要有解码。
因为压缩（编码）过的内容无法直接使用，使用（观看）时必须解压缩，还原为原始的信号（比如视频中某个点的颜色等），这就是“解码“或者”解压缩“。

（7）采样频率：
指录音设备在一秒钟内对声音信号的采样次数，它用赫兹（Hz）来表示，比如44.1KHz采样率的声音就是要花费44000个数据点来描述1秒钟的声音波形。原则上采样率越高，声音质量越好。

在数字音频领域，常用的采样率有：

（8）采样位数:
表示了计算机度量声音波形幅度（音量）的精度，就是通常所说的声卡的位数。

就像表示颜色的位数一样（8位表示256种颜色，16位表示65536种颜色），有8位，16位，24位等。这个数值越大，解析度就越高，录制和回放的声音就越真实。

每一个采样点都需要用一个数值来表示大小，这个数值的数据类型大小可以是：8bit、16bit、32bit 等等，位数越多，表示得就越精细，声音质量自然就越好，而数据量也会成倍增大。我们在音频采样过程中常用的位宽是 8bit 或者 16bit。

（9）比特率（码率）：
表示单位时间（1秒）内传送的比特数，一般我们用的单位是kbps，其英文是 Kilobits per second，意即“千位每秒”（根据发音亦译作“千比特每秒”），意思是说每过一秒钟，有多少千比特的数据流过，因此码率也经常被称为“比特率”。

--- 音频中 码率：就是音频文件或者音频流中1秒中的数据量，如1.44Mbps，就是1秒钟内的数据量1.44Mbits 。码率越高，传送的数据越大，音质越好，
声音比特率 = 采样率（Hz） x 采样位数（bit） x 声道数.

--- 视频中 码率：原理与声音中的相同，都是指由模拟信号转换为数字信号后，单位时间内的二进制数据量，通俗来讲就是把每秒显示的图片进行压缩后的数据量。
视频比特率（位/秒）= (画面尺寸彩色位数（bit）帧数)**

假设有一张标准音乐CD光盘容量是746.93MB（注意大B是字节，小b是位。一字节（B）等于8位（b）。）

CD音频是以采样率为44.1KHZ，采样位数为16位，左右双声道（立体声）进行采样的。而一张标准CD光盘的时长是74分钟。

那么容量计算公式为：(44100 x 16 x 2)/8 x (74 x 60)=783216000字节转为MB为 783216000/1024/1024=746.93MB(兆字节)

（9）场频：
场频又称为刷新频率，即显示器的垂直扫描频率，指显示器每秒所能显示的图象次数，单位为赫兹(Hz)。

一般在60-100Hz左右场频也叫屏幕刷新频率，指屏幕在每秒钟内更新的次数。

人眼睛的视觉暂留约为每秒16-24次左右，因此只要以每秒30次或更短的时间间隔来更新屏幕画面，就可以骗过人的眼睛，让我们以为画面没有变过。

实际上每秒30次的屏幕刷新率所产生的闪烁现象我们的眼睛仍然能够察觉从而产生疲劳的感觉。所以屏幕的场频越高，画面越稳定，使用者越感觉舒适。

另外：荧光屏上涂的是中短余辉荧光材料，如果电子枪不进行不断的反复“点亮”、“熄灭”荧光点的话，就会导致图像变化时前面图像的残影滞留在屏幕上。

一般屏幕刷新率场频在每秒75次以上人眼就完全觉察不到了，所以建议场频设定在75Hz-85Hz之间，这足以满足一般使用者的需求了。

场频越大，图象刷新的次数越多，图象显示的闪烁就越小，画面质量越高。注意，这里的所谓“刷新次数”和我们通常在描述游戏速度时常说的“画面帧数”是两个截然不同的概念。后者指经电脑处理的动态图像每秒钟显示显像管电子枪的扫描频率。

场频与图像内容的变化没有任何关系，即便屏幕上显示的是静止图像，电子枪也照常更新。扫描频率过低会导致屏幕有明显的闪烁感，即稳定性差，容易造成眼睛疲劳。早期显示器通常支持60Hz的扫描频率，但是不久以后的调查表明，仍然有5%的人在这种模式下感到闪烁，因此VESA组织于1997年对其进行修正，规定85Hz逐行扫描为无闪烁的标准场频。

常见疑问：

（1）为什么视频需要压缩？
未经压缩的数字视频的数据量巨大，存储困难，一张DVD只能存储几秒钟的未压缩数字视频。

如果不进行压缩，1兆的带宽传输一秒的数字电视视频需要大约4分钟。

（2）为什么常见的CD，都是为44.1kHz ？
人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，但是为什么大部分都是44.kHz 呢.

最开始，人们采用录像带当做数码设备当时世界上录像机主要有两大制式：欧洲的PAL制式和美国日本的NTSC制式。适用于PAL制式录像机的编码器，其采样频率就是44.1kHz。适用于NTSC制式录像机的编码器，其采样频率就是44.056 ，后来统一到44.1kHz了。

当时PAL 制式的录像机：3个采样点 x 245条扫描线 x 60Hz场频（ 3 x 245 x 60 = 44100）
** --- 总的来说就是历史原因 --- **

（2）奈魁斯特（NYQUIST）采样定理是？
用2倍于一个正弦波的频率进行采样就能完全真实地还原该波形，因此一个数码录音波的采样频率的取值直接关系到它的最高还原频率指标。
例如用44.1KHZ的采样频率进行采样，则可还原为最高22.05KHZ的频率——这个数值略高于人耳的听觉极限。

（3）无损压缩和有损压缩的区别是什么？
有损压缩：相当于一本书页数特别多，文字特别多，加入我们把书中修饰词去掉，啰嗦的情节去掉，虽然去掉这些，但是核心思想还没变，这就是类似于有损压缩。

无损压缩：相当于一本书特别长，我们把里面重复出现的人名，地名，用符号代替，然后书中标注上所有这些符号所代表的人名或地名，这样就短了些，这种就类似于无损压缩。

六、视频的构成

一个完整的视频文件是由 音频和视频2部分组成的，而视音频又是由 封装格式和编码格式构成，我们在表面看到的如AVI、RMVB、MKV、WMV、MP4、3GP、FLV等文件其实只能算是一种封装标准，一个外壳。

外壳里面核心还有一层是编码文件，编码文件经过封装后，才成为我们现在看到的.mp4 .avi等视频。如H.264、mpeg-4等就是视频编码格式, MP3、AAC等就是音频编码格式。

例如：将一个H.264视频编码文件和一个MP3视频编码文件按AVI封装标准封装以后，就得到一个AVI后缀的视频文件，这个就是我们常见的AVI视频文件了。

部分技术先进的容器还可以同时封装多个视频、音频编码文件，甚至同时封装进字幕，如MKV封装格式。MKV文件可以做到一个文件包括多语种发音、多语种字幕，适合不同人的需要。

1，封装格式

 （1）封装格式（也叫容器）就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中，也就是说仅仅是一个外壳，可以把它当成一个放视频轨和音频轨的文件夹也可以。
 （2）通俗点说视频轨相当于饭，而音频轨相当于菜，封装格式就是一个碗，或者一个锅，用来盛放饭菜的容器。
 （3）封装格式和专利是有关系的，关系到推出封装格式的公司的盈利。
 （4）有了封装格式，才能把字幕，配音，音频和视频组合起来。
 （5）常见的AVI、RMVB、MKV、ASF、WMV、MP4、3GP、FLV等文件都指的是一种封装格式。

举例MKV格式的封装：

2，编码格式

编码格式指的是对封装格式中视频流数据的压缩编码方式的一种描述。
视频不进行压缩的话，体积会非常大。

视频压缩，主要压缩了哪些东西：
空间冗余：图像相邻像素之间有较强的相关性
时间冗余：视频序列的相邻图像之间内容相似
编码冗余：不同像素值出现的概率不同
视觉冗余：人的视觉系统对某些细节不敏感
知识冗余：规律性的结构可由先验知识和背景知识得到

常见的编码格式有以下
视频编码格式：

音频编码格式：

国际上制定视频编解码技术的组织有两个：
1，“国际标准化组织（ISO）” 它制定的标准有MPEG-1、MPEG-2、MPEG-4 等。
视频编码：

（1）MPEG-1 :

制定于1993年，较早的视频编码，质量比较差，它是为CD光盘介质定制的视频和音频压缩格式。

主要用于 CD-ROM 存储视频，国内最为大家熟悉的就是 VCD（Video CD），他的视频编码就是采用 MPEG-1。

MPEG-1的压缩算法可以把一部 120 分钟长的电影（原始视频文件）压缩到1.2 GB左右大小.（*.dat格式的文件）

MPEG-1音频分三层，就是MPEG-1 Layer I, II, III，其中第三层协议也就是MPEG- 1 Layer 3，简称MP3。MP3目前已经成为广泛流传的音频压缩技术。

缺点：

1个音频压缩系统限于两个通道（立体声）
没有为隔行扫描视频提供标准化支持，且压缩率差
只有一个标准化的“profile” （约束参数比特流），不适应更高分辨率的视频。MPEG - 1可以支持4k的视频，但难以提供更高分辨率的视频编码并且标识硬件的支持能力。
支持只有一个颜色空间，4:2:0。

（2）MPEG-2 :

制定于1994年，通常用来为广播信号提供视频和音频编码，包括卫星电视、有线电视等。MPEG-2经过少量修改后，也成为DVD产品的内核技术。

使用MPEG-2的压缩算法制作一部 120 分钟长的电影（原始视频文件）在4GB到8GB大小左右.（*.vob格式的文件）

（3）MPEG-3 ：

原本目标是为高解析度电视（HDTV）设计，随后发现MPEG-2已足够HDTV应用，故 MPEG-3的研发便中止。

（4）MPEG-4 :

公布于1998年，为了应对网络传输等环境，传统的 MPEG-1/2 已经不能适应，所以促使了 MPEG-4 的诞生，
MPEG-4，主要用途在於網上流媒体、光碟、語音傳送（視訊電話），以及電視廣播。

MPEG-4 不仅是针对一定比特率下的视频、音频编码，更加注重了多媒体系统的交互性和灵活性。利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最少的数据获得最佳的图像质量。

MPEG-4代表了基于模型/对象的第二代压缩编码技术，它充分利用了人眼视觉特性，抓住了图像信息传输的本质，从轮廓、纹理思路出发，支持基于视觉内容的交互功能，这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。

2，“国际电联（ITU-T）” 它制定的标准有H.261、H.263、H.263+ 等。
视频编码：

（1）H.261 :

约1990年制定，是最早的运动图像压缩标准，它详细制定了视频编码的各个部分, 主要在老的视频会议和视频电话产品中使用，它是第一个实用的数字视频编码标准。

H.261的设计相当成功，之后的视频编码国际标准基本上都是基于 H.261相同的设计框架，包括 MPEG-1，MPEG-2／H.262，H.263，甚至 H.264 。

（2）H.263 :

约1996年制定 H.263的编码算法与H.261一样，但做了一些改善和改变，以提高性能和纠错能力。

（3）H.264:

H.264等同于MPEG-4的第10部.

H.264/AVC是两大组织集合H.263+和Mpeg4的优点联合推出的最新标准，更高的数据压缩比。在同等的图像质量条件下，H.264的数据压缩比能比H.263高2倍，比MPEG-4高1.5倍, 举个例子，原始文件的大小如果为88GB，采用MPEG-2压缩标准压缩后变成3.5GB，压缩比为25∶1，而采用H.264压缩标准压缩后变为879MB，从88GB到879MB，H.264的压缩比达到惊人的102∶1。

（ITU-T给这个标准命名为H.264（以前叫做H.26L）, 而ISO/IEC称它为MPEG-4 AVC 高级视频编码（Advanced Video Coding，AVC）,并且它将成为MPEG-4标准的第10部分）

从H.261视频编码建议，到H.262/3、MPEG-1/2/4等都有一个共同的不断追求的目标，即在尽可能低的码率（或存储容量）下获得尽可能好的图像质量。

3，视频编码的发展历史

4，常见视频封装格式介绍

(1) AVI：
即Audio Video Interleaved(音频视频交错格式)，由微软在 1992年11月推出的一种多媒体文件格式，用于对抗苹果Quicktime的技术。现在所说的AVI多是指一种封装格式。

AVI格式上限制比较多，只能有一个视频轨道和一个音频轨道（现在有非标准插件可加入最多两个音频轨道），还可以有一些附加轨道，如文字等。AVI格式不提供任何控制功能。
特点：兼容性好、跨平台支持、恒定帧率，体积大、容错性差，不是流媒体，已经过时。

(2) MKV：
它是一种新的多媒体封装格式，是一种万能的封装容器，这个封装格式可把多种不同编码的视频及16条或以上不同格式的音频和语言不同的字幕封装到一个Matroska Media档内。
特点：支持多音轨、软字幕、流式传输、强大的兼容性，能够在一个文件中容纳无限数量的视频、音频、图片或字幕轨道，任何视频编码文件都可以放入MKV 。

(3) MP4：
MP4是比较新的封装格式，但是相对于万能的MKV，功能逊色一些，但是对于目前的非电脑平台，可移植性较好。
特点：体积最小，清晰度高、流式传输、强大的兼容性，手机平板等众多终端支持。

(4) MOV：
MOV是Apple公司开发的QuickTime音频、视频文件封装格式, 默认的播放器是苹果的QuickTime 。

MOV具有较高的压缩比率和较完美的视频清晰度等特点，但是其最大的特点还是跨平台性，即不仅能支持MacOS，同样也能支持Windows系列。

MOV采用了有损压缩方式的MOV格式文件，画面效果较AVI格式要稍微好一些。
特点：与AVI同期推出，比较老，不流行。

(5) RM：
Real Networks公司所制定的音频/视频压缩规范Real Media中的一种，Real Player能做的就是利用Internet资源对这些符合Real Media技术规范的音频/视频进行实况转播。

在Real Media规范中主要包括三类文件：RealAudio、Real Video和Real Flash （Real Networks公司与Macromedia公司合作推出的新一代高压缩比动画格式）。REAL VIDEO （RA、RAM）格式由一开始就是定位就是在视频流应用方面的，也可以说是视频流技术的始创者。

(6) RMVB
RealMedia可变比特率（RMVB）是RealNetworks公司开发的RealMedia多媒体数字容器格式的可变比特率（VBR）扩展版本，较上一代RM格式画面要清晰很多，原因是降低了静态画面下的比特率。

它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式，在保证平均压缩比的基础上合理利用比特率资源，就是说静止和动作场面少的画面场景采用较低的编码速率，这样可以留出更多的带宽空间，而这些带宽会在出现快速运动的画面场景时被利用。这样在保证了静止画面质量的前提下，大幅地提高了运动图像的画面质量，从而图像质量和文件大小之间就达到了微妙的平衡。

(7) WMV
.WMV文件其实不是一个封装格式。
WMV（Windows Media Video）是微软公司开发的一组数字视频编解码格式的通称，它是Windows Media架构下的一部分。

具体的这些，大家可以私下去查询下。

微软也开发了一种称之为ASF（Advanced Systems Format）的数字容器格式，用来保存WMV的视频编码。在同等视频质量下，WMV格式的文件可以边下载边播放，因此很适合在网上播放和传输。

(8) ASF：
用于微软WMA和WMV的标准容器。

ASF (Advanced Streaming format高级流格式), ASF是MICROSOFT 为了和现在的 Real player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。

ASF使用了MPEG4的压缩算法，压缩率和图像的质量都很不错。因为ASF是以一个可以在网上即时观赏的视频“流”格式存在的，所以它的图像质量比VCD差一点点并不出奇，但比同是视频“流”格式的RAM格式要好。

(9) FLV:
Flash Video（简称FLV）是由Macromedia公司开发的属于自己的流式视频格式，FLV也就是随着Flash MX的推出发展而来的视频格式，是在sorenson公司的压缩算法的基础上开发出来的。

FLV格式不仅可以轻松的导入Flash中，速度极快，并且能其到保护版权的作用，并且可以不通过本地的微软或者REAL播放器播放视频。Flash MX 2004对其提供了完美的支持，它的出现有效地解决了视频文件导入Flash后，使导出的SWF文件体积庞大，不能在网络上很好的使用等缺点。

由于它形成的文件极小、加载速度极快，使得网络观看视频文件成为可能，它的出现有效地解决了视频文件导入Flash后，使导出的SWF文件体积庞大，不能在网络上很好的使用等缺点。
特点：视频质量良好、体积小、在线播放、非常普及。

(10) 蓝光BD封装:
大容量光碟格式，容量分为25G-100G，BD的主视频文件为m2ts封装格式，用Remux无损的提取BD文件为TS封装格式可用PC播放。
特点：体积超大、超高清格式、声道、字幕可选择

5，音频编码与封装格式介绍

PCM ：是一种的很基本的编码方式，虽然简单，但是好用，它被称为无损编码，也就是模拟信号转成数字信号不压缩，只转换，就是经过话筒录音后直接得到的未经压缩的数据流，对于音频来说，CD就是采用PCM编码。

有损压缩格式：

MP3（MPEG Audio Layer3）：
一个有损数据压缩格式，它丢弃掉脉冲编码调制（PCM）音频数据中对人类听觉不重要的数据，从而达到了小得多的文件大小。它是目前最为普及的音频压缩格式，常用于互联网上的高质量声音的传输，MP3可以做到12:1的惊人压缩比并保持基本可听的音质。

AAC (高级音频编码)：
出现于1997年，是基于MPEG-2的音频编码技术，由Fraunhofer IIS、杜比、苹果**、AT&T、索尼等公司共同开发，是在MP3基础上开发出来，，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC，AAC可以在对比MP3文件缩小30%的前题下提供更好的音质。

WMA (Windows Media Audio)：
是微软开发的一种数字音频压缩格式,WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18,生成的文件大小只有相应MP3文件的一半。

无损压缩格式：
WAV ： 是微软公司开发的一种声音文件格式，是音乐由物理介质（CD碟）转换为数字形式所得到的声音文件，是最早的数字音频格式，被Windows平台及其应用程序广泛支持, WAV是最接近无损的音乐格式，所以文件大小相对也比较大。
（WAV格式对存储空间需求太大不便于交流和传播）

FLAC ：无损音频压缩编码，它不会破坏任何原有的音频信息，所以可以还原音乐光盘音质，基本上能节省wav 40%的码率，FLAC相对于同类如APE，在处理遇到爆音处时会静音处理，并且相比APE的解码复杂程度要较低（解码运算量小、只需要整数运算），解码速度奇快，容错高，不容易损坏。

APE ：APE这类无损压缩格式，同样不会破坏任何音频信息, 相较同类文件格式FLAC，特色是压缩率约为55%，比FLAC高，体积大概为原CD的一半，但是APE文件的容错性较差，只要在传输过程中出现一点差错，就会让整首APE音乐作废。

常见封装格式与编码格式的对应

七、播放一个网络上视频需要的步骤

1，解协议：就是将流媒体协议的数据，解析为标准的相应的封装格式数据，这些协议在传输视音频数据的同时，也会传输一些信令数据，解协议的过程中会去除掉信令数据而只保留视音频数据。

2，解封装：就是将输入的封装格式的数据，分离成为音频流压缩编码数据和视频流压缩编码数据。

3，解码：就是将视频/音频压缩编码数据，解码成为非压缩的视频/音频原始数据。
把压缩编码的视频数据，输出成为非压缩的颜色数据，例如YUV420P，RGB等等；
把压缩编码的音频数据，输出成为非压缩的音频抽样数据，例如PCM数据。

4，视音频同步：就是根据解封装模块处理过程中获取到的参数信息，同步解码出来的视频和音频数据，并将视频音频数据送至系统的显卡和声卡播放出来。

本文转载自：
https://www.jianshu.com/p/614b3e6e641a

你可能感兴趣的:(流媒体)

SRS(Simple Realtime Server) 开源直播/双录服务器 @井九开源服务器运维
一、SRS是什么？SRS（SimpleRealtimeServer）是一个纯C++编写的高性能开源流媒体服务器，目标是打造简单、高效、易用、支持多协议的直播服务系统。自2013年开源以来，已成为国内外广泛使用的RTMP/WebRTC服务端方案之一。核心特性：支持主流直播协议：RTMP、HTTP-FLV、HLS、WebRTC、SRT、GB28181⚡支持亚秒级延迟：特别是WebRTC和HTTP-FL
ZLMediaKit2023-10-15master分支编译版下载：实时音视频传输解决方案昌焘同
ZLMediaKit2023-10-15master分支编译版下载：实时音视频传输解决方案去发现同类优质开源项目:https://gitcode.com/项目介绍ZLMediaKit是一款开源的实时音视频传输框架，专为流媒体传输而设计。2023年10月15日基于master分支编译完成的版本，为广大开发者提供了Windows平台下的便捷使用体验。该版本集成最新的功能特性，无需复杂编译过程，下载即可
H.264/H.265 编码入门到实战：嵌入式安防新人快速掌握视频压缩核心技巧创视谷 ipc网络摄像头研发技术相关网络音视频 h.264 h.265 安防
目录H.264编码基础H.265编码基础GOP架构与关键帧码率控制策略帧率与分辨率调优帧率调优分辨率调优硬件支持与兼容性对比常见问题与排查典型安防场景配置建议H.264编码基础标准概述：H.264（MPEG-4AVC）是2003年推出的高清视频编码标准，采用混合编码结构（帧内+帧间压缩），在同等画质下比前代格式大幅提升了压缩效率。其兼容性好、硬件需求低，因而在网络视频传输、流媒体和视频监控等领域得
流媒体之LL-HLS 低延时HLS协议艾浅觅流媒体协议开发知识网络
文章目录1背景2LL-HLS协议2.1部分分段（PartialSegments）2.2播放列表增量更新（PlaylistDeltaUpdates）2.3阻止播放列表重新加载（BlockingofPlaylistReloads）2.4预加载提示（PreloadHints）2.5完整示例3总结LL-HLS是一个低延时HLS协议，它与HLS协议相比，在传输时，将视频数据分成多个小片，每个小片大小为1MB
SmartMediaKit实战经验总结之高稳定、低延迟、强兼容音视频牛哥 RTSP播放器 RTMP播放器大牛直播SDK rtmp播放器 rtmp player 音视频 windows rtmp播放器 android rtmp播放器安卓rtsp播放器大牛直播SDK
在万物互联与数字化加速融合的今天，音视频实时通信技术正成为各行业发展的核心驱动力。从教育到工业、从安防到远程医疗，毫秒级低延迟的音视频交互体验已成为新一代实时系统的“生命线”。而在这个领域，视沃科技旗下的大牛直播SDK（SmartMediaKit），凭借全自研的超强流媒体内核、超低延迟表现和跨平台支持，成为行业标杆级的音视频基础设施提供者。全栈自研，跨平台高性能流媒体引擎大牛直播SDK始于2015
使用Appium2.0自动化规模测试APP hohoha-cn 自动化压力测试 android
最近做个项目需要测试服务端的并发性能，客户端采用安卓，接口数据采用Restul和流媒体播放。由于流媒体的接口并不清楚，所以决定采用安卓虚拟机来模拟。正好赶上Appium2.0升级，网上的很多资料都不能用了，这里将整个环境搭建的要点记录下来与大家分享。#1.Appium2.0的安装node.js下载安装npmhttps://nodejs.org/zh-cn/npm配置国内源查看当前源npmconfi
WebRTC（三）：P2P协议却道天凉_好个秋 WebRTC webrtc p2p 网络协议
P2P（Peer-to-Peer）协议是一种分布式通信模型，不依赖于传统的服务器/客户端架构，而是由网络中的各个“节点”或“对等体”（peer）共同提供服务和资源。P2P协议广泛应用于文件共享、区块链、即时通讯、视频流媒体等领域。下面我们对P2P协议进行系统性详解。基本概念对等体（Peer）每个参与的节点即是客户端也是服务器，既可以发起请求，也可以响应请求。去中心化（Decentralizatio
深入理解与配置 Nginx TCP 日志输出 Edingbrugh.南空运维 nginx tcp/ip 运维
一、背景介绍在现代网络架构中，Nginx作为一款高性能的Web服务器和反向代理服务器，广泛应用于各种场景。除了对HTTP/HTTPS协议的出色支持，Nginx从1.9.0版本开始引入了对TCP和UDP协议的代理功能，这使得它在处理数据库连接代理、流媒体服务代理等TCP相关业务场景中也发挥着重要作用。在TCP代理场景下，准确、详细的日志记录对于监控服务运行状态、排查故障、分析业务流量等工作至关重要。
Java中的推荐系统算法：如何实现高效的协同过滤与矩阵分解省赚客app开发者 java 算法矩阵
Java中的推荐系统算法：如何实现高效的协同过滤与矩阵分解大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们来讨论如何在Java中实现高效的推荐系统算法，特别是协同过滤和矩阵分解。这两种方法是推荐系统中最常用的技术，广泛应用于电商平台、社交媒体、流媒体等领域。一、推荐系统的基本概念推荐系统旨在根据用户的历史行为、偏好、社交关系等信息，为用户推荐感兴趣的商品、内容
基于miniDLNA局域网投屏 ADBrooter 嵌入式Linux Linux Linux ubuntu DLNA 投屏
miniDLNA服务器搭建miniDLNA（也叫ReadyMedia）是一个开源的轻量级的DLNA（DigitalLivingNetworkAlliance）服务器，用于将音频、视频和图片等多媒体内容从计算机或网络共享到支持DLNA协议的设备。它是一个基于Linux系统的多媒体服务器，支持将多媒体文件共享到包括智能电视、游戏机、流媒体设备、智能手机等在内的各种设备。DLNA(DigitalLivi
CentOS系统的多媒体处理技术应用操作系统内核探秘操作系统内核揭秘 centos linux 运维 ai
CentOS系统的多媒体处理技术应用关键词：CentOS、多媒体处理、FFmpeg、GStreamer、视频转码、音频处理、流媒体摘要：本文深入探讨CentOS系统下的多媒体处理技术应用，包括核心工具链、处理流程和实际应用场景。我们将从基础概念出发，详细分析FFmpeg和GStreamer两大核心框架在CentOS环境下的部署和使用，探讨视频转码、音频处理等关键技术，并通过实际案例展示如何构建高效
从DVD租赁小店到流媒体巨擘：Netflix传奇之路奔跑吧邓邓子我的文章 Netflix 流媒体历程
目录一、Netflix的前世今生二、独特的业务模式2.1订阅制的魅力2.2内容策略的双轮驱动三、技术赋能：推荐系统的魔力四、全球征程与挑战4.1全球化布局成果4.2亚洲市场的困境与突破4.3其他挑战与应对五、成就与未来展望一、Netflix的前世今生1997年，在互联网尚处于萌芽阶段之时，里德・黑斯廷斯（ReedHastings）和马克・伦道夫（MarcRandolph）怀揣着对未来娱乐模式的独特
Manus Vs DeepSeek：技术分野、生态博弈与AI未来的双重路径 WangMing_X AI 人工智能 deepseek manus
从各大主流媒体的报道，以及一键实测来说，Manus效果确实很炸裂，基本上可以看做是一个RPA+智能体+AI工作流的综合体，能够帮你完成一些很复杂的任务。更重要的是，它自己内置了一台云电脑，可以真实的模拟用户在电脑上的操作，并且会根据反馈自己去实时优化和改进操作，最终完成任务。Manus很强，但这个产品让人诟病的就是，没有全量发布，还是邀请码机制，能够真实评价和上手的机会很少。manus官网：htt
Python机器学习实战：推荐系统的原理与实现方法 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：推荐系统的原理与实现方法1.背景介绍1.1问题的由来在当今数字化时代，推荐系统已成为电子商务、媒体流媒体平台、社交媒体以及在线购物网站的核心组件之一。推荐系统旨在根据用户的历史行为、偏好以及社会关系等因素，为用户提供个性化的内容或商品建议，从而提高用户体验、增加用户粘性，并提升业务转化率。1.2研究现状随着大数据和深度学习技术的快速发展，推荐系统正从基于规则的简单过滤模型
FFmpeg —— 18.FFmpeg简易播放器的实现——音视频播放（含音视频同步） tiankong19999 FFmpeg 音视频 FFmpeg示例程序 ffmpeg
目录视频播放器基本原理简易播放器的实现——音视频播放程序结构程序源码audio.cppaudio.hdemux.cppdemux.hframe.cppframe.hmain.cpppacket.cpppacket.hplayer.cppplayer.hvideo.cppvideo.h工程下载问题总结参考视频播放器基本原理解协议将流媒体协议的数据，解析为标准的相应的封装格式数据。视音频在网络上传播的
SpringBoot实现简易直播风象南原创随笔后端 spring boot java
当下直播技术已经成为各类应用不可或缺的一部分，从社交媒体到在线教育，再到电子商务和游戏领域，直播功能正在被广泛应用。本文将介绍如何使用SpringBoot框架构建一个直播流推拉系统。一、直播技术基础1.1推流与拉流概念直播系统的核心环节包括推流和拉流：推流(Push):指主播将采集的音视频数据通过特定协议发送到流媒体服务器的过程拉流(Pull):指观众从流媒体服务器获取音视频数据并播放的过程1.2
ffmpeg获取rtsp h265_手把手搭建RTSP流媒体服务器我係乜乜乜 ffmpeg获取rtsp h265
0.引言本文主要讲解如何搭建RTSP流媒体服务器的过程，使用开源项目ZLMediaKit。通过这个开源项目，推RTSP流到服务器，然后拉流端可以拉取RTSP、RTMP等流。ZLMediaKit码云链接：https://gitee.com/xia-chu/ZLMediaKitZLMediaKit的github链接：https://github.com/xiongziliang/ZLMediaKitZ
开源的JT1078转GB28181服务器 sinat_35938012 GB28181 jt1078 jt808 ps 1078
JT1078转GB28181流程项目地址：JT1078转GB28181的流媒体服务器:https://github.com/lkmio/lkmJT1078转GB28181的信令服务器:https://github.com/lkmio/gb-cms1.创建GB28181UA调用接口:http://localhost:9000/api/v1/jt/device/add请求体如下：{"username"
婚恋小程序直播系统框架搭建 ALLSectorSorft 小程序
逻辑分析直播流管理：需要处理主播端的直播流推送，确保直播流能够稳定、高效地传输到各个观看用户的设备上。这涉及到选择合适的流媒体协议，如RTMP（Real-TimeMessagingProtocol）、HLS（HTTPLiveStreaming）等。用户连接与互动：管理观众的连接，让他们能够顺利进入直播间观看直播。同时，提供互动功能，如聊天、点赞、送礼物等，增强用户之间以及用户与主播之间的互动性。直
推荐开源项目：Drm Dash流下载器 —— 轻松捕获加密的流媒体任玫椒Fleming
推荐开源项目：DrmDash流下载器——轻松捕获加密的流媒体项目地址:https://gitcode.com/gh_mirrors/dr/Drm-Dash-stream-downloader在数字娱乐日益增长的今天，解锁并保存高质量的在线视频内容成为了一项极具吸引力的技术挑战。今天，我们为您推荐一个强大的开源工具——DrmDash流下载器，它专门设计用于下载基于MPEG-DASHCENC（Comm
解密并下载受DRM保护的MPD（DASH流媒体）加密视频小白白 dash 音视频
要解密并下载受DRM保护的MPD（DASH流媒体）加密视频，需结合技术工具与合法授权。以下是关键方法与步骤：一、工具与技术要求Widevine-DL这是一个开源Python工具，支持下载和解密WidevineDRM保护的MPD内容。它依赖ffmpeg、yt-dlp、aria2等组件，通过接收浏览器扩展（如WidevineDecryptor）提供的解密提示实现自动化操作。适用场景：离线观看、技术研究
支持JT1078和GB28181的流媒体服务器-LKM启动配置文件参数说明 sinat_35938012 GB28181 JT1078 rtmp webrtc ffmpeg
流媒体服务器地址：https://github.com/lkmio/lkmGB28181信令，模拟多个国标设备工具：https://github.com/lkmio/gb-cms文章目录gop_cachegop_buffer_sizeprobe_timeoutwrite_timeoutmw_latencylisten_ippublic_ipidle_timeoutreceive_timeoutde
流媒体基础解析：音视频封装格式与传输协议招风的黑耳后端流媒体
在视频处理与传输的完整流程中，音视频封装格式和传输协议扮演着至关重要的角色。它们不仅决定了视频文件的存储方式，还影响着视频在网络上的传输效率和播放体验。今天，我们将深入探讨音视频封装格式和传输协议的相关知识。音视频封装格式什么是封装？封装，简而言之，就是将音频和视频的编码数据以及同步信息打包到一个文件中，形成一个统一的格式。这个过程类似于将饭菜装入饭盒，视频轨相当于饭，而音频轨相当于菜，封装格式就
Scalstrm如何开启大规模云视频分发之旅 Akamai中国云计算音视频网络云原生云计算云平台云服务 Akamai
视频平台借助AkamaiConnectedCloud为运营商和广播公司提供更大的部署灵活性。“我们的愿景和战略是继续提供可持续、易用、灵活的产品，供所有电视运营商和广播公司使用。Akamai可以帮助我们在全球范围内实现这一目标。”──Scalstrm业务开发和销售总监DominiqueVostersScalstrm是领先的流媒体直播解决方案提供商，提供全面的服务套件，可满足付费电视运营商和广播公司
Nginx搭建推流服务器 Nicholas-乔治安装配置相关 nginx 服务器运维
RTSP搭建推流服务器1.RESP简介RTSP（RealTimeStreamingProtocol）是由RealNetwork和Netscape共同提出的如何有效地在IP网络上传输流媒体数据的应用层协议。RTSP对流媒体提供了诸如暂停，快进等控制，而它本身并不传输数据，RTSP的作用相当于流媒体服务器的远程控制。服务器端可以自行选择使用TCP或UDP来传送串流内容，它的语法和运作跟HTTP1.1类
从零搭建云点播系统（一）：开源组件选型、安全加密与成本优化 Ai财富密码副业项目开源安全
笔者最近在开发几个项目，需要内网搭建在线视频系统，于是做了相关调研分析了领课在线教育、酷瓜云等，其中主要用的技术是云点播，云点播系统的实现依赖于多项关键技术：流媒体协议（如HLS、DASH）通过自适应码率技术保障流畅播放；分布式存储（如FastDFS）与智能转码（FFmpeg）实现海量资源的弹性管理与多端适配；P2P网络与CDN边缘计算突破带宽瓶颈，降低分发延迟；多级加密方案（AES、DRM）与数
萤光云香港机房简单测评柒柒nb 云计算云服务器
参加萤光云“你搞技术，我出资源”的活动，评测萤光云云服务器可免费置换云服务器以下是基本配置1核CPU2GRAM硬盘IO平均超过了500MB/s是一块性能不错的固态硬盘流媒体解锁情况可以看港区的Netflix自制剧/亚马逊/港区爱奇艺/港区steam
国芯思辰| SerDes芯片SCS5501/SCS5502助力汽车触屏流媒体后视镜，兼容MAX9295A/MAX96717 GXSC 芯片应用汽车
在当今汽车智能化、网联化的浪潮中，车载电子产品的性能与品质已成为衡量汽车安全与舒适性的重要标准，车载影像系统的可靠性与清晰度更是保障行车安全的核心要素之一。国产SerDes芯片SCS5501/SCS5502对标MAX9295A/MAX96717，采用先进的车规级SerDes传输技术，突破传统模拟信号传输的局限。相比市面上99%的同类型流媒体产品所采用的模拟信号传输，数字信号传输具有无可比拟的优势。
Python 爬虫实战：解析 JSON 数据爬取 QQ 音乐歌单（歌单分类与歌曲元数据提取） yansideyucsdn python爬虫实战 python 爬虫 json
一、项目启动篇：明确目标与合规边界1.1需求拆解：定义核心抓取字段QQ音乐作为国内领先的音乐流媒体平台，其歌单数据具有极高的分析价值。我们计划抓取以下核心字段：数据层级抓取字段应用场景示例歌单维度歌单ID、名称、分类标签、播放量音乐流行趋势分析、歌单推荐系统歌曲维度歌曲ID、名称、歌手、专辑、时长音乐版权分析、用户偏好建模扩展维度歌词文本、评论数据、发布时间情感分析、社交影响力研究1.2法律风险提
前端播放RTSP视频流努力学习的木子前端
在浏览器中请求RTSP视频流，并进行播放时，直接使用原生的浏览器API是行不通的，因为它们不支持RTSP协议。为了解决这个问题，我们通常会选择使用像flv.js这样的库，它专为在浏览器中播放FLV和其他流媒体格式设计。然而，flv.js本身并不直接支持RTSP，这意味着我们需要一个额外的步骤来桥接RTSP和flv.js在Vue中使用flv.js插件播放RTSP视频流的主要原因是浏览器原生的标签并不
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class