leixiaohua1020

最简单的视音频播放示例8：DirectSound播放PCM

=====================================================

最简单的视音频播放示例系列文章列表：

最简单的视音频播放示例1：总述

最简单的视音频播放示例2：GDI播放YUV, RGB

最简单的视音频播放示例3：Direct3D播放YUV，RGB（通过Surface）

最简单的视音频播放示例4：Direct3D播放RGB（通过Texture）

最简单的视音频播放示例5：OpenGL播放RGB/YUV

最简单的视音频播放示例6：OpenGL播放YUV420P（通过Texture，使用Shader）

最简单的视音频播放示例7：SDL2播放RGB/YUV

最简单的视音频播放示例8：DirectSound播放PCM

最简单的视音频播放示例9：SDL2播放PCM

=====================================================

本文记录DirectSound播放音频的技术。DirectSound是Windows下最常见的音频播放技术。目前大部分的音频播放应用都是通过DirectSound来播放的。本文记录一个使用DirectSound播放PCM的例子。

注：一位仁兄已经提醒我DirectSound已经计划被XAudio2取代了。后来考证了一下发现确有此事。因此在下次更新中考虑加入XAudio2播放PCM的例子。本文仍然记录一下DirectSound这位“元老”。

DirectSound简介

DirectSound是微软所开发DirectX的组件之一，可以在Windows 操作系统上录音，并且记录波形音效（waveform sound）。目前DirectSound 是一个成熟的API ，提供许多有用的功能，例如能够在较高的分辨率播放多声道声音。
DirectSound3D（DS3D）最早是1993年与 DirectX 3 一起发表的。DirectX 8以后的DirectSound和DirectSound3D的（DS3D）被合称DirectX Audio。

DirectSound有以下几种对象：

对象	数量	作用	主要接口
设备	每个应用程序只有一个设备对象	用来管理设备，创建辅助缓冲区	IDirectSound8
辅助缓冲区	每一个声音对应一个辅助缓冲区	用来管理一个静态的或者动态的声音流，然后在主缓冲区中混音	IDirectSoundBuffer8, IDirectSound3DBuffer8, IDirectSoundNotify8
主缓冲区	一个应用程序只有一个主缓冲区	将辅助缓冲区的数据进行混音，并且控制3D参数.	IDirectSoundBuffer, IDirectSound3DListener8

DirectSound播放音频的流程

使用DirectSound播放音频一般情况下需要如下步骤：

1. 初始化

1) 创建一个IDirectSound8接口的对象
2) 设置协作级
3) 创建一个主缓冲对象
4) 创建一个副缓冲对象
5) 创建通知对象
6) 设置通知位置

7) 开始播放

2. 循环播放声音

1) 数据填充至副缓冲区

2) 等待播放完成

下面结合详细分析一下上文的流程。

1. 初始化
1) 创建一个IDirectSound8接口的对象
通过DirectSoundCreate8()方法可以创建一个设备对象。这个对象通常代表缺省的播放设备。DirectSoundCreate8()函数原型如下。

HRESULT DirectSoundCreate8(
	 LPCGUID lpcGuidDevice,
	 LPDIRECTSOUND8 * ppDS8,
	 LPUNKNOWN pUnkOuter
)

参数的含义如下：
lpcGuidDevice：要创建的设备对象的GUID。可以指定为NULL，代表默认的播放设备。
ppDS8：返回的IDirectSound8对象的地址。
pUnkOuter：必须设为NULL。
例如如下代码即可创建一个IDirectSound8接口的对象

IDirectSound8 *m_pDS=NULL;	
DirectSoundCreate8(NULL,&m_pDS,NULL);

2) 设置协作级
Windows 是一个多任务环境，同一时间有多个应用程序去访问设备。通过使用协作级别，DirectSound可以确保应用程序不会在别的设备使用时去访问，每个 DirectSound应用程序都有一个协作级别，这个级别决定着访问硬件的权限。
在创建一个设备对象以后，必须通过用IDirectSound8的SetCooperativeLevel()设置协作权限，否则将听不到声音。SetCooperativeLevel()的原型如下

HRESULT SetCooperativeLevel(
 HWND hwnd,
 DWORD dwLevel
)

参数的含义如下：
hwnd：应用程序窗口句柄。
dwLevel：支持以下几种级别。
DSSCL_EXCLUSIVE：与DSSCL_PRIORITY具有相同的作用。
DSSCL_NORMAL：正常的协调层级标志，其他程序可共享声卡设备进行播放。
DSSCL_PRIORITY：设置声卡设备为当前程序独占。
DSSCL_WRITEPRIMAR：可写主缓冲区，此时副缓冲区就不能进行播放处理，即不能将次缓冲区的数据送进混声器，再输出到主缓冲区上。这是最完全控制声音播放的方式。

3) 创建一个主缓冲对象
使用IDirectSound8的CreateSoundBuffer()可以创建一个IDirectSoundBuffer接口的主缓冲区对象。CreateSoundBuffer()的原型如下。

HRESULT CreateSoundBuffer(
 LPCDSBUFFERDESC pcDSBufferDesc,
 LPDIRECTSOUNDBUFFER * ppDSBuffer,
 LPUNKNOWN pUnkOuter
)

参数的含义如下：
pcDSBufferDesc：描述声音缓冲的DSBUFFERDESC结构体的地址
ppDSBuffer：返回的IDirectSoundBuffer接口的对象的地址。
pUnkOuter：必须设置为NULL。
其中涉及到一个描述声音缓冲的结构体DSBUFFERDESC，该结构体的定义如下：

typedef struct _DSBUFFERDESC
{
    DWORD           dwSize;
    DWORD           dwFlags;
    DWORD           dwBufferBytes;
    DWORD           dwReserved;
    LPWAVEFORMATEX  lpwfxFormat;
} DSBUFFERDESC

简单解释一下其中的变量的含义：
dwSize：结构体的大小。必须初始化该值。
dwFlags：设置声音缓存的属性。有很多选项，可以组合使用，就不一一列出了。详细的参数可以查看文档。
dwBufferBytes：缓冲的大小。
dwReserved：保留参数，暂时没有用。
lpwfxFormat：指向一个WAVE格式文件头的指针。
设置DSBUFFERDESC完毕后，就可以使用CreateSoundBuffer()创建主缓冲了。示例代码如下：

	DSBUFFERDESC dsbd;
	memset(&dsbd,0,sizeof(dsbd));
	dsbd.dwSize=sizeof(dsbd);
	dsbd.dwFlags=DSBCAPS_GLOBALFOCUS | DSBCAPS_CTRLPOSITIONNOTIFY |DSBCAPS_GETCURRENTPOSITION2;
	dsbd.dwBufferBytes=MAX_AUDIO_BUF*BUFFERNOTIFYSIZE; 
	//WAVE Header
	dsbd.lpwfxFormat=(WAVEFORMATEX*)malloc(sizeof(WAVEFORMATEX));
	dsbd.lpwfxFormat->wFormatTag=WAVE_FORMAT_PCM;   
	/* format type */
	(dsbd.lpwfxFormat)->nChannels=channels;          
	/* number of channels (i.e. mono, stereo...) */
	(dsbd.lpwfxFormat)->nSamplesPerSec=sample_rate;     
	/* sample rate */
	(dsbd.lpwfxFormat)->nAvgBytesPerSec=sample_rate*(bits_per_sample/8)*channels; 
	/* for buffer estimation */
	(dsbd.lpwfxFormat)->nBlockAlign=(bits_per_sample/8)*channels;        
	/* block size of data */
	(dsbd.lpwfxFormat)->wBitsPerSample=bits_per_sample;     
	/* number of bits per sample of mono data */
	(dsbd.lpwfxFormat)->cbSize=0;


	//Creates a sound buffer object to manage audio samples. 
	HRESULT hr1;
	if( FAILED(m_pDS->CreateSoundBuffer(&dsbd,&m_pDSBuffer,NULL))){   
		return FALSE;
	}

4) 创建一个副缓冲对象
使用IDirectSoundBuffer的QueryInterface()可以得到一个IDirectSoundBuffer8接口的对象。IDirectSoundBuffer8的GUID为IID_IDirectSoundBuffer8。示例代码如下。

IDirectSoundBuffer *m_pDSBuffer=NULL;
IDirectSoundBuffer8 *m_pDSBuffer8=NULL;
...
if( FAILED(m_pDSBuffer->QueryInterface(IID_IDirectSoundBuffer8,(LPVOID*)&m_pDSBuffer8))){
	return FALSE ;
}

5) 创建通知对象
使用IDirectSoundBuffer8的QueryInterface()可以得到一个IDirectSoundNotify8接口的对象。IDirectSoundBuffer8的GUID为IID_IDirectSoundNotify。示例代码如下。

IDirectSoundBuffer8 *m_pDSBuffer8=NULL;
IDirectSoundNotify8 *m_pDSNotify=NULL;	
…
if(FAILED(m_pDSBuffer8->QueryInterface(IID_IDirectSoundNotify,(LPVOID*)&m_pDSNotify))){
	return FALSE ;
}

一句话概括一下通知对象的作用：当DirectSound缓冲区中的数据播放完毕后，告知系统应该填充新的数据。

6) 设置通知位置
使用IDirectSoundNotify8的SetNotificationPositions()可以设置通知的位置。SetNotificationPositions()的原型如下。

HRESULT SetNotificationPositions(
         DWORD dwPositionNotifies,
         LPCDSBPOSITIONNOTIFY pcPositionNotifies
)

参数含义如下。
dwPositionNotifies：DSBPOSITIONNOTIFY结构体的数量。既包含几个通知的位置。
pcPositionNotifies：指向DSBPOSITIONNOTIFY结构体数组的指针。
再这里涉及到一个结构体DSBPOSITIONNOTIFY，它描述了通知的位置。DSBPOSITIONNOTIFY的定义如下。

typedef struct DSBPOSITIONNOTIFY {
    DWORD dwOffset;
    HANDLE hEventNotify;
} DSBPOSITIONNOTIFY;

它的成员的含义如下。
dwOffset：通知事件触发的位置（距离缓冲开始位置的偏移量）。
hEventNotify：触发的事件的句柄。

7) 开始播放
使用IDirectSoundBuffer8的SetCurrentPosition ()可以设置播放的位置。SetCurrentPosition ()原型如下

HRESULT SetCurrentPosition(
         DWORD dwNewPosition
)

其中dwNewPosition是播放点与缓冲区首个字节之间的偏移量。
使用IDirectSoundBuffer8的Play ()可以开始播放音频数据。Play ()原型如下。

HRESULT Play(
         DWORD dwReserved1,
         DWORD dwPriority,
         DWORD dwFlags
)

参数含义：
dwReserved1：保留参数，必须取0。
dwPriority：优先级，一般情况下取0即可。
dwFlags：标志位。目前常见的是DSBPLAY_LOOPING。当播放至缓冲区结尾的时候，重新从缓冲区开始处开始播放。

2. 循环播放声音
1) 数据填充至副缓冲区
数据填充至副缓冲区之前，需要先使用Lock()锁定缓冲区。然后就可以使用fread()，memcpy()等方法将PCM音频采样数据填充至缓冲区。数据填充完毕后，使用Unlock()取消对缓冲区的锁定。
Lock()函数的原型如下。

HRESULT Lock(
         DWORD dwOffset,
         DWORD dwBytes,
         LPVOID * ppvAudioPtr1,
         LPDWORD  pdwAudioBytes1,
         LPVOID * ppvAudioPtr2,
         LPDWORD pdwAudioBytes2,
         DWORD dwFlags
)

参数的含义如下。
dwOffset：锁定的内存与缓冲区首地址之间的偏移量。
dwBytes：锁定的缓存的大小。
ppvAudioPtr1：获取到的指向缓存数据的指针。
pdwAudioBytes1：获取到的缓存数据的大小。
ppvAudioPtr2：没有用到，设置为NULL。
pdwAudioBytes2：没有用到，设置为0。
dwFlags：暂时没有研究。

UnLock()函数的原型如下。

HRESULT Unlock(
         LPVOID pvAudioPtr1,
         DWORD dwAudioBytes1,
         LPVOID pvAudioPtr2,
         DWORD dwAudioBytes2
)

参数含义如下。
pvAudioPtr1：通过Lock()获取到的指向缓存数据的指针。
dwAudioBytes1：写入的数据量。
pvAudioPtr2：没有用到。

dwAudioBytes2：没有用到。

2) 等待播放完成

根据此前设置的通知机制，使用WaitForMultipleObjects()等待缓冲区中的数据播放完毕，然后进入下一个循环。

播放音频流程总结

DirectSound播放PCM音频数据的流程如下图所示。

其中涉及到的几个结构体之间的关系如下图所示。

代码

贴上源代码。

/**
 * 最简单的DirectSound播放音频的例子（DirectSound播放PCM）
 * Simplest Audio Play DirectSound (DirectSound play PCM) 
 *
 * 雷霄骅 Lei Xiaohua
 * [email protected]
 * 中国传媒大学/数字电视技术
 * Communication University of China / Digital TV Technology
 * http://blog.csdn.net/leixiaohua1020
 *
 * 本程序使用DirectSound播放PCM音频采样数据。
 * 是最简单的DirectSound播放音频的教程。
 *
 * 函数调用步骤如下: 
 *
 * [初始化]
 * DirectSoundCreate8(): 创建一个DirectSound对象。
 * SetCooperativeLevel(): 设置协作权限，不然没有声音。
 * IDirectSound8->CreateSoundBuffer(): 创建一个主缓冲区对象。
 * IDirectSoundBuffer->QueryInterface(IID_IDirectSoundBuffer8..): 
 *			创建一个副缓冲区对象，用来存储要播放的声音数据文件。
 * IDirectSoundBuffer8->QueryInterface(IID_IDirectSoundNotify..): 
 *			创建通知对象，通知应用程序指定播放位置已经达到。
 * IDirectSoundNotify8->SetNotificationPositions(): 设置通知位置。
 * IDirectSoundBuffer8->SetCurrentPosition(): 设置播放的起始点。
 * IDirectSoundBuffer8->Play(): 开始播放。
 *
 * [循环播放数据]
 * IDirectSoundBuffer8->Lock(): 锁定副缓冲区，准备写入数据。
 * fread(): 读取数据。
 * IDirectSoundBuffer8->Unlock(): 解锁副缓冲区。
 * WaitForMultipleObjects(): 等待“播放位置已经达到”的通知。
 *
 * This software plays PCM raw audio data using DirectSound.
 * It's the simplest tutorial about DirectSound.
 *
 * The process is shown as follows:
 *
 * [Init]
 * DirectSoundCreate8(): Init DirectSound object.
 * SetCooperativeLevel(): Must set, or we won't hear sound.
 * IDirectSound8->CreateSoundBuffer(): Create primary sound buffer.
 * IDirectSoundBuffer->QueryInterface(IID_IDirectSoundBuffer8..): 
 *			Create secondary sound buffer.
 * IDirectSoundBuffer8->QueryInterface(IID_IDirectSoundNotify..): 
 *			Create Notification object.
 * IDirectSoundNotify8->SetNotificationPositions():
 *			Set Notification Positions.
 * IDirectSoundBuffer8->SetCurrentPosition(): Set position to start.
 * IDirectSoundBuffer8->Play(): Begin to play.
 *
 * [Loop to play data]
 * IDirectSoundBuffer8->Lock(): Lock secondary buffer.
 * fread(): get PCM data.
 * IDirectSoundBuffer8->Unlock(): UnLock secondary buffer.
 * WaitForMultipleObjects(): Wait for Notifications.
 */
#include <stdio.h>
#include <stdlib.h>
#include <windows.h>
#include <dsound.h>


#define MAX_AUDIO_BUF 4 
#define BUFFERNOTIFYSIZE 192000 


int sample_rate=44100;	//PCM sample rate
int channels=2;			//PCM channel number
int bits_per_sample=16;	//bits per sample

BOOL main(int argc,char * argv[])
{
	int i;
	FILE * fp;
	if((fp=fopen("../NocturneNo2inEflat_44.1k_s16le.pcm","rb"))==NULL){
		printf("cannot open this file\n");
		return -1;
	}

	IDirectSound8 *m_pDS=NULL;					
	IDirectSoundBuffer8 *m_pDSBuffer8=NULL;	//used to manage sound buffers.
	IDirectSoundBuffer *m_pDSBuffer=NULL;	
	IDirectSoundNotify8 *m_pDSNotify=NULL;		
	DSBPOSITIONNOTIFY m_pDSPosNotify[MAX_AUDIO_BUF];
	HANDLE m_event[MAX_AUDIO_BUF];

	SetConsoleTitle(TEXT("Simplest Audio Play DirectSound"));//Console Title
	//Init DirectSound
	if(FAILED(DirectSoundCreate8(NULL,&m_pDS,NULL)))
		return FALSE;
	if(FAILED(m_pDS->SetCooperativeLevel(FindWindow(NULL,TEXT("Simplest Audio Play DirectSound")),DSSCL_NORMAL)))
		return FALSE;


	DSBUFFERDESC dsbd;
	memset(&dsbd,0,sizeof(dsbd));
	dsbd.dwSize=sizeof(dsbd);
	dsbd.dwFlags=DSBCAPS_GLOBALFOCUS | DSBCAPS_CTRLPOSITIONNOTIFY |DSBCAPS_GETCURRENTPOSITION2;
	dsbd.dwBufferBytes=MAX_AUDIO_BUF*BUFFERNOTIFYSIZE; 
	//WAVE Header
	dsbd.lpwfxFormat=(WAVEFORMATEX*)malloc(sizeof(WAVEFORMATEX));
	dsbd.lpwfxFormat->wFormatTag=WAVE_FORMAT_PCM;   
	/* format type */
	(dsbd.lpwfxFormat)->nChannels=channels;          
	/* number of channels (i.e. mono, stereo...) */
	(dsbd.lpwfxFormat)->nSamplesPerSec=sample_rate;     
	/* sample rate */
	(dsbd.lpwfxFormat)->nAvgBytesPerSec=sample_rate*(bits_per_sample/8)*channels; 
	/* for buffer estimation */
	(dsbd.lpwfxFormat)->nBlockAlign=(bits_per_sample/8)*channels;        
	/* block size of data */
	(dsbd.lpwfxFormat)->wBitsPerSample=bits_per_sample;     
	/* number of bits per sample of mono data */
	(dsbd.lpwfxFormat)->cbSize=0;

	//Creates a sound buffer object to manage audio samples. 
	HRESULT hr1;
	if( FAILED(m_pDS->CreateSoundBuffer(&dsbd,&m_pDSBuffer,NULL))){   
		return FALSE;
	}
	if( FAILED(m_pDSBuffer->QueryInterface(IID_IDirectSoundBuffer8,(LPVOID*)&m_pDSBuffer8))){
		return FALSE ;
	}
	//Get IDirectSoundNotify8
	if(FAILED(m_pDSBuffer8->QueryInterface(IID_IDirectSoundNotify,(LPVOID*)&m_pDSNotify))){
		return FALSE ;
	}
	for(i =0;i<MAX_AUDIO_BUF;i++){
		m_pDSPosNotify[i].dwOffset =i*BUFFERNOTIFYSIZE;
		m_event[i]=::CreateEvent(NULL,false,false,NULL); 
		m_pDSPosNotify[i].hEventNotify=m_event[i];
	}
	m_pDSNotify->SetNotificationPositions(MAX_AUDIO_BUF,m_pDSPosNotify);
	m_pDSNotify->Release();

	//Start Playing
	BOOL isPlaying =TRUE;
	LPVOID buf=NULL;
	DWORD  buf_len=0;
	DWORD res=WAIT_OBJECT_0;
	DWORD offset=BUFFERNOTIFYSIZE;

	m_pDSBuffer8->SetCurrentPosition(0);
	m_pDSBuffer8->Play(0,0,DSBPLAY_LOOPING);
	//Loop
	while(isPlaying){
		if((res >=WAIT_OBJECT_0)&&(res <=WAIT_OBJECT_0+3)){
			m_pDSBuffer8->Lock(offset,BUFFERNOTIFYSIZE,&buf,&buf_len,NULL,NULL,0);
			if(fread(buf,1,buf_len,fp)!=buf_len){
				//File End
				//Loop:
				fseek(fp, 0, SEEK_SET);
				fread(buf,1,buf_len,fp);
				//Close:
				//isPlaying=0;
			}
			m_pDSBuffer8->Unlock(buf,buf_len,NULL,0);
			offset+=buf_len;
			offset %= (BUFFERNOTIFYSIZE * MAX_AUDIO_BUF);
			printf("this is %7d of buffer\n",offset);
		}
		res = WaitForMultipleObjects (MAX_AUDIO_BUF, m_event, FALSE, INFINITE);
	}

	return 0;
}

运行结果

代码运行之后，会弹出一个“控制台”对话框如下图所示。同时音频设备里面可以听到播放的声音。

下载

代码位于“Simplest Media Play”中

SourceForge项目地址：https://sourceforge.net/projects/simplestmediaplay/

CSDN下载地址：http://download.csdn.net/detail/leixiaohua1020/8054395

注：

该项目会不定时的更新并修复一些小问题，最新的版本请参考该系列文章的总述页面：

《最简单的视音频播放示例1：总述》

上述工程包含了使用各种API（Direct3D，OpenGL，GDI，DirectSound，SDL2）播放多媒体例子。其中音频输入为PCM采样数据。输出至系统的声卡播放出来。视频输入为YUV/RGB像素数据。输出至显示器上的一个窗口播放出来。
通过本工程的代码初学者可以快速学习使用这几个API播放视频和音频的技术。
一共包括了如下几个子工程：
simplest_audio_play_directsound: 使用DirectSound播放PCM音频采样数据。
simplest_audio_play_sdl2: 使用SDL2播放PCM音频采样数据。
simplest_video_play_direct3d: 使用Direct3D的Surface播放RGB/YUV视频像素数据。
simplest_video_play_direct3d_texture:使用Direct3D的Texture播放RGB视频像素数据。
simplest_video_play_gdi: 使用GDI播放RGB/YUV视频像素数据。
simplest_video_play_opengl: 使用OpenGL播放RGB/YUV视频像素数据。
simplest_video_play_opengl_texture: 使用OpenGL的Texture播放YUV视频像素数据。
simplest_video_play_sdl2: 使用SDL2播放RGB/YUV视频像素数据。

Phaser引擎开发：Phaser基础入门_Phaser引擎概述 chenlz2007 游戏开发2 html5 游戏音视频前端 html
Phaser引擎概述什么是Phaser引擎Phaser是一个免费的、开源的、基于Web的2D游戏开发引擎，使用JavaScript和HTML5Canvas或WebGL技术。Phaser的目的是让游戏开发者能够轻松地创建高性能的2D游戏，适用于桌面和移动平台。Phaser支持多种游戏开发需求，包括精灵管理、物理引擎、动画、输入处理、音频和视频处理等。Phaser的历史Phaser由RichardDa
＜Python＞＜ffmpeg＞基于python使用PyQt5构建GUI实例：音频格式转换程序（MP3/aac/wma/flac）(优化版2) 机构师 python编程实例 python ffmpeg qt pyqt5 vscode
前言本文是基于python语言使用pyqt5来构建的GUI，功能是使用ffmpeg来对音频文件进行格式转换，如mp3、aac、wma、flac等音乐格式。UI示例：环境配置系统：windows平台：visualstudiocode语言：python库：pyqt5、ffmpeg概述本文是建立在之前的博文的基础上的优化版，前文链接：1、python使用ffmpeg来制作音频格式转换工具（优化版）2、利
Phaser引擎开发：UI设计与音效实现_音效与UI的结合 chenlz2007 游戏开发2 ui 游戏性能优化运维 nginx
音效与UI的结合在开发动作游戏时，音效和UI的设计是提升玩家体验的两个重要方面。音效可以增强游戏的沉浸感，而UI则负责向玩家传递关键信息和提供交互手段。将音效与UI有效结合，可以使游戏更加生动、有趣，同时也能提升游戏的可玩性和用户界面的友好性。本节将详细介绍如何在Phaser引擎中实现音效与UI的结合，包括音效的加载、播放和控制，以及UI元素的创建和管理。音效的加载与播放在Phaser引擎中，音效
Phaser引擎开发：UI设计与音效实现_音效控制与管理 chenlz2007 游戏开发2 ui 游戏计算机外设网络前端
音效控制与管理在Phaser引擎开发中，音效控制与管理是提升游戏沉浸感和用户体验的重要环节。本节将详细介绍如何在Phaser中实现音效的加载、播放、停止、暂停、音量控制等基本功能，并介绍如何管理多个音效文件，确保游戏音效的高效和协调。音效加载在Phaser中，音效文件通常通过preload函数加载。preload函数是Phaser游戏生命周期中的一个阶段，用于预先加载所有需要的资源，包括图像、动画
Qt调用FFmpeg库实时播放UDP组播视频流 daqinzl qt ffmpeg 流媒体 qt ffmpeg udp组播流
基于以下参考链接，通过改进实现实时播放UDP组播视频流https://blog.csdn.net/u012532263/article/details/102736700源码在windows（qt-opensource-windows-x86-5.12.9.exe）、ubuntu20.04.6(x64)(qt-opensource-linux-x64-5.12.12.run)、以及针对arm64的
区别Mp3、AAC、WAV 、MWA这些音频文件晓北斗NorSnow 多媒体考试 aac
同学，MP3、AAC、WAV、WMA这些音频文件格式各有其特点和适用场景，下面我来为你详细解释一下它们的区别：MP3特点：MP3是一种广泛使用的音频压缩技术，它能够在音质丢失很小的情况下将音频文件压缩到更小的程度。MP3格式具有广泛的兼容性、网络传输便利性以及多样化的应用场景等特点，是全球范围内最受欢迎和应用最广的音频文件格式之一。音质与文件大小：MP3格式通过压缩音频数据来减小文件大小，同时保持
Rockchip --- 放音设备调试臻一 Rockchip ALSA
文章目录（一）aplay工具1.显示帮助信息2.列出所有放音设备3.播放音频：（二）amixer工具1.查看帮助信息2.查看声卡设置3.设置音量4.静音和取消静音5.保存和加载混音器设置（一）aplay工具aplay是Linux系统中ALSA(AdvancedLinuxSoundArchitecture)提供的一个命令行工具，用于播放音频文件。以下是一些常用的aplay命令及其参数：1.显示帮助信
Rockchip --- 录音设备调试臻一 Rockchip 录音设备
ALSA（AdvancedLinuxSoundArchitecture）：音频处理的一套软件框架，提供了统一的API来访问各种音频硬件1.显示帮助信息：arecord--help这个命令会显示arecord的帮助信息，包括所有可用的选项和参数。2.列出所有录音设备：arecord-l这个命令会列出系统中所有的录音（捕获）硬件设备3.录制音频：arecord[选项][文件名]其中[选项]可以包括：-
Silero VAD 开源项目教程苏鹃咪Healthy
SileroVAD开源项目教程项目地址:https://gitcode.com/gh_mirrors/si/silero-vad项目介绍SileroVAD是一个预训练的企业级语音活动检测器（VoiceActivityDetector），由snakers4团队开发并开源在GitHub上。该项目支持多种语言和不同领域的音频，具有灵活的采样率（8000Hz和16000Hz），并且可以在PyTorch和O
FSMN-VAD与Silero-VAD Wasser. python 语音识别
引用说明：FSMN-VAD引用魔塔社区项目：https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/summary感谢阿里大佬的开源与介绍。这篇文章主要介绍两种的ASR中的VAD开源模型，第一种就是FSMN-VAD，这个是达摩院语音团队提出的高效语音端点检测模型，用于检测输入音频中有效语音的起止时间点信息。
随笔十七、eth0单网卡绑定双ip的问题单片机社区立创泰山派随笔智能路由器网络协议 udp 嵌入式硬件网络
在调试语音对讲过程中遇到过一个“奇怪”问题：泰山派作为一端，可以收到对方发来的语音，而对方不能收到泰山派发出的语音。用wireshark抓包UDP发现，泰山派发送的地址是192.168.1.30，而给泰山派实际设置的静态地址是192.168.1.99。由于接收端有地址识别，只接收99，因此30的数据应该是被丢弃了，导致不能播放音频。vi/etc/network/interfacesautoloif
OpenCV播放视频菜鸟小馒头图像识别
使用opencv播放视频很容易，即循环的顺序读取视频中的每一帧，并且能够退出循环操作。#include#include#includeusingnamespacestd;usingnamespacecv;intmain(intargc,constchar*argv[]){//insertcodehere...constchar*ImageLocation="/Users/linwang/LinMo
opencv 播放视频 smwhotjay opencv
看资料cv播放视频是用VideoCapture。结果始终打不开文件，open(0);倒是可以打开摄像头。于是抛弃他的c++类，用c接口来播放。结果ok.//打开CvCapture*capture=cvCreateFileCapture("a.avi");if(!capture){return-1;}//视频信息intcam_width=(int)cvGetCaptureProperty(captu
OpenCV实现Python视频播放控制详解夏勇兴
本文还有配套的精品资源，点击获取简介：本文详细介绍了如何使用OpenCV库在Python环境中播放视频，并展示了实现视频快进、后退控制的方法。首先通过cv2.VideoCapture()函数实现基础播放，然后利用set(cv2.CAP_PROP_FPS)函数控制播放速度实现快进和慢速播放，最后结合cv2.CAP_PROP_POS_MSEC属性实现精确的快进和后退。开发者可以根据实际需求选择合适的方
海康视频不能在浏览器解析播放，需要转码摘星喵Pro java 开发语言浏览器播放视频视频编码转码
海康视频不能在浏览器解析播放，需要转码参考：https://blog.csdn.net/xcg340123/article/details/139825982依赖ws.schildjave-core2.4.5ws.schildjave-native-win642.4.5ws.schildjave-native-linux642.4.5转码逻辑importws.schild.jave.*;impor
利用jQuery实现h5播放器播放组件我是真的不会前端 html5 jquery javascript 前端
播放组件介绍首先会H5播放组件其实自带videoaudio标签，只需要引入添加属性就可以自动在网页上播放，同样，vue和react也有相应的播放插件。比如vue-video-player和reactnative的播放组件这里提供一个npm地址https://www.npmjs.com/package/vue-video-playerhttps://www.npmjs.com/package/rea
Python 录音转文字 @小张不嚣张 python 开发语言
在Python中,可以使用第三方库来实现录音文件转文字的功能。一个常用的库是speech_recognition。importspeech_recognitionassr#创建语音识别器r=sr.Recognizer()#从录音文件读取音频withsr.AudioFile('audio_file.wav')assource:audio_data=r.record(source)#使用GoogleS
python如何实现音频转文本(使用百度语音转文本库) xiaojiawen python 开发语言
1pipinstallBaidu-Aip2在百度开放平台上注册账号，并在控制台中创建应用，选择短语音转文本应用，有几万次的免费配额，超过次数需要付费(价格贵)，如图是我自己的注意事项：1，音频文件不能是mp3文件，需要将mp3文件转为无损音乐格式：如flac，wav，pcm等等2，音频文件需要控制在60s以内，如果大于60s，则会报文本超过限制的错误importosfromaipimportAip
【开发日记】微信小程序getBackgroundAudioManager播放背景音乐提示播放失败二饭微信小程序小程序
【问题】小程序在手机上打开，播放在线音频的时候会提示播放失败，但打印异常提示的是src为null，自己在打印的时候却没问题。并且在微信开发者工具中播放的时候也是正常的，只有手机上打开使用时提示异常。【解决】如果你的链接中包含中文字符，请使用encodeURI(src)进行编码处理。示例代码如下：letsrc=this.data.host+this.data.previewUrl+this.data
Python基于Flask框架在线电影视频播放网站 xiaoxiong8826 flask python
在当今的互联网技术领域，构建一个在线电影视频播放网站依旧是一项热门且具有实际需求的任务。现在，让我们深入探讨如何利用Python编程语言和Flask框架来实现这样的功能。Flask作为一款轻量级的Web服务器网关接口（WSGI）Web应用框架，以其简洁灵活的特性深受广大开发者的喜爱。一、Flask框架基础Flask的核心设计理念为“简约而不简单”。它允许开发者以清晰的模块化方式组织代码，通过引入蓝
x5_webview_flutter 项目教程郦祺嫒Amiable
x5_webview_flutter项目教程x5_webview_flutter一个基于腾讯x5引擎的webviewflutter插件，简化集成，一行代码打开视频播放，暂时只支持android使用项目地址:https://gitcode.com/gh_mirrors/x5/x5_webview_flutter1.项目的目录结构及介绍x5_webview_flutter/├──android/│├─
Android15音频进阶之MediaRecorder支持通道数(一百零五) Android系统攻城狮音视频 python 开发语言
简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者新书发布：《Android系统多媒体进阶实战》优质专栏：Audio工程师进阶系列【原创干货持续更新中……】优质专栏：多媒体系统工程师系列【原创干货持续更新中……】优质视频课程：AAOS车载系统+AOSP14系统攻城狮入门视频实战课
MATLAB 工具库的使用说明和案例示例 go5463158465 机器学习深度学习 matlab matlab 开发语言
以下是一些常见的MATLAB工具库的使用说明和案例示例：信号处理工具箱（SignalProcessingToolbox）：使用说明：提供了用于生成、测量、变换、过滤和可视化信号的函数和应用程序。包括重新采样、平滑、同步信号、设计和分析滤波器、估算功率谱等算法，还包括参数化和线性预测建模算法。案例：音频信号滤波%读取音频文件(audioIn,Fs)=audioread('input_audio.wa
【数仓】数据仓库高频面试题题英文版(1) 和风与影面试数据仓库
今天更新数据仓库高频面试题英文版，分为三个部分。下面是第一部分。音频文件点击下方获取。【数仓】数据仓库高频面试题题英文版(1)【数仓】数据仓库高频面试题题英文版(2)【数仓】数据仓库高频面试题题英文版(3)WhatisDataWarehouse?Datawarehousing(DW)isamethodofgatheringandanalysingdatafrommanysourcesinord
freeswtch目录下modules.conf各个模块的介绍【freeswitch版本1.6.8】狂爱代码的码农 VOIP那些事 freeswitch
应用模块（applications）mod_abstraction：为其他模块提供抽象层，有助于简化模块开发，让开发者能在统一框架下开发新功能，减少与底层系统的直接交互，提高代码可移植性和可维护性。mod_av：处理音频和视频相关操作，可用于音视频会议、流媒体播放等场景，支持多种音视频编解码格式，实现音视频数据的采集、处理和传输。mod_avmd：主要用于音频和视频元数据处理，能提取、分析和管理音
Apache Tika 详解王小工开源 apache
ApacheTika是一个开源的、跨平台的库，专门用于检测、提取和解析多种文件格式的元数据。以下是对ApacheTika的详细解析：一、概述ApacheTika旨在为各种类型的数据提取提供一个单一的API，它支持多种文件格式，包括文档、图片、音频和视频等。作为一个底层库，Tika经常无缝地集成到其他应用或服务中，以增强对文件内容处理的能力。它广泛应用于搜索引擎的资料整理、内容管理系统的内容提取以及
RTMP|RTSP播放器只解码视频关键帧功能探讨音视频牛哥 RTSP播放器 RTMP播放器大牛直播SDK 实时音视频音视频 rtsp播放器 rtmp播放器 rtsp player rtmp player 大牛直播SDK
技术背景我们在做RTMP|RTSP直播播放器的时候，遇到过这样的技术诉求，在一些特定的应用场景中，可能只需要关键帧的信息，例如视频内容分析系统，可能只对关键帧进行分析，以提取特征、检测对象或场景变化。鉴于关键帧包含完整的图像信息，解码时不需要依赖其他帧，可以独立解码。相比之下，预测帧（P帧）和双向预测帧（B帧）需要参考其他帧的信息进行解码，在这种情况下，仅解码关键帧可以满足需求，同时避免不必要的解
AI驱动内容跨媒体转换新机遇 XianxinMao 人工智能
标题：AI驱动内容跨媒体转换新机遇文章信息摘要：文章深入探讨了AI工具在内容跨媒体转换中的应用价值。这类工具能将文本快速转换为音频和视频内容，显著降低了制作门槛和成本，月费用仅需10-50美元。通过多模态内容分发，创作者可以满足不同用户的内容消费偏好，提升内容可访问性，增加曝光机会。AI工具的自动化特性不仅节省了创作者的时间和精力，还能保证较高的输出质量，为内容创作行业带来新的机遇和可能性。===
多线程在打包工具中的运用前端
我们是袋鼠云数栈UED团队，致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神，探索前端道路，为社区积累并传播经验价值。本文作者：UED团队现代操作系统都是「多任务」的，也就是操作系统可以「并发」处理多个任务，比如可以在浏览页面的时候同时播放音乐。但是，一般来说我们的PC只有一个物理CPU，那么它是如何做到在只有一个CPU的情况下，并发处理多个任务的呢？我们简单探究一下。前置知识我们先简单熟
2024年AI发展的感知回顾八角Z 人工智能机器学习计算机视觉大数据
2024年，人工智能（AI）的发展呈现出诸多引人注目的关键词，深刻地塑造着技术格局、经济模式以及人类社会的方方面面。混合无疑成为这一年AI创新历程中最为显著的特征之一。多模态生成技术在这一年里取得了令人瞩目的不断进步，使得AI能够巧妙地将文本、图像、音频、视频等多种模态的信息进行深度融合与再创造。例如：AI内容创作：AI可以将作者的文字描述转换为生动的图像、视频和配乐，为创作提供更多可能性，让创意
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

最简单的视音频播放示例8：DirectSound播放PCM

DirectSound简介

DirectSound播放音频的流程

播放音频流程总结

代码

运行结果

下载

你可能感兴趣的:(音频,播放,PCM,DirectSound)