PCM音频第11页

AI实时对话的通信基础，WebRTC技术综合指南

在通过您的网络浏览器进行音频和视频通话、屏幕共享或实时数据传输时，您可能并不常思考其背后的技术。推动这些功能的核心力量之一就是WebRTC。

腾讯云音视频·2025-05-18 02:16

【重磅资源】1990-2024年大学英语四六级全套真题资源分享（含听力+答案解析）

资源介绍今天给大家分享一个全网最完整的大学英语四六级备考资源包，包含1990-2024年全部历年真题，特色如下：完整覆盖：34年真题合集（PDF高清版）听力配套：MP3音频文件+字幕文本（支持变速播放）

一吱喵喵·2025-05-17 22:51

大语言模型与多模态模型比较

LMM：支持文本、图像、音频、视频等多种模态输入，例如根据图片生成描述（图文生成）或结合语音和文本进行交互。

有梦想的攻城狮·2025-05-17 19:32

音视频转文字神器：替代语音识别

这是一款小巧却功能强大的音视频处理工具，来自吾爱pj，支持提取视频/音频中的语音，并能将识别结果导出为TXT、str、lrc等多种字幕格式。

软件菜园子·2025-05-17 16:41

语音识别——语音转文字

SenseVoiceSmall阿里开源大模型，SenseVoice是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测

张飞飞飞飞飞·2025-05-17 09:20

蓝牙A2DP协议详解及Android实现

二、蓝牙A2DP的工作流程在Android中的A2DP实现1.权限配置2.A2DP连接的Service绑定3.设备连接与断开4.音频流传输5.断开连接三、A2DP在Android中的典型应用场景四、常见问题与解决方案

找藉口是失败者的习惯·2025-05-17 05:50

【android bluetooth 协议分析 11】【AVDTP详解 1】【宏观感受一下avdtp是个啥东东】

1.生活类比：蓝牙音频连接就像“点歌听歌”的过程想象这样一个场景：你在车里（车机=音箱=A2DPSink），朋友（手机=点歌机=A2DPSou

奔跑吧 android·2025-05-17 05:19

A2DP协议介绍

.ProfileOverview2.1ProfileStacksA2DP协议1.Introduction1.1ScopeA2DP:AdvancedAudioDistributionProfile高质量音频分发协议

打个工而已·2025-05-17 05:18

【android bluetooth 协议分析 12】【A2DP详解 1】【车机侧蓝牙音乐免切源介绍】

在车机系统中，音频源（AudioSource）通常包括：收音机（Radio）蓝牙音乐（BluetoothAudio/A2DP）USB音乐AUX输入在线音乐（如网易云、QQ音乐）电话通话音频（H

奔跑吧 android·2025-05-17 05:17

语音识别——通过PyAudio录入音频

PyAudio是一个用于处理音频的Python库，它提供了录制和播放音频的功能。通过PyAudio，可以轻松地从麦克风或其他音频输入设备录制音频，并将其保存为文件或进行进一步处理。

张飞飞飞飞飞·2025-05-17 05:47

【ASR学习笔记】：语音识别领域基本术语

VAD(VoiceActivityDetection)语音活动检测，判断一段音频里哪里是说话，哪里是静音或噪音。

饭碗、碗碗香·2025-05-17 02:01

【AI论文】对抗性后期训练快速文本到音频生成

摘要：文本到音频系统虽然性能不断提高，但在推理时速度很慢，因此对于许多创意应用来说，它们的延迟是不切实际的。我们提出了对抗相对对比（ARC）后训练，这是第一个不基于蒸馏的扩散/流模型的对抗加速算法。

东临碣石82·2025-05-16 16:49

Kaldi GStreamer 服务器：实时语音识别的强大工具

kaldi-gstreamer-serveralumae/kaldi-gstreamer-server:KaldiGStreamerServer是基于Kaldi语音识别工具包和GStreamer多媒体框架构建的一个服务器应用，允许通过网络传输音频数据

滑辰煦Marc·2025-05-16 16:17

使用WebSocket实现跨多个服务器传输音频及实时语音识别

下面我的项目信息：项目架构：A项目（Websocket客户端/React前端）=>B项目（Websocket客户端/Java后端）=》C项目（Websocket服务端/Node.js后端）项目功能：A项目有一个开启语音输入的功能，用户开始说话，获取麦克风输入的数据，将获取到的数据传输到B项目，B项目返回一段模拟的识别文字(随机生成)给A项目，（真实逻辑应该是在C项目生成识别文字给到B，B再给我A，

灰色人生qwer·2025-05-16 16:16

v3.exo是什么文件_exo是什么文件？

可以是数字、字母、符号.你可以把文件的扩展名理解为是文件的“身份证”,不同的扩展名决定了不同文件类型和作用.AACE：Ace压缩档案格式ACT：Microsoftoffice助手文件AIF，AIFF：音频互交换文件

weixin_39932692·2025-05-16 12:25

Python语言带谱曲功能beep简谱播放器程序代码QZQ

importnumpyasnpimportpygameimporttkinterastkfromtkinterimportmessagebox,Menuimportrandom#添加随机模块导入#初始化音频系统

EasySoft易软·2025-05-16 09:54

HTML+CSS

:定义网页的主体部分，存放给用户看的信息，也是网页的主体内容，如：文字、图片、视频、音频、表格等。中定义标题显示在浏览器的标题位置HTML中的标签特点HTML标签不区分大小写，建议小写HTML标签

Kevinyu_·2025-05-16 00:49

新手必追！树莓派系列教程第三弹：看电视

VLC媒体播放器VLC能够播放几乎所有常见的音频和视频格式，如MP4、AVI、MKV、FLV、MP3、WAV等，无需额外安装解码器。它还支持一些较为小众或特殊的格式，如MPEG-2、MPEG-

疯狂的豆包·2025-05-15 21:01

ubuntu studio 系统详解

UbuntuStudio系统详解：面向多媒体创作的专业Linux发行版一、定位与目标用户UbuntuStudio是Ubuntu的官方衍生版本（Flavor），专为音频、视频、图形设计、音乐制作、影视后期等多媒体创作场景设计

cmakerpymakerhtmler·2025-05-15 19:46

1.3.1 Linux音频框架alsa详细介绍

经过多年的发展，ALSA成为Linux内核中音频架构的标准。结构和架构ALSA由以下几个主要部分组成：内核模块：这是ALSA的核心部分，包括声音驱动模块，它们直接与硬件设备沟通。

天夏已微凉·2025-05-15 17:03

1.3.2 linux音频PulseAudio详细介绍

PulseAudio是一个在Linux及其他类Unix操作系统中广泛使用的声音服务器（SoundServer），它为不同的音频应用程序提供了一种中间层，以方便管理和控制音频流。

天夏已微凉·2025-05-15 17:03

多声道音频和高清音频（如Dolby Digital、DTS）和使用

多声道音频多声道音频是指使用多个独立的音频信号通道来创建更逼真的和包围感更强的声音体验。

天夏已微凉·2025-05-15 17:03

音频质量客观评价标准（信噪比、总谐波失真等）

在音频开发和评测过程中，音频质量的客观评价标准对于确保产品性能和用户体验非常重要。

天夏已微凉·2025-05-15 17:03

OpenHarmony音频驱动介绍

OpenHarmony官方音频驱动介绍文档路径：https://gitee.com/openharmony/docs/blob/master/zh-cn/device-dev/driver/driver-peripherals-audio-des.mdOpenHarmony

天夏已微凉·2025-05-15 17:33

端到端音频聊天模型论文速读：Voila

一、引言论文首先阐述了当前大多AI系统是被动响应式交互，像Siri、ChatGPT等，用户提问后系统回答，接着等待下一个提示，这种基于命令的模式对于基础AI助手或许够用，但对于真正自主的机器，与人类交互的丰富动态性相差甚远。自主AI应能实时评估环境、预判用户需求，并确定以何种方式互动。例如，当用户在街上行走时，AI可能会提醒他们注意未察觉的自行车，或者建议在附近一家隐蔽的咖啡馆停留。而语音作为最自

Open-source-AI·2025-05-15 17:59

FFmpeg 与 C++ 构建音视频处理全链路实战（五）—— 音视频编码与封装

在前面的系列文章中，我们已经层层深入，从MP4与FLV封装格式的剖析，到H.264和AAC原理的探索，再到FFmpeg的解封装、解码，以及音频重采样、视频尺寸变化的代码实现，为音视频处理打下了坚实基础。

achene_ql·2025-05-15 15:16

stable diffusion文生图代码解读

fromPILimportImageimporttorchfromtransformersimportCLIPTextModel,CLIPTokenizerfromdiffusersimportAutoencoderKL,UNet2DConditionModel,UniPCMultistepSchedulerMODEL

Qiming_v·2025-05-15 05:40

荣耀手机，系统MagicOS 9.0 USB配置没有音频来源后无法被adb检测到，无法真机调试的解决办法

荣耀手机，系统MagicOS9.0USB配置没有音频来源后无法被adb检测到，无法真机调试的解决办法前言环境说明操作方法前言一直在使用的uni-app真机运行荣耀手机方法，都是通过设置USB配置的音频来源才能成功

勤掘努君·2025-05-14 23:32

DCT--离散余弦变换

它用于大多数数字媒体，包括数字图像（如JPEG和HEIF，其中可以丢弃小型高频分量），数字视频（如MPEG和H.26x），数字音频（如杜比数字，MP3和AAC），数字电视（如SDTV，HDTV和VOD）

LEEE@FPGA·2025-05-14 22:56

大模型技术：DeepSeek在数据领域的30个应用场景

2.非结构化数据转换将PDF、图片、音频等非结构化数据

AI小白熊·2025-05-14 20:34

火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军

在刚刚过去的ICASSP2023声学回声消除（AEC）挑战赛中，火山引擎RTC团队联合西北工业大学音频语音与语言处理研究实验室，在通用回声消除(Non-personalizedAEC)与特定说话人回声消除

火山引擎视频云·2025-05-14 19:32

62 国语言+无广告格式工厂损坏修复到人声分离快速预览 + 协同工作

各种主流格式，像视频的MP4、AVI、MKV，音频的MP3、FLAC，还有图片啥的，它都能播。

2501_91886517·2025-05-14 11:12

歌曲《忘尘谷》基于C语言的歌曲调性检测技术解析

本文以C语言为核心，结合音频处理库（libsndfile）和快速傅里叶变换库（FFTW），探讨如何实现调性检测，并通过实际案例《忘尘谷》分析程序结果与简谱标记的差异。

109702008·2025-05-14 07:17

ubuntu系统部署GPT-SoVITS

只有最基础的切割音频、识别文字、推理的代码，没有训练、微调参考视频：链接下载安装包可以直接下载windows部分的下载整合包链接，比克隆代码方便很多，不需要分别下载各种模型GPT-SoVITS指南里有写解压的注意事项

LtmkWoQjPWiWo·2025-05-14 05:00

《ffplay 读线程与解码线程分析：从初始化到 seek 操作，对比视频与音频解码的差异》

1read-thread1.1初始化部分1.分配.avformat_alloc_context创建上下⽂ic=avformat_alloc_context();if(!ic){av_log(NULL,AV_LOG_FATAL,"Couldnotallocatecontext.\n");ret=AVERROR(ENOMEM);gotofail;}2ic->interrupt_callback.cal

邪恶的贝利亚·2025-05-14 05:30

FFmpeg 4.3 H265 二十二，将C++线程加入到代码

零：为什么要加入C++前面我们实现的代码都是在主线程中完成了一个mp4文件的解封装，解码，（音频/视频重采样），编码，封装。

hunandede·2025-05-14 05:30

av_interleaved_write_frame错误 Invalid data found when processing input

问题描述：调用av_interleaved_write_frame接口发送AAC格式的音频数据时，报错：Invaliddatafoundwhenprocessinginput。

终成一个大象·2025-05-14 05:29

剖析 FFmpeg：从基本功能到过滤器，实现音视频处理的灵活性

目录1.解复用2解码2.1音频解码2.2视频解码3修饰3.1avio3.2重采样4过滤器4.1过滤器基本知识4.2简单过滤器4.3复杂滤镜图1.解复用解复用就是把容器中的媒体流分离出来，方便我们对媒体流处理

邪恶的贝利亚·2025-05-14 05:59

RV1126笔记一：ffmpeg+rtmp

/多路RTMP推流2、单路/多路RTMP拉流3、SRT推流项目主要涉及多个知识点，x264，x265,srt等，RV1126可以直接采用硬件编码方式和解码方式采集H264和H265，我们只需要把数据和音频通过

leona_nuaa·2025-05-14 02:40

前端面试每日三题 - Day 32

资源占用低功能扩展受限小型工具类应用多窗口模式模块解耦、独立运行进程管理复杂度高编辑器类应用微前端模式技术栈灵活、独立部署通信成本高企业级复杂应用IPC通信最佳实践//主进程（main.js）const{ipcMain

蓝婷儿·2025-05-13 23:51

Spring推出Spring AI框架，看看怎么个事

文章目录概述SpringAI介绍SpringAI提供以下功能支持的聊天模型有哪些支持的文生图的模型有哪些支持的音频到文本模型支持的嵌入模型有哪些支持的矢量数据库有哪些概述在当今快速发展的技术时代，人工智能

記億揺晃着的那天·2025-05-13 21:10

React 播客专栏 Vol.6｜TypeScript 是什么？为啥写 React 要加它？

欢迎回到《前端达人·React播客书单》第6期（正文内容为学习笔记摘要，音频内容是详细的解读，方便你理解），请点击下方收听你是不是刚学React，结果发现教程里全是.tsx后缀、还动不动加个冒号加个类型

前端达人·2025-05-13 12:36

html基础学习

html(hypertextmarkuplanguage)超文本标记语言文字图像音频视频动画文本格式化菜鸟教程文本格式化这个文本是加粗的这个文本是加粗的这个文本是缩小的这个文本是放大的这个文本是斜体这个文本是斜体这个文本包含下标这个文本包含上标

_Mate·2025-05-13 01:31

苹果Airplay2学习

AirPlay作为苹果公司推出的一项技术，目前已经成为了iOS和macOS设备的重要功能之一，它可以将音频、视频和图像从苹果设备无线传输到其他支持AirPlay的设备，例如音响、电视和扬声器等。

Lotay_天天·2025-05-13 01:31

在 React Native 中使用 Whisper 进行语音识别

语法、句法、结构和音频对于理解和处理人类语音至关重要。语音识别算法是计算机科

pxr007·2025-05-12 20:58

android 媒体框架

1MediaMuxer在Android多媒体框架中，MediaMuxer负责将编码后的音频、视频数据封装到容器文件（如MP4、WebM等）中。其调用流程涉及轨道添加、数据同步、格式配置等关键步骤。

aningxiaoxixi·2025-05-12 20:54

深入解析向量数据库：基本原理与主流实现

近年来，随着机器学习和深度学习的发展，文本、图像、音频等非结构化数据常被转换为向量表示，用于语义搜索和推荐等场景。

Gurucyy·2025-05-12 19:22

非结构化数据的智能化蜕变：从混沌到知识的进化之路

人工智能技术的突破性发展，正赋予我们前所未有的能力，将这些包含文本、图像、音频、视频等多元形态的数据转化为结构化知识。这个从混沌到有序的转化过程，不仅是技术的演进史，更是人类认知能力在数字空间的延伸。

R²AIN SUITE·2025-05-12 17:06

细说getOutputStream()方法

你可以通过这个输出流，直接将数据写入HTTP响应体中，比如：文件（二进制）图片、音频、视频Excel、PDF、Word等工作原理（简化）浏览器发送请求到服务器。

Klong.k·2025-05-12 13:36

基于深度学习的多模态情感分析

基于深度学习的多模态情感分析是一个结合不同类型数据（如文本、图像、音频等）来检测和分析情感的领域。它利用深度学习技术来处理和融合多模态信息，从而提高情感分析的准确性和鲁棒性。

SEU-WYL·2025-05-12 07:29

推荐频道

PCM音频

AI实时对话的通信基础，WebRTC技术综合指南

【重磅资源】1990-2024年大学英语四六级全套真题资源分享（含听力+答案解析）

大语言模型与多模态模型比较

音视频转文字神器：替代语音识别

语音识别——语音转文字

蓝牙A2DP协议详解及Android实现

【android bluetooth 协议分析 11】【AVDTP详解 1】【宏观感受一下avdtp是个啥东东】

A2DP协议介绍

【android bluetooth 协议分析 12】【A2DP详解 1】【车机侧蓝牙音乐免切源介绍】

语音识别——通过PyAudio录入音频

【ASR学习笔记】：语音识别领域基本术语

【AI论文】对抗性后期训练快速文本到音频生成

Kaldi GStreamer 服务器：实时语音识别的强大工具

使用WebSocket实现跨多个服务器传输音频及实时语音识别

v3.exo是什么文件_exo是什么文件？

Python语言带谱曲功能beep简谱播放器程序代码QZQ

HTML+CSS

新手必追！树莓派系列教程第三弹：看电视

ubuntu studio 系统详解

1.3.1 Linux音频框架alsa详细介绍

1.3.2 linux音频PulseAudio详细介绍

多声道音频和高清音频（如Dolby Digital、DTS）和使用

音频质量客观评价标准（信噪比、总谐波失真等）

OpenHarmony音频驱动介绍

端到端音频聊天模型论文速读：Voila

FFmpeg 与 C++ 构建音视频处理全链路实战（五）—— 音视频编码与封装

stable diffusion文生图代码解读

荣耀手机，系统MagicOS 9.0 USB配置没有音频来源后无法被adb检测到，无法真机调试的解决办法

DCT--离散余弦变换

大模型技术：DeepSeek在数据领域的30个应用场景

火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军

62 国语言+无广告格式工厂 损坏修复到人声分离 快速预览 + 协同工作

歌曲《忘尘谷》基于C语言的歌曲调性检测技术解析

ubuntu系统部署GPT-SoVITS

《ffplay 读线程与解码线程分析：从初始化到 seek 操作，对比视频与音频解码的差异》

FFmpeg 4.3 H265 二十二，将C++线程加入到代码

av_interleaved_write_frame错误 Invalid data found when processing input

剖析 FFmpeg：从基本功能到过滤器，实现音视频处理的灵活性

RV1126笔记一：ffmpeg+rtmp

前端面试每日三题 - Day 32

Spring推出Spring AI框架，看看怎么个事

React 播客专栏 Vol.6｜TypeScript 是什么？为啥写 React 要加它？

html基础学习

苹果Airplay2学习

在 React Native 中使用 Whisper 进行语音识别

android 媒体框架

深入解析向量数据库：基本原理与主流实现

非结构化数据的智能化蜕变：从混沌到知识的进化之路

细说getOutputStream()方法

基于深度学习的多模态情感分析

62 国语言+无广告格式工厂损坏修复到人声分离快速预览 + 协同工作