音频视频处理第2页

完全免费，涵盖所有格式转换,打工人必备！

它支持视频、音频、图片和文档等多种格式的转换，几乎涵盖了我们日常学

一帆工具·2025-03-21 06:51

数据仓库和非结构化数据。

如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。

weixin_30631587·2025-03-21 03:33

Qwen2-Audio：通义千问音频大模型技术解读

Qwen2-Audio不仅能够理解各种音频信号，还能根据语音指令做出文本回应，甚至可以进

kakaZhui·2025-03-21 01:41

录音文字转换专家，一键搞定音转文字，让你的工作效率飞起来！

录音转文字助手是一款功能丰富的app，主要聚焦于语音识别、音频转文字以及实时语音翻译等功能。在这个app中，其内置了一套强大的识别系统。

开开心心_Every·2025-03-21 00:10

Qt 多线程设计：死循环与信号槽的权衡

音频和视频的解码、播放需要高效运行，同时还要与主线程或其他线程同步，例如通过信号通知播放进度。本文基于一个实际案例，分析了两种线程设计在死循环和信号槽使用中的表现，探讨其原因，并给出选择建议。

吃面不喝汤66·2025-03-21 00:32

视频转音频, 音频转文字

Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope

言之。·2025-03-20 23:57

效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍

该模型专为手机上的单图像、多图像和视频处理设计，旨在提供高效、准确的多模态内容理解与生成能力。随着移动设备的普及和计算能力的提升，用户对于在移动端进行复杂图像和视频处理的需求日益增长。

我就是全世界·2025-03-20 19:54

uniapp集成保利威直播SDK，ios为什么不能后台挂起uniapp插件？

解决办法：ios端使用后台音频播放和画中画功能，没有在manifest.json进行权限配置，在manifest.json进行权限配置即可。

·2025-03-20 19:38

如何在 Python 中将语音转换为文本

一、说明学习如何使用语音识别Python库执行语音识别，以在Python中将音频语音转换为文本。想要更快地编码吗？我们的Python代码生成器让您只需点击几下即可创建Python脚本。

无水先生·2025-03-20 14:17

向量数据库 PieCloudVector 进阶系列丨打造以 LLM 为基础的聊天机器人

本系列前两篇文章深入探讨了PieCloudVector在图片和音频数据上的应用之后，本文将聚焦于文本数据，探索PieCloudVector对于文本数据的向量化处理、存储以及检索，并最终结合LLM打造聊天机器人的全流程

·2025-03-20 14:52

Ubuntu Qt: no service found for - “org.qt-project.qt.mediaplayer“

1、前言在一次项目过程中，因项目需求，需要将windows开发的Qt项目迁移到ubuntu系统中，且在某个功能项中需要播放音频，在windows系统中能够正常运行，但在ubuntu系统中却显示defaultServiceProvider

wkm956·2025-03-20 14:11

stm32第四天控制蜂鸣器

（频率固定无法控制音色）无源蜂鸣器：内部无震荡源，需要外部脉冲信号驱动发声，声音频率可变。（可改变频率来改变音色）3.区分蜂鸣器从外观上

Do vis824·2025-03-20 12:52

一款适用于 Windows 、Mac 和 Linux 的屏幕录制与截图软件。

Screenrec很有意思的是可以在开始录制屏幕的同时录制咱们的网络摄像头视频和麦克风音频。在录制完成后大家可能会发现右下角软件会给大家发出一个提醒。这就是它的另一个特

Mbblovey·2025-03-20 08:23

ffmpeg+ubuntu16.04编译ffmpeg库

个人使用环境：ubuntudesktop16.04+ffmpeg4.2.1以下的库进行完整编译ffmpeg介绍FFmpeg是一个开源的多媒体框架，广泛用于处理音频、视频、字幕等多媒体数据。

小gpt&·2025-03-20 02:34

HTML音频、视频--课后作业实践

浅学了web一段时间，用浅显的知识做了一个小小的实践，各位大佬们多多包涵，指正。主要知识重现：标记语法：src:设置媒体文件的路径width、height:设置媒体文件的宽度、高度autostart:逻辑值，true为自动播放；false为不自动播放loop:逻辑值，true自动循环播放；false不循环播放2.CSS的内部样式表选择器1{属性1：属性值1；属性2：属性值2；......}选择器2

Heetun·2025-03-19 21:53

实现音视频播放功能鸿蒙示例代码

切换音频，展示音频播放器，选择不同按钮进行不同操作。实现思路AVPlayer播放主流程播放的全流程包含：创建AVPlayer，设置播放资源，设置播放参数（音量/倍

·2025-03-19 21:27

HarmonyOS TEXT 语音搜索场景学习和总结

在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。

·2025-03-19 20:24

QT多媒体播放器类：QMediaPlayer

QMediaPlayer是QtMultimedia模块中的核心类，用于播放音频和视频媒体文件。它支持本地文件、网络流媒体以及实时数据源，具备播放控制、状态管理、元数据访问等功能。

程序先锋·2025-03-19 20:42

使用 DingoDB 创建自查询检索器的实战演示

DingoDB深入解析与实战演示DingoDB是一种分布式多模向量数据库，它结合了数据湖和向量数据库的特点，能够存储任何类型和大小的数据（如Key-Value、PDF、音频、视频等）。

fgayif·2025-03-19 19:34

HarmonyOS TEXT 语音搜索场景学习和总结

在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。

·2025-03-19 16:19

HarmonyOS TEXT 语音搜索场景学习和总结

在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。

·2025-03-19 16:12

画面+音频实时去重，青否数字人最新技术已上线！

先预告下，青否数字人3月下旬将迎来一次超级重磅的版本发布。这将彻底颠覆你对直播数字人的认知！在手持样品讲解时，数字人主播能够精准输出产品话术。告别传统数字人一直不停歇的讲解，可自主暂停讲解、喝水、进出镜头、更换服饰，直播节奏比真人更自然。作为AI直播私有化部署行业引领者，青否数字人一直保持每周迭代的更新速度，持续引领行业前沿。接下来，为您深度揭秘3月中上旬推出的重磅新功能：AI话术5.0：AI泛化

2501_91000143·2025-03-19 14:57

实现音视频录制功能鸿蒙示例代码

实现音视频录制功能源码链接效果预览使用说明打开应用，展示视频录制和音频录制两个按钮。点击视频录制即可录制视频，并会保存视频。点击音频录制按钮即可开始录制音频，并会保留音频文件，点击文件可以进行播放。

·2025-03-19 11:09

实现音视频录制功能鸿蒙示例代码

实现音视频录制功能源码链接效果预览使用说明打开应用，展示视频录制和音频录制两个按钮。点击视频录制即可录制视频，并会保存视频。点击音频录制按钮即可开始录制音频，并会保留音频文件，点击文件可以进行播放。

·2025-03-19 11:29

文件及其应用场景

一般来说，文件可分为文本文件、视频文件、音频文件、图像文件、可执行文件等多种类别.文件操作的作用在日常操作中

烈焰猩猩·2025-03-19 10:20

从 0 到 1 掌握鸿蒙 AudioRenderer 音频渲染：我的自学笔记与踩坑实录（API 14）

最近我在研究HarmonyOS音频开发。在音视频领域，鸿蒙的AudioKit框架提供了AVPlayer和AudioRenderer两种方案。

李游Leo·2025-03-19 08:32

Android Api Demos登顶之路（九十五）Media-->AudioFx

/**这个demon演示了在进行音频播放时如何使用Visualizer和Equalizer类为音频定制*示波器和均衡器。

fishtosky·2025-03-19 04:56

Android 使用MediaPlayer播放音频详解

目录一、官方资料二、简单介绍三、MediaPlayer使用1.创建MediaPlayer实例2.重要API3.状态图4.代码5.常用API6.辅助效果总结一、官方资料MediaPlayer概览https://developer.android.google.cn/guide/topics/media/mediaplayer?hl=zh_cnMediaPlayer文档https://develope

吴硼·2025-03-19 04:55

RAG 在多模态数据处理中的应用探索：结合图像与文本生成

在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频

hy098543·2025-03-18 22:40

MS1826宏晶微高性能 HDMI 发射器芯片主要用于将视频和音频信号通过 HDMI 接口输出到显示设备。它广泛应用于视频转换、显示设备、嵌入式系统等领域持音频和视频同步传输

MS1826是宏晶微电子（MacroSilicon）推出的一款高性能HDMI发射器芯片，主要用于将视频和音频信号通过HDMI接口输出到显示设备。它广泛应用于视频转换、显示设备、嵌入式系统等领域。

li15817260414·2025-03-18 15:18

《突破性能瓶颈，用 Rust + WASM 实现浏览器端FFT加速300%实战》

引言：当JavaScript遇上硬核计算**“为什么我的音频分析页面卡到崩溃？”这是前端工程师在实现实时频谱可视化时最常见的噩梦。

煜bart·2025-03-18 12:29

【python】io.BytesIO简要介绍及示例

通常用来操作二进制数据，如图片、音频、视频等。也可以用于测试或者临时存储数据。代码举例：importio#写入二进制数据到BytesIO对象中data=b

魔都吴所谓·2025-03-18 12:24

Bluetooth Profile Specification之（AVRCP篇）5.0 AVRCP简介

字面意思音频/视频远程控制协议。AVRCP定义的命令和信息是通过AVCTP通过传输出去的。AVRCP协议不处理音视频流，支持这个协议的设备可以通过A2DP来分发流媒体数据。1.5版本到1.6版

心跳包·2025-03-18 12:51

蓝耘智算|从静态到动态：探索Maas平台海螺AI图片生成视频功能的强大能力

文章目录一、技术介绍二、平台注册三、功能体验四、总结随着人工智能技术的快速发展，视频处理和生成技术已经成为了众多行业关注的热点。

小馒头学python·2025-03-18 10:39

Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 视频编码（一）

关于Direct3D12视频编码在Windows11（WDDM3.0）之前，DirectX12提供了应用程序和驱动程序级接口（API和DDI），以支持多个视频应用程序的GPU加速，包括视频解码、视频处理和运动估计

程序员王马·2025-03-18 07:38

最方便的离线python实时中文语音识别！

importjsonimportpyaudioimportnumpyasnpfromvoskimportModel,KaldiRecognizer,SetLogLeveldefSaveWave(model):#设置音频参数

迟钝皮纳德·2025-03-18 03:37

小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章

摘要小米公司通过采用DeepSeek-R1算法的迁移技术，在音频理解领域实现了重大突破。其7B模型在MMAU音频评测基准中表现出色，成功登顶排行榜。

耶耶Norsea·2025-03-17 22:22

音频 Alsa、Framework及Android

1Alsa、Framework及Android1.1ALSA架构简介图11.2ALSA架构简介图21.3ALSA架构简介图31.4ALSA架构简介图41.5ALSA架构简介图51.6ALSA架构简介图61.8音频代码

‘禹’你一起·2025-03-17 21:19

从零开始学习鸿蒙系统

如果我想收发一些图片或者音频技术是不可能的，因为速度太慢了。后来随着互联网多媒体的流行，多了图片，视频等，所以

Ning.L·2025-03-17 21:18

深入解析音频编解码器（Audio CODEC）：硬件、接口与驱动开发

音频编解码器（AudioCODEC）是音频处理系统中的核心组件，负责模拟信号与数字信号的相互转换，广泛应用于智能音箱、嵌入式系统、消费电子产品等设备。

嵌入式Jerry·2025-03-17 21:42

差异中寻找共识：浅析中美欧AIGC服务商的标识义务

随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec

·2025-03-17 20:49

java实现大文件传输

简介在现代互联网中，我们经常需要传输大文件，例如视频、音频或者大型数据文件。传输大文件需要考虑诸多因素，例如网络延迟、带宽限制和传输安全性。

M_Snow·2025-03-17 18:56

一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用

测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k

DerrickOzil·2025-03-17 12:09

基于GPT架构的视频生成工具（VideoGPT）

最初，研究人员尝试将自然语言处理中的GPT架构思想引入视频处理领域，开始探索如何利用其强大的语言理解和生成能力来处理视频的时空信息。

deepdata_cn·2025-03-17 08:16

Android15音频进阶之qnx定位so调用进程(一百一十一)

简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者新书发布：《Android系统多媒体进阶实战》优质专栏：Audio工程师进阶系列【原创干货持续更新中……】优质专栏：多媒体系统工程师系列【原创干货持续更新中……】优质视频课程：AAOS车载系统+AOSP14系统攻城狮入门视频实战课

Android系统攻城狮·2025-03-17 08:16

Google Gemini 大模型技术架构剖析

▼最近直播超级多，预约保你有收获近期直播：《从原理到实践教你做出一个Gemini/ChatGPT》—1—Gemini技术架构剖析Google新的多模态模型家族Gemini，它在文本、图像、音频、视频等方面具有卓越的能力

musicml·2025-03-17 08:15

车载Android音频系统 CarAudioService

CarAudioService是车载音频系统的核心服务，负责管理多音源协调、音频路由、音量策略、硬件控制等关键功能，处理车载环境下特有的音频场景（如倒车提示音、车门状态联动等）。

Code_onepage·2025-03-17 07:35

FFMPEG实现音频重采样

原文：https://blog.csdn.net/hiwubihe/article/details/81259134[音频编解码系列文章]音频编解码基础FFMPEG实现音频重采样FFMPEG实现PCM编码

QQ_1695710968·2025-03-17 01:47

二.使用ffmpeg对原始音频数据重采样并进行AAC编码

重采样：将音频三元组【采样率采样格式通道数】之中的任何一个或者多个值改变。一.为什么要进行重采样？

djykkkkkk·2025-03-17 01:47

一.ffmpeg打开麦克风，录制音频并重采样

一.windowswindows下使用msys编译ffmpeg，先编译libx264和libx265，然后编译ffmpeg的时候需要添加这两个库的路径才能--enable；为什么ffplay--enable了还是没有呢，仔细看编译打印，可能刚有一段报错提示SDL找不到，这个时候咱们就直接使用msys安装SDL，然后--enable启动sdl，这样ffplay就可以编译成功了。参考这个博主：FFmp

djykkkkkk·2025-03-17 01:16

推荐频道

音频视频处理

完全免费，涵盖所有格式转换,打工人必备！

数据仓库和非结构化数据。

Qwen2-Audio：通义千问音频大模型技术解读

录音文字转换专家，一键搞定音转文字，让你的工作效率飞起来！

Qt 多线程设计：死循环与信号槽的权衡

视频转音频, 音频转文字

效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍

uniapp集成保利威直播SDK，ios为什么不能后台挂起uniapp插件？

如何在 Python 中将语音转换为文本

向量数据库 PieCloudVector 进阶系列丨打造以 LLM 为基础的聊天机器人

Ubuntu Qt: no service found for - “org.qt-project.qt.mediaplayer“

stm32第四天控制蜂鸣器

一款适用于 Windows 、Mac 和 Linux 的屏幕录制与截图软件。

ffmpeg+ubuntu16.04编译ffmpeg库

HTML音频、视频--课后作业实践

实现音视频播放功能鸿蒙示例代码

HarmonyOS TEXT 语音搜索场景学习和总结

QT多媒体播放器类：QMediaPlayer

使用 DingoDB 创建自查询检索器的实战演示

HarmonyOS TEXT 语音搜索场景学习和总结

HarmonyOS TEXT 语音搜索场景学习和总结

画面+音频实时去重，青否数字人最新技术已上线！

实现音视频录制功能鸿蒙示例代码

实现音视频录制功能鸿蒙示例代码

文件及其应用场景

从 0 到 1 掌握鸿蒙 AudioRenderer 音频渲染：我的自学笔记与踩坑实录（API 14）

Android Api Demos登顶之路（九十五）Media-->AudioFx

Android 使用MediaPlayer播放音频详解

RAG 在多模态数据处理中的应用探索：结合图像与文本生成

MS1826宏晶微 高性能 HDMI 发射器芯片 主要用于将视频和音频信号通过 HDMI 接口输出到显示设备。它广泛应用于视频转换、显示设备、嵌入式系统等领域 持音频和视频同步传输

《突破性能瓶颈，用 Rust + WASM 实现浏览器端FFT加速300%实战》

【python】io.BytesIO简要介绍及示例

Bluetooth Profile Specification之（AVRCP篇）5.0 AVRCP简介

蓝耘智算|从静态到动态：探索Maas平台海螺AI图片生成视频功能的强大能力

Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 视频编码（一）

最方便的离线python实时中文语音识别！

小米音频理解技术重大突破：7B模型借助DeepSeek-R1算法引领行业新篇章

音频 Alsa、Framework及Android

从零开始学习鸿蒙系统

深入解析音频编解码器（Audio CODEC）：硬件、接口与驱动开发

差异中寻找共识：浅析中美欧AIGC服务商的标识义务

java实现大文件传输

一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用

基于GPT架构的视频生成工具（VideoGPT）

Android15音频进阶之qnx定位so调用进程(一百一十一)

Google Gemini 大模型技术架构剖析

车载Android音频系统 CarAudioService

FFMPEG实现音频重采样

二.使用ffmpeg对原始音频数据重采样并进行AAC编码

一.ffmpeg打开麦克风，录制音频并重采样

MS1826宏晶微高性能 HDMI 发射器芯片主要用于将视频和音频信号通过 HDMI 接口输出到显示设备。它广泛应用于视频转换、显示设备、嵌入式系统等领域持音频和视频同步传输