audio音频第2页

CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目支持音色保存本地一键整合包下载

近日，阿里通义实验室发布开源语音大模型项目FunAudioLLM，而且一次包含两个模型：SenseVoice和CosyVoice。

昨日之日2006·2025-07-09 11:47

【unity游戏开发入门到精通——通用篇】在 Unity 6 中轻松实现播放随机游戏音效——AudioRandomContainer音频随机容器的使用

考虑到每个人基础可能不一样，且并不是所有人都有同时做2D、3D开发的需求，所以我把【零基础入门unity游戏开发】分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。【C#篇】：主要讲解C#的基础语法，包括变量、数据类型、运算符、流程控制、面向对象等，适合没有编程基础的同学入门。【unity通用篇】：主要讲解unity的基础通用的知识，包括unity界面、unity脚本、unit

向宇it·2025-07-09 10:13

Flutter编译安卓应用时遇到的compileDebugJavaWithJavac和compileDebugKotlin版本不匹配的问题

最终定位的原因是项目一来了audioplayers组件。audioplayers组件有依赖了audioplayers_android，它使用1.8编译的。版本过低。

悠等生2018·2025-07-09 10:41

Itheum 借助 Walrus 实现音乐人和 AI 的大规模数据资产化

Itheum初期专注于为音乐行业提供技术支持，可将真实世界的数据资产化为可交易的数字资产，用于控制和交易大型文件，如母带音频、WAV音轨文件、高清视频，以及定制AI模型，推动自主数字数据经济的发展。

Sui_Network·2025-07-09 08:29

fcpx音视频剪辑编辑 Final Cut Pro X（Mac电脑）

经过Apple芯片优化，利用Metal引擎动力，可处理更复杂的项目，并支持高分辨率视频格式，并提供了多种高级功能，例如多摄像头编辑、音频混合、色彩校正、视觉特效和动画等。

fengyun2891·2025-07-09 05:02

云存储中包含哪些存储种类？

对象存储是一种将数据信息存储为对象的方式，对象存储主要是用于存储非结构化的数据信息，比如视频、图片和音频等内

wanhengidc·2025-07-09 03:51

【LLM】Llama-Index 架构

数据源（DataSources）PDF/文档数据库API网页音频/视频知识库自定义源数据连接器（DataConnectors）用于从各种数据源提取和加载数据，以便进行索引和查询。

FOUR_A·2025-07-09 02:46

cubase教程分享：Cubase录音时如何自动激活监听按钮

Cubase是一款功能全面且强大的音频处置工具，具有MIDI音序功用、音频编辑处置功用、多轨录音缩混功用、视频配乐以及环绕声处置功用，简直能满足用户的一切需求，并且最新版的Cubase着重提升了音质和稳定性

·2025-07-09 00:08

Linux下的MP3播放器开发指南

内容涵盖多进程编程、信号处理、音频解码技术、用户界面设计及文件操作。详细介绍了进程创建、进程通信、进程同步与互斥以及信号编程的细节。

薯条说影·2025-07-08 18:54

深入探索视频格式标准及其应用

本文还有配套的精品资源，点击获取简介：视频格式标准对于数字媒体的编码、存储、传输和播放至关重要，它涵盖了容器格式、视频编码、音频编码等多个方面。

D哥有个初二君·2025-07-08 18:24

BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析

引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。

·2025-07-08 14:59

生成式人工智能实战 | 条件生成对抗网络（conditional Generative Adversarial Network, cGAN）

cGAN3.1环境准备与数据加载3.2模型构建3.3模型训练0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)是近年来深度学习领域最具突破性的技术之一，能够生成逼真的图像、音频甚至文本

盼小辉丶·2025-07-08 14:59

Tika（文本提取）

（不成功）音频文件：如MP3、WAV、AAC、FL

代码的代·2025-07-08 13:23

别再瞎摸索了！HarmonyOS AI 字幕控件用法全解析

引言现在视频、音频这些多媒体内容越来越多，用户对字幕的需求也跟着水涨船高，毕竟谁不想轻松看懂听不懂的内容呢？

·2025-07-08 13:39

OBS 二次开发插件录屏

添加视频源intobsRecord::AddSource(eCaptureTypemodel){//清除之前的SourceclearScene();//音频源处理obs_set_output_source

bug和崩溃我都要·2025-07-08 12:15

Claude 最新功能解读：2024 年 AI 技术的前沿发展

长上下文理解、工具调用进化、个性化AI、伦理安全机制、2024AI前沿摘要：2024年，Anthropic推出的Claude3.5Sonnet成为AI领域的“现象级更新”——它不仅能同时处理文字、图片、音频等多种信息

AI原生应用开发·2025-07-08 09:50

Android15音频进阶之高通Adsp触发ramdump(一百二十六)

简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者博主新书推荐：《Android系统多媒体进阶实战》AndroidAudio工程师专栏：Audio工程师进阶系列【原创干货持续更新中……

Android系统攻城狮·2025-07-08 08:46

AI技术通过多模态应用（即融合文本、图像、语音、视频、传感器数据等多维度信息）正在深刻重塑工作模式、行业生态和人类创造力边界。

以下从技术融合、行业变革、职业重构三个维度展开分析，并附具体案例：一、技术融合：多模态AI的核心突破跨模态理解引擎案例：Meta的AudiovisualNeuralNetwork（AV-Wav2Vec）

zzywxc787·2025-07-08 08:43

开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！

开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。

小丁学Java·2025-07-08 05:57

使用 C++/Faiss 加速海量 MFCC 特征的相似性搜索

使用C++/Faiss加速海量MFCC特征的相似性搜索引言在现代音频处理应用中，例如大规模声纹识别(SpeakerRecognition)、音乐信息检索(MusicInformationRetrieval

whoarethenext·2025-07-08 04:17

Android 音频降噪 webrtc 去回声

Android音频降噪webrtc去回声集成AECM模块集成NS模块需要源码请留言集成AECM模块1.通过webrtc官网下载需要模块\modules\audio_processing\aecm2.新建

·2025-07-08 02:02

Android音视频通话

webrtc二、初始化工作三、开启socketudp服务四、判断socket是否可读五、发送数据到远端1、视频数据1.1、初始化MediaCodec1.2、通过MediaCodec进行H264编码2、音频数据

·2025-07-08 02:32

FAAC 在海思平台使用得到aac实时音频流

FAAC在海思平台使用得到aac实时音频流使用FAAC将音频pcm转为aac主要参见这篇博客FAAC在君正平台使用得到aac实时音频流_君正x2600音频-CSDN博客

张海森_168820·2025-07-08 00:45

HTML 媒体(Media)

其中，媒体元素是HTML的重要组成部分，它允许我们在网页中嵌入音频、视频、图像等多媒体内容，从而丰富用户的浏览体验。

·2025-07-08 00:12

《声音的变形记：Web Audio API的实时特效法则》

用户期待更丰富、更具沉浸感的听觉体验时，基于WebAudioAPI实现的实时音频特效，就像是为这片森林注入了灵动的精灵，让简单的声音蜕变为震撼人心的听觉盛宴。

程序猿阿伟·2025-07-07 23:41

安卓audio之Remote_Submix

参考文档：Audio-内录实现原理（上）Audio-内录实现原理（下）一、实现原理REMOTE_SUBMIX是Android系统提供的内录（InternalAudioCapture）方案，用于捕获设备音频输出

盼雨落，等风起·2025-07-07 23:35

android 音量调整

1流程图2audio_policy_volumes.xml阐述了流跟device的音量范围【AndroidAudio】5、EngineBase加载音量曲线和策略【基于AndroidQ】1.按键处理1.1

盼雨落，等风起·2025-07-07 23:05

audio的Framework层到hal 如何调用（以setparameters为例）

首先查看AudioManager之setParameters从应用到hal流程分析android6.0看到最后两个格：audio_hw_device_t->set_parameters()是上层调用hal

盼雨落，等风起·2025-07-07 23:35

多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎

随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI

zhaoyi_he·2025-07-07 15:43

使用 C++ 实现 MFCC 特征提取与说话人识别系统

使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。

whoarethenext·2025-07-07 14:38

【Cocos TypeScript 零基础 16.1】

目录FlappyBird背景其他心得_刚体audio部分FlappyBird本人没有按照老师的做法去做,大体差不多,当然老师做的更精细,有些不会的还是参考老师的方法参考部分小鸟如何像真实物体一样的重力效果点击如何使小鸟飞翔省略部分

adminwxs·2025-07-07 02:46

【推荐算法课程二】推荐算法介绍-深度学习算法

无论是图像、音频，

盒子6910·2025-07-06 23:28

FFmpeg、WebAssembly 和 WebGL 在 Web 端的结合应用

1.FFmpeg与WebAssemblyFFmpeg.wasm项目概念：将FFmpeg编译为WebAssembly在浏览器中运行特点：完全在浏览器中执行视频/音频处理无需服务器转码保护用户隐私（数据不离客户端

醉方休·2025-07-06 14:09

FFmpeg 详解

FFmpeg详解FFmpeg是一个强大的跨平台多媒体处理工具集，可以用于录制、转换、编辑和流式传输音频和视频内容。

醉方休·2025-07-06 14:06

写一个ununtu C++ 程序，调用ffmpeg ，来判断一个数字电影的音频文件mxf 的采样率（频率），通道数，采样位数

以下是一个UbuntuC++程序，使用FFmpegAPI来检测数字电影音频MXF文件的采样率（频率）、通道数、采样位数：1.安装FFmpeg开发库bashsudoaptupdatesudoaptinstalllibavformat-devlibavcodec-devlibavutil-dev2

m0_68739984·2025-07-06 04:26

打造基于51单片机的音乐播放器

51单片机是8051系列成员之一，具备处理控制任务的能力，包括音频播放。

红廉骑士兽·2025-07-06 02:15

ffmpeg将avi转为mp4 & ffmpeg将png转jpg & ffmpeg修改图片视频的尺寸 & ffmpeg旋转视频 & ffmpeg命令大全

命令png_to_jpg_2025_6_3.py将图片顺时针旋转90度命令rotate_90_2025_6_3.py视频操作ffmpeg水平翻转，垂直翻转，顺时针旋转180度ffmpeg去掉一个视频的音频将视频尺寸转为

computer_vision_chen·2025-07-05 20:28

视觉表征和多模态融合

视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。

一只齐刘海的猫·2025-07-05 11:27

JavaWeb开发1

文字，图片，音频，视频，超链接...我们看到的网页本质是程序员写的前端代码前端代码如何转换成用户眼中的网页？

偷萧逸苦茶·2025-07-05 09:42

深度探索：机器学习中的条件生成对抗网络（Conditional GAN, CGAN）算法原理及其应用

案例应用7.对比与其他算法8.结论与展望1.引言与背景生成对抗网络（GenerativeAdversarialNetworks,GANs）作为一种深度学习框架，在无监督学习领域展现出强大的能力，特别在图像、音频

·2025-07-05 09:09

国内知名的语音芯片厂家介绍(附主要产品线和型号)

这个厂商成1999年成立于广州，随后2000年进军语音芯片行业，2003年研发出叉车超速报警器，2004年研发出MP3音频芯片，并提供MP3方案，随着业务快速扩张2014年搬迁至深圳并更名深圳唯创知音电子有限公司

唯创知音·2025-07-05 07:55

在html中主要支持的音频格式,html5中audio支持音频格式

HTML5Audio标签能够支持wav,mp3,ogg,acc,webm等格式，但有个很重要的音乐文件格式midi(扩展名mid)却在各大浏览器中都没有内置的支持。

·2025-07-05 06:20

HTML5里video标签支持哪些格式的视频文件

video标签支持的视频格式：Ogg、MPEG4、WebMMP4=MPEG4文件使用H264视频编解码器和AAC音频编解码器WebM=WebM文件使用VP8视频编解码器和Vorbis音频编解码器Ogg=

Lucky_chengzi·2025-07-05 06:48

Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话

KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。

skywalk8163·2025-07-05 03:02

《深度学习》—— PyTorch的介绍及PyTorch的CPU版本安装

文章目录一、PyTorch的简单介绍二、pytorch的CPU版本安装三、torch、torchvision、torchaudio三个库的介绍一、PyTorch的简单介绍PyTorch是一个由FacebookAI

张小生180·2025-07-05 01:24

Python Pygame贪吃蛇游戏开发实战教程

Pygame库简化了游戏开发过程，提供了渲染、音频处理和事件管理功能。

罗博深·2025-07-04 23:38

视频工具箱 1.1.1 |小而美的视频处理工具，支持多种常用功能

这款工具无需安装，体积仅约200KB，提供了视频压缩、格式转换、转GIF、修改分辨率、加速播放以及音频提取等多种常用功能。其用户界面简洁直观，上手即用，首次运行时可自动下载或手动指定FFmpeg路径。

星图软件库·2025-07-04 22:31

05 RTMP Chunk Stream

RTMPChunkStream和RTMP一起适用于各种音频视频应用，从一对一和一对多直播到视频点播服务再到交互式会议应用。当与可靠的传输协议（如TCP[RF

皓瑞 =)·2025-07-04 18:03

AI大模型定义与应用概述

多模态大模型：擅长同时处理和生成多种模态的信息，如文生图、图生文、图文问答、视频理解、音频生成等。代表案例：

水云桐程序员·2025-07-04 17:26

【Python爬虫(65)】突破壁垒，深入挖掘：Python爬取行业报告网站全攻略

以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。

奔跑吧邓邓子·2025-07-04 16:55

推荐频道

audio音频

CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载