音频相关技术第5页

FFMPEG音视频开发: Linux下采集音频(alsa-lib库)与视频(V4L2框架)实时同步编码保存为MP4文件（视频录制）

全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）FFMPEG音视频开发:Linux下采集音频

鱼弦·2025-01-26 00:28

基于大语言模型构建本地个人AI助理

一、技术设计总体架构1.目标与需求个性化AI助理：构建一个本地专属AI助理，能够处理多种输入格式（文本、图像、音频

由数入道·2025-01-26 00:58

FFmpeg音视频采集

文章目录音视频采集音频采集获取设备信息录制麦克风录制声卡视频采集摄像机画面采集音视频采集DirectShow（简称DShow）是一个Windows平台上的流媒体框架，提供了高质量的多媒体流采集和回放功能

yerennuo·2025-01-26 00:25

Android FFmpeg 实现带滤镜的微信小视频录制功能

本文将实现对采集的预览帧（添加滤镜）和PCM音频同时编码复用生成一个mp4文件，即实现一个仿微信小视频录制功能。

攻城狮百里·2025-01-25 22:11

LE Audio

LEAudio是一种基于蓝牙5.2协议的全新音频技术标准。2020年，蓝牙技术联盟在CES上发表了蓝牙核心规范5.2版本，同年，新一代蓝牙音讯技术标准LEAudio低功耗音讯传输技术也随之问世。

百态老人·2025-01-25 17:36

蓝牙LE Audio的三大改进

多流音频的优势AppleAirPods的最大功能之一是，每个Pod都从配对的iOS设备接收单独的信号。通常，无线耳塞仅将一个芽与输出设备配对，然后将信号投射到另一个芽。

Lenzetech·2025-01-25 17:00

讯飞绘镜（ai生成视频）技术浅析（一）

爱研究的小牛·2025-01-25 14:11

PyQt6医疗多模态大语言模型（MLLM）实用系统框架构建初探（下.代码部分）

我们需要对医学影像、文本数据和音频数据分别进行预处理，以确保数

Allen_LVyingbo·2025-01-25 12:23

数字输出格式中的RAW与PCM有哪些区别

数字输出格式中的RAW与PCM在音频和视频处理领域有着显著的区别。以下是对这两种格式的详细比较：一、定义与原理RAW定义：RAW通常指的是未经任何处理或压缩的原始数据格式。

~远在太平洋~·2025-01-25 07:48

使用MediaCodec将PCM音频编码为AMR-WB格式

PCM(PulseCodeModulation)音频数据是一种未经压缩的原始音频数据格式，各个音频样本都由固定大小且有符号/无符号的整数值组成。

你好，工程师·2025-01-25 06:11

即时通讯技术文集（第42期）：直播技术合集(Part2) [共13篇]

[-1-]实时音频的混音在视频直播中的技术原理和实践总结[链接]http://www.52im.net/thread-1904-1-1.html[摘要]今天，我们就来聊一聊混音技术在视频直播应用中的实现原理

·2025-01-25 06:27

Opus编解码协议入门

details/126647876目录1.简介2.码率与音质、延时的关系2.1音质与码率比较2.2码率与延时对比3.Opus编解码框架4.DTX非连续传输5.FEC前向纠错1.简介Opus是一种开源免费的音频编解码器

弱冠少年·2025-01-25 02:42

学习AI职场应用技能的意义

随着人工智能技术的发展，许多行业都在引入相关技术和应用，人工智能应用场景已深度融入办公流程、项目管理、项目运营、客户服务等工

Mieux718·2025-01-24 18:42

【前端开发】前端开发深度解析：HTML、CSS、JavaScript与Vue.js

它使用各种标签（tags）来描述网页上的内容，包括文本、图像、链接、视频、音频等。HTML是网页开发的基础，与CSS（层叠样式表）和JavaScript等技术一起，共同构建出丰富多彩的网页世界。

RS迷途小书童·2025-01-24 10:40

从音频到 PDF：AI 全流程打造完美英文绘本教案

从音频到PDF：AI全流程打造完美英文绘本教案一、音频转文本：AI助力第一步借助AI的强大能力，将绘本的音频MP3转化为清晰的文本。这一过程不仅节省时间，还能确保文本的准确性。

伟贤AI之路·2025-01-24 09:00

使用Google Cloud Vertex AI进行文本和多模态生成

VertexAI不仅限于文本生成，还支持多模态输入，如图像和音频，极大地扩展了AI应用的潜力。核心原理解析VertexAI提供了一种简化的方式来使用

sagvWSRJHMNEB·2025-01-24 06:07

EMO2: 情感表达驱动的语音控制头像视频生成

与现有专注于生成全身或半身姿态的方法不同，我们研究了语音手势生成的挑战，并识别出音频特征与全身手势之间较弱的对应关系作为关键限制。为解决这一问题，我们将任务重新定义为两阶段过程。

AIGC探路者·2025-01-24 01:29

matlab构造线性相位FIR滤波器

文章目录前言一、构造一组声音二、采用FIR滤波器做频率筛选前言用生成的一组音频文件举例一、构造一组声音模拟钢琴音乐，采用逐渐衰减振荡的正弦波FFT的频域展示：源代码：functionsound_firFs

~Young.·2025-01-24 01:29

用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞

用GANs生成艺术作品的创新探索：人工智能与艺术的奇妙碰撞随着人工智能技术的飞速发展，生成对抗网络（GenerativeAdversarialNetworks，GANs）在图像生成、视频生成、音频合成等领域展现出了惊人的创造力

Echo_Wish·2025-01-23 20:19

Vue-Router路由动态缓存组件(keep-alive)，vue2/vue3不同写法

个人简介：某大型国企资深软件开发工程师，信息系统项目管理师、CSDN优质创作者、阿里云专家博主、华为云云享专家，分享前端后端相关技术与工作常见问题~作者：码喽的自我修养❣️专栏：vue2/3从基础到起飞若有帮助

码喽的自我修养·2025-01-23 18:38

python edge_tts（文本转音频)

1.安装插件edge-ttspipinstalledge-tts2.文本转音频""":paramvoice:指定声音名称:paramcontent:文本内容:paramaudioFile:音频输出文件:

Oscar_0208·2025-01-23 16:51

25.FFmpeg学习笔记 - 用libavfilter转换原始音频格式2

本文用libavfilter的另一种方法来转换原始音频格式，见代码。

whoyouare888·2025-01-23 14:38

2.21音频接口

模拟音频接口：传输直观容易实现，但会出现失真、不稳定的特点。TRS接口、XLR卡侬头、RCA莲花头。数字音频接口：AES/EBU物理接口、S/PDIF接口、同轴接口、光纤接口。

姓学名生·2025-01-23 14:07

大语言模型原理与工程实践：网页数据

网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。

AI大模型应用之禅·2025-01-23 06:38

Java前端基础—HTML

Java前端基础—HTML目录Java前端基础—HTML1.简介2.基础语法2.1HTML页面固定结构2.2标题标签2.3段落标签2.4换行标签2.5水平线标签2.6文本标签2.7图片标签2.8音频标签

缺少动力的火车·2025-01-23 00:14

Automotive audio策略总结

1.音频焦点1.1为什么会有音频焦点机制？在车辆环境中，可能存在多个应用或者服务需要同时或者交替播放音频，如导航、音乐、语音助手等。

天花板之恋·2025-01-22 18:34

RV1126笔记十二：实现RTMP单路拉流

一、介绍相比推流，拉流就简单了一点，只需要连接RTMP服务器，获取流，把数据解码出来显示和播放就可以，使用的是易百纳板子，测试时音频输出是不正常的，所以只解析了视数据，不处理音频。

殷忆枫·2025-01-22 18:00

【多模态 AI】从跨模态学习到生成革命：文本、图像与音频的深度交融

网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO

网罗开发·2025-01-22 16:09

【机器学习】多模态AI——融合多种数据源的智能系统

多模态AI（MultimodalAI）通过结合多种数据源（如文本、图像、音频等）来提升模型的智能和表现，适用于多样化的应用场景，如自动驾驶、医疗诊断、跨语言翻译等。

2的n次方_·2025-01-22 04:09

轻松检测麦克风功能：使用Python的sounddevice和soundfile库

轻松检测麦克风功能在进行音频处理或开发需要使用麦克风的应用程序时，确保麦克风功能正常是非常重要的。本文将介绍一个简单的Python脚本，它能够帮助我们检测本地麦克风的功能，确保我们的设备能够正常录音。

dongab_9·2025-01-22 01:15

【大模型】Spring AI对接ChatGpt使用详解

前言二、springai介绍2.1什么是SpringAI2.2SpringAI特点2.3SpringAI为开发带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本

小码农叔叔·2025-01-21 21:16

【微服务】Spring AI 使用详解

目录一、前言二、SpringAI概述2.1什么是SpringAI2.2SpringAI特点2.3SpringAI带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本

逆风飞翔的小叔·2025-01-21 20:05

智能眼镜火热发展 AI+AR或将成为主流趋势？

日前，TheVerge发布消息称，AI智能音频眼镜Ray-BanMeta的销量可能已突破100万。

MILI元宇宙·2025-01-21 15:46

C语言的网络编程

本文将深入探讨C语言的网络编程，帮助读者了解基本概念、相关技术及应用实例。网络编程基础1.网络协议在进行网络编程之前，了解网络协议是非常重要的。网络协议

AI向前看·2025-01-21 12:53

Android15音频进阶之音效sessionId(一百零四)

简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者新书发布：《Android系统多媒体进阶实战》优质专栏：Audio工程师进阶系列【原创干货持续更新中……】优质专栏：多媒体系统工程师系列【原创干货持续更新中……】优质视频课程：AAOS车载系统+AOSP14系统攻城狮入门视频实战课

Android系统攻城狮·2025-01-21 11:15

使用Java播放MP3或Wav音频

JavaSound是一个小巧的低层应用程序接口（API），它支持数字音频和乐器数字接口（MIDI）数据的记录和回放。

Java编程乐园·2025-01-21 09:57

GarageBand：录制与编辑音频轨道教程_2024-07-17_16-51-15.Tex

GarageBand：录制与编辑音频轨道教程GarageBand基础操作启动GarageBand并创建新项目打开GarageBand在Mac上，点击Dock栏中的GarageBand图标或通过Finder

chenjj4003·2025-01-21 06:57

Spring AI - 对话模型

目录：SpringAI框架介绍SpringAI对话模型核心API简介SpringAI提供了很多便利的功能，主要如下：AIModelAPI“ModelAPI”提供了聊天、文本转图像、音频转录、文本转语音、

还是转转·2025-01-21 05:52

探索未来，AI-WEBUI：让AI创作触手可及

探索未来，AI-WEBUI：让AI创作触手可及ai_webuiAI-WEBUI:AuniversalwebinterfaceforAIcreation,一款好用的图像、音频、视频AI处理工具项目地址:https

农爱宜·2025-01-21 04:10

Python 操作二进制文件

常见的二进制文件包括图片、音频、视频、可执行文件等。Python提供了处理二进制文件的工具，允许你读写任意类型的数据。

昱晏·2025-01-21 03:33

StarRocks Lakehouse 快速入门——Apache Iceberg

导读：StarRocksLakehouse快速入门旨在帮助大家快速了解湖仓相关技术，内容涵盖关键特性介绍、独特的优势、使用场景和如何与StarRocks快速构建一套解决方案。

·2025-01-20 22:13

OpenVoiceV2：零样本跨语言语音克隆技术，支持多种风格控制

为了克服这些挑战，MyShell.ai团队推出了全新的语音克隆技术OpenVoiceV2，它能够在无需额外训练的情况下，仅凭少量参考音频，就能够克隆任何人的声音，并支持多种语音风格控制，以及快速高效的跨语言语音生成

智慧医疗·2025-01-20 22:16

Unity文件路径访问总结：从基础到高级的资源加载方法

无论是加载纹理、模型、音频，还是读取配置文件，正确地处理路径和资源加载是确保项目顺利运行的关键。

Unity青子·2025-01-20 22:16

数值存储（一）-CPU大端和小端模式详解

在16比特的数字音频中，其第1个比特便对16bit的字的数值有最大的影响。例如，在十进制的15，389这一数字中，相当于万数那1行（1）的数字便对数值的影响最大。

poclist·2025-01-20 22:11

RV1126+FFMPEG推流项目(9)AI和AENC模块绑定，并且开启线程采集

开启AENC线程采集每一帧视频编码数据并存储到音频队列。绑定的函数是有rv1126通过的，R

学习嵌入式的小羊~·2025-01-20 21:33

RV1126+FFMPEG推流项目(1)总体框架讲解

音视频推流项目的讲解项目介绍本项目通过RV1126采集摄像头和麦克风数据，采用H.264/H.265视频编码技术和AAC音频编码技术进行压缩和合成复合流，然后推送到流媒体服务器。

学习嵌入式的小羊~·2025-01-20 21:03

【音视频SDL2入门】创建第一个窗口

SDL2提供了创建窗口、处理输入、播放音频等多种功

人才程序员·2025-01-20 20:27

MoviePy视频编辑和处理Python库的版本问题解决：No module named ‘moviepy.editor‘

MoviePy能够读写包括GIF在内的常见音频和视频格式，并且兼容Windows、Mac和Linux操作系统，支持Python2.7和3.x版本MoviePy基于ffmpeg和ImageMagick，提供了易于使用的

封步宇AIGC·2025-01-20 18:04

多模态视觉语言模型

.QwenVL5.1模型结构5.2训练过程6.参考1.多模态大模型概述1.1模型范式1）模态编码器：模态编码器主要是对来自不同模态的输入进行编码，来获得相应的特征，如视觉方面用ViT，CLIPVIT；音频模态用

funNLPer·2025-01-20 16:48

什么是国家标准？国家标准如何起草？

国家标准的起草一般有以下主要步骤：首先是预研阶段，要对相关技术发展和市场需求等进行调研，明确制定标准的必要性、可行性等诸多方面情况。接着成立标准起草工作组，工作组的成员通常包括行业专家、企业代表等。

德为先科技·2025-01-20 16:43

推荐频道

音频相关技术