语音视频技术

声音克隆一键本地化部署 GPT-SoVITS

文章目录GPT-SoVITS介绍1：GPT-SoVITS安装2：GPT-SoVITS使用2.1人声伴奏分离，去混响去延时工具2.2语音切分工具2.3语音降噪工具2.4中文批量离线ASR工具2.5语音文本校对标注工具

博客胡·2025-03-12 18:48

AI视频生成工具清单（附网址与免费说明）

AI视频生成工具清单（附网址与免费说明）1.Synthesia网址：https://www.synthesia.io是否免费：免费试用（生成视频带水印）核心功能：✅120+AI虚拟主播✅支持70种语言语音合成

远方2.0·2025-03-12 18:46

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal是一种参数高效的多模态模型，通过LoRA适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。

余俊晖·2025-03-12 12:40

情感识别（Emotion Recognition）

情感识别（EmotionRecognition）是通过分析人类的多模态数据（如面部表情、语音、文本等）来识别和理解其情感状态的技术。它在人机交互、心理健康、市场分析等领域有广泛应用。

路野yue·2025-03-12 08:10

工程化与框架系列（27）--前端音视频处理

音视频技术概述前端音视频处理主要包括以下技术方向：音频处理：音频播放、录制、分析视频处理：视频播放、录制、编辑流媒体：实时音视频、直播推流WebRTC：点对点通信媒体格式：编解码、转换音频处理实现音频播放

一进制ᅟᅠ ‌‍‎‏ ·2025-03-12 06:24

【AI深度学习网络】Transformer时代，RNN（循环神经网络）为何仍是时序建模的“秘密武器”？

循环神经网络（RecurrentNeuralNetwork,RNN）是一种专门处理序列数据（如文本、语音、时间序列）的深度学习模型。

arbboter·2025-03-12 02:18

深度解析短视频开源项目 MoneyPrinterTurbo 使用教程

它提供了一整套完整的工作流，结合了图像处理、文本转语音(TTS)、视频编辑等功能，帮助用户快速制作符合社交媒体平台（如TikTok、InstagramReels、YouTubeShorts）要求的短视频

非著名架构师·2025-03-12 02:47

多模态大模型：技术原理与实战模型压缩实战

ZenandtheArtofComputerProgramming关键词：多模态大模型，技术原理，模型压缩，实战，TensorFlow，PyTorch，模型压缩方法，应用场景1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，多模态大模型在图像识别、语音识别

AGI大模型与大数据研究院·2025-03-12 01:16

2025年工业智能对讲机有多智能？数据采集+AI不在话下！

但传统设备仅能实现基础语音传输的局限性，已难以满足现代工业对效率与智能化的需求。

AORO_BEIDOU·2025-03-11 22:18

esp32手把手DIY AI小智语音助手教程 (三) 配置ESP32设备 Wi-Fi连接网络

esp32手把手DIYAI小智语音助手教程(三)配置ESP32设备Wi-Fi连接网络1.WI-FI网络配置1）启动设备在bin固件下载/烧录后，将设备保持接通电源，按下开发板上的RST按钮复位重启设备（

代码简单说·2025-03-11 22:44

【花雕动手做】基于ESP32S3和通义千问大模型AI语音聊天机器人

开源项目1、核心功能：该项目利用ESP32S3开发板，结合通义千问大模型，实现了一个AI语音聊天机器人。用户可以通过语音与机器人进行交互，机器人能够理解用户的语音指令并给出相应的语音回答。

驴友花雕·2025-03-11 22:44

ESP32 小智 AI 机器人入门教程从原理到实现（自己云端部署）

简介：本教程将指导初学者使用ESP32微控制器开发一个简单的语音对话机器人“小智”。我们将介绍所需的基础原理、硬件准备、软件环境搭建，以及如何编写代码实现语音唤醒和与云端大模型的对接。

与光同尘大道至简·2025-03-11 18:11

计算机网络：电路交换，报文交换，分组交换

特点1.建立连接（尝试占用通信资源）2.通信（一直占用通信资源）3.释放连接（归还通信资源）优点：•实时性强（如语音通话、视频会议）。•数据传输顺序和完整性有保障。

LG.YDX·2025-03-11 10:42

智能语音交互新标杆：WT2003HX语音芯片赋能扫地机器人产品升级

在这一背景下，广州唯创电子推出的WT2003HX系列语音芯片，凭借其卓越的性能、灵活的适配性以及高可靠性，成为扫地机器人产品实现语音交互功能升级的理想解决方案。一、WT2

广州唯创电子·2025-03-11 09:04

基于STM32单片机的仓库管理系统设计-RFID-电磁锁-震动-ISD1820-TFT1.44-WiFi APP-DIY25-112

本设计由STM32F103C8T6单片机核心板电路+3个RFID模块电路+电磁锁电路+震动传感器电路+ISD1820语音模块电路+TFT1.44寸液晶显示电路+WiFi模块电路+电源电路组成。

通旺科技·2025-03-11 03:10

华为昇腾适配阶跃星辰多模态开源模型，上线魔乐社区

今日，魔乐社区（Modelers）宣布已上架由阶跃星辰自研的Step-Video视频生成和Step-Audio语音模型两款开源多模态大模型，并基于华为昇腾CANN异构计算架构和昇腾服务器，完成了对模型的适配

·2025-03-10 22:05

微信小程序语音输入插件安装及AI开发详解

1.登录微信公众平台进入小程序后台主页，点击账号设置-第三方设置-添加插件。在搜索页面输入微信同声传译获取插件，见下图。2.添加插件后会有审核（很快），通过后点击详情可以进入下图所示的界面。需要记住同声传译插件的AppID，在后续小程序开发中会用到。3.打开traecomposer，选择claude-3.7-sonnet模型，输入以下prompt：你需要在index页面中，使用微信小程序'同声传译

un_fired·2025-03-10 21:29

基于讯飞星火的语音问答

一.简介项目基于讯飞星火api作为核心能力并在其中搭载了WebSpeechAPI中的webkitSpeechRecognition对象来实现语音转文字的功能和TTS(Text-to-Speech)：通过调用百度

哎呦☞ᨐ·2025-03-10 15:45

大模型交互-超拟人合成

1、超拟人合成：将文字转化为自然流畅的人声，在实时语音合成的基础上，精准模拟人类的副语言现象，如呼吸、叹气、语速变化等，使得语音不仅流畅自然，更富有情感和生命力。

定制开发才有价值·2025-03-10 14:12

Spark-TTS：基于大模型的文本语音合成工具

GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成

CITY_OF_MO_GY·2025-03-10 13:35

解析：婚恋交友系统APP源码开发攻略,语音视频聊天功能实现步骤核心功能

系统功能特点1.自定义小程序管理：本系统提供完整的后台管理功能，开发者可以根据自己的需求进行定制和修改，包括但不限于论坛版块管理、帖子管理、用户管理等功能。后台管理界面简洁明了，操作方便，大大降低了开发门槛。2.完整的安装代码包：本系统提供完整的安装代码包，包括小程序前端代码、后端服务代码以及数据库结构等。开发者只需按照说明进行安装和配置，即可快速搭建起一个功能完备的社区论坛小程序。3.丰富的功能

·2025-03-10 13:42

CosyVoice-Web版文字转语音服务

CosyVoice-Web版文字转语音服务概述本系统是基于阿里云DashscopeAPI实现的文字转语音服务，采用Flask框架构建Web应用。

Bruce_xiaowei·2025-03-10 09:04

提高客户体验：人类计算在营销中的应用

人类计算与营销：开启个性化时代的未来人类计算与营销：开启个性化时代的未来关键词：人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要：本文探讨了人类计算在营销中的应用，包括语音识别、人脸识别、自然语言处理等技术

AI天才研究院·2025-03-09 21:26

ChatGPT-4o引领医学革命：临床科研创新与效率的新纪元

2024年5月12日，更强版本的ChatGPT-4o上线，文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。

小艳加油·2025-03-09 17:52

基于Pytorch的语音情感识别系统

基于Pytorch的语音情感识别系统介绍语音情感识别（SpeechEmotionRecognition,SER）是指通过分析和处理人的语音信号来识别其情感状态。

鱼弦·2025-03-09 15:34

基于STM32单片机智能储物柜快递柜无线摄像头视频监控GSM短信设计DIY24-294

本系统由STM32F103C8T6单片机核心板、无线模块、TFT1.44寸彩屏液晶显示电路、智能语音电路、四路舵机驱动电路、矩阵按键电路、GSM模块和继电器模块及电源电路。

通旺科技·2025-03-09 13:20

2025年2月25日每日一闻

马斯克宣布Grok重大更新特斯拉CEO马斯克正式推出Grok语音模式V2.0版本，该更新深度整合多模态AI能力，支持自然语义理解与跨场景对话，三变科技等产

Kanjx·2025-03-09 06:23

北斗短报文+5G：遨游通信终端开启全域智能物联新时代

从2G时代的语音通信到5G时代的万物互联，从北斗一代的区域定位到北斗三号的全球组网，技术的融合创新始终是推动社会进步的核心动力。

AORO_BEIDOU·2025-03-09 05:18

Agent 框架与应用

其核心能力可拆解为以下四部分：1.1.1感知能力（Perception）Agent通过多模态输入接口获取环境信息：•数据采集：集成传感器（如自动驾驶的激光雷达）、API（如天气数据接口）、文本/语音交互系统等

power-辰南·2025-03-09 02:49

Meta 计划在 Llama 4 中引入改进的语音功能，接近双向自然对话

据英国《金融时报》3月7日报道，Meta首席产品官ChrisCox透露，Llama4将是一个“全能模型”，语音功能将是原生的1。

timer_017·2025-03-08 23:28

AI大模型报告 | 《中国数字人发展报告(2024)》（完整版PDF免费附下载）

在技术层面，数字人通过数字建模手段实现，涵盖计算机图形学、动作捕捉、图形渲染、语音合成、深度学习等多项技术。

AI大模型_学习君·2025-03-08 21:10

魔百盒M401A、UNT403A、UNT413A_S905L3A/B_开启ROOT_红外蓝牙语音_通刷线刷固件包

魔百盒M401A、UNT403A、UNT413A_S905L3A/B_开启ROOT_红外蓝牙语音_通刷线刷固件包，2+8G或2+16G配置-安卓9.0，支持最新出UWE5621DS/MT7661/MT7663

fatiaozhang9527·2025-03-08 21:36

永久免费，不限次数，安卓神器

很多时候我们在手机上录了音频，需要把它转成文字，临时又不知道用什么软件，那今天我给大家找来一个完全免费语音转文字工具：小白转文字，其核心定位为“全能免费语音文字转换神器”，集成视频、语音、图片、文档文字识别等功能

zhslhm·2025-03-08 19:28

嵌入式行业全景透视：前景、挑战与从业者发展路径

例如，智能家居通过语音识别与传感器联动实现设备协同，工业4.0中嵌入式系统支撑自动化产线的实时控制与数据采集。据预测，2028年

九溪弥烟、·2025-03-08 16:49

【Hugging Face】datasets 库：加载、处理和分享大规模数据集

HuggingFaceDatasets库HuggingFace的datasets库是一个轻量级、高性能的库，用于加载、处理和分享大规模数据集，特别适用于自然语言处理（NLP）、计算机视觉（CV）和语音任务

彬彬侠·2025-03-08 15:28

颜永红:大模型时代的智能音频处理 | 演讲嘉宾公布

大会由中国电子音响行业协会、上海市浦东新区先进音视频技术协会共同主办，上海国展展览中心有限公司承办。

声光界·2025-03-08 09:24

B站自研的第二代视频连麦系统（上）

背景在文章《B站在实时音视频技术领域的探索与实践》中，提到了直播行业从传统娱乐直播发展到教育、电商等新形式，用户对实时互动直播的需求增加。

哔哩哔哩技术·2025-03-08 05:25

【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统

写在前面：为什么需要端到端语音交互近年来，随着深度学习技术的飞速发展，语音交互技术取得了显著的进步。从智能音箱到虚拟助手，语音交互已经渗透到我们生活的方方面面。

kakaZhui·2025-03-08 02:53

【有啥问啥】深入浅出：大模型应用工具 Ollama 技术详解

深入浅出：大模型应用工具Ollama技术详解引言近年来，大型模型（LargeModels，LLMs）技术突飞猛进，在自然语言处理、计算机视觉、语音识别等领域展现出强大的能力。

有啥问啥·2025-03-08 00:21

TORGO 数据库：构音障碍语音研究的宝贵资源

TORGO数据库：构音障碍语音研究的宝贵资源在语音识别和语音病理学领域，构音障碍（Dysarthria）是一个重要的研究方向。

帅小柏·2025-03-07 20:10

人工智能基础知识

二：自然语言处理nlp（语音识别）处理（文本）方面解决（说和听的问题），RNN，LSTM，attention，transformer（基于规则的翻译，超越普通

yzx991013·2025-03-07 16:24

QT作业day5

实现闹钟头文件：#defineALARM_CLOCK_H#include#include#include#include#include//文本转语音类#includeQT_BEGIN_NAMESPACEnamespaceUi

冷灵雨月·2025-03-07 11:15

服务器、群晖，飞牛NAS等部署Whisper ASR教程来啦！让我们的Nas轻松实现音频转文字服务！

文章目录介绍演示环境服务器/群晖/飞牛NAS部署WhisperASR，语音识别soeasy！

xiaoqiangclub·2025-03-07 10:20

神经网络ＶＳ决策树

适用性广泛:神经网络适用于分类、回归、图像处理、语音识别、自然语言处理等多种任务。多层结构:通过增加隐藏层，神经网络可以逐层提

Persistence is gold·2025-03-07 01:16

小爱音箱结合xiaomusic实现尘封的NAS音乐不自由

xiaomusic地址前年下载了一批老歌,为了买U盘,从淘宝带来的资源.上传在NAS吃灰.今天拿出来,辅助小爱音箱,实现一下语音控制听歌不自由.打开群晖openwrt等家庭里常开的一个设备作为docker

wjcroom·2025-03-07 00:03

深度 | 车载语音群雄并起共争智能座舱新高地

不论是苹果公司iOS系统中的智能语言助手“Siri”，还是微软Windows系统中的“Cortana”，智能语音交互早已融入我们生活之中。

数据堂官方账号·2025-03-06 21:38

C#实现语音合成播报器——基于System.Speech的语音交互方案，在windows上实现语音播报指定文本

——基于System.Speech的语音交互方案，在windows上实现语音播报指定文本一、语音合成播报应用场景语音合成播报器广泛应用于以下领域：工业控制：生产线异常报警、设备状态实时播报（如网页4中的

WangMing_X·2025-03-06 17:00

windows实现麦克风持续实时实现科大讯飞语音识别，判断声音是否停止并生成pcm文件

importpyaudio,waveimportnumpyasnpdeflisten():temp=20CHUNK=1024FORMAT=pyaudio.paInt16CHANNELS=1RATE=16000RECORD_SECONDS=2SAMPLE_WIDTH=2#2bytespersampleWAVE_OUTPUT_FILENAME='test.wav'mindb=2000#最小声音，大于则

青年夏日科技工作者·2025-03-06 11:41

呼叫智能体：AI时代下的智能交互革命

它不仅是传统呼叫中心的智能化延伸，更是融合语音克隆、多语种交互、智能体编排等前沿技术的综合解决方案。本文将从技术原理、行业挑战、应用场景三个维度，解析这一突破性技术。

MARS_AI_·2025-03-06 05:48

AI 外呼产品架构解读：让智能外呼更精准高效

这一层主要包括以下三个核心组成部分：1.AI基础能力AI基础能力涵盖了语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）等技术。这些技术使

MARS_AI_·2025-03-06 05:16

推荐频道