voice

智谱 AI 开源 GLM-4-Voice：中英文实时交互语音模型

微信公众号｜搜一搜：蚝油菜花快速阅读智谱AI推出开源端到端语音模型GLM-4-Voice。模型能理解和生成中英文语音，支持实时语音对话。可根据用户指令改变语音的情感、语调、语速、方言等属性。

蚝油菜花·2025-04-18 02:52

Android CosyVoice 大模型语音合成（可运行，已跑通，可直接复制粘贴的实用代码）

AndroidCosyVoice大模型语音合成流式文本语音合成（CosyVoice大模型）可运行，已跑通，可直接复制粘贴的实用代码。

netkiller-BG7NYT·2025-04-15 11:35

2025年AI语音克隆工具全面评估与选型指南

2025年AI语音克隆工具全面评估与选型指南（基于多维度技术对比、应用场景及伦理风险分析）一、核心评估维度与行业标准技术性能克隆相似度：声音特征的还原精度，如音色、语调、口音等（CosyVoice2.0

赛博AI Lewis·2025-04-13 10:43

DTW算法（语音识别）

这里介绍语音识别就先介绍下语音识别的框架，首先我们要有一个比对的模版声音，然后需要去截取其里面包含真正属于语音的部分，这个要采用一个叫做vad（voiceactivedetection）语音活动检测的算法

编程大乐趣·2025-04-12 21:49

多语种语音识别新突破：使用Transformers微调Whisper模型，实现精准识别！

同时，我们还深入解释了Whisper模型、CommonVoice数据集以及微调等理论知识，并提供了数据准备和微调的相关代码。

大模型入门学习·2025-04-11 21:39

修复AttributeError: BertTokenizerFast has no attribute pad_token

#记录工作在windows系统上部署ChatTTS-OpenVoice这个项目时，遇到：(.venv虚拟环境python3.11.11)AttributeError:BertTokenizerFasthasnoattributepad_token

love530love·2025-04-07 21:43

关于funasr模型api调用

关于funasr模型关于sensevoicesmall模型的具体本地部署和说明请参阅官网文档api重点关于API启动官网和很多文章都是没有清楚的说明，这里直接给出修改后的API.py文档。

ddyzqddwb·2025-04-07 13:24

接上篇部署cosyvoice遇到的问题与踩坑

首先根据官方说明文档一步步跟进，安装依赖等等。第一个问题：显示6006端口不存在，这里我首先把webui中的第169行代码改成了demo.launch(server_port=args.port,server_name="0.0.0.0")这样还是不通，后面把端口改成8188就可以了。进去之后发现自己部署功能要比体验的网页功能强悍很多，复刻音色也会快速很多第二个问题：复刻音色上传录音会出错，这是因

monster justin·2025-04-04 17:58

VoIP技术及其与UDP的关系详解

随着互联网的飞速发展，基于IP的语音通信技术（VoiceoverInternetProtocol，简称VoIP）已经成为现代通信的重要支柱。

vortex5·2025-04-02 01:49

双向流式AI语音项目教程

双向流式AI语音项目教程bidirectional_streaming_ai_voicePythonscriptstohandleatwowayvoiceconversationwithAnthropicClaude

谢忻含Norma·2025-04-01 14:00

Python办公自动化：增值税发票批量识别和核验

Product=ocr&Version=2018-11-19&Action=VatInvoiceVerifyNew首先进行识别，这里以python为例子#-*-coding:utf-8-*-importjsonfromtencentcloud.common.common_clienti

安替-AnTi·2025-03-29 10:41

SDL窗口嵌入到Qt窗口中

44825209/article/details/132419207https://www.cnblogs.com/lifan3a/articles/7464106.htmlhttps://avmedia.0voice.com

daqinzl·2025-03-28 23:24

Antd 3.x Form表单校验并提供初始值默认值

const[startValue,setStartValue]=useState(moment())useEffect(()=>{queryInvoice()},[])const

Alfie_1115·2025-03-28 20:27

OpenAI推出新一代语音与转录AI模型

3月20日，人工智能领域迎来重要进展——OpenAI正式推出三款新一代语音与转录AI模型，Whisper-Enhanced、VoiceFlow和TranscribePro。

未来智慧谷·2025-03-26 05:47

SenseVoice 部署记录

最近试用了SenseVoice（阿里团队开源的语音转文字）效果可以，可以本地部署，有webui界面，测试了万字以上的转换效果可以。首先部署好conda环境和cuda，这个可以查看他人的文章。

安静六角·2025-03-23 23:09

Python预训练模型实现俄语音频转文字

Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调

啥都鼓捣的小yao·2025-03-23 05:03

OpenAI 发布新一代 STT/TTS 模型，10 行代码构建 Voice Agent；声网推出对话式 AI 开发套件丨日报

开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@qqq、@鲍勃01有话题的技术1、OpenAI推出全新一代音频模型今日凌晨，Open

·2025-03-21 16:18

外贸英语报价单制作步骤分享，可在线编辑

一、外贸英语报价单模板的核心要素一份完整的报价单需涵盖以下关键内容：1、基础信息标题与编号：明确标注“Quotation”或“ProformaInvoice

·2025-03-21 11:32

通过java8的Stream API 筛选数据

Listlist=invoiceProductService.getInvoiceProductList(exportReqVO);booleanhasRevampedProducts=list.stream

张彡543·2025-03-14 08:18

一文读懂，外贸客户要的invoice是什么意思？如何制作？

在外贸领域，invoice这一词汇频繁出现，它对于国际贸易的顺利进行起着至关紧要的作用。

·2025-03-12 13:59

Voice Translation of Audio Files into Different Languages Using Gpt-4o

openai-cookbook/examples/voice_solutions/voice_translation_into_different_languages_using_GPT-4o.ipynbatmain

开发者每周简报·2025-03-10 20:18

CosyVoice-Web版文字转语音服务

CosyVoice-Web版文字转语音服务概述本系统是基于阿里云DashscopeAPI实现的文字转语音服务，采用Flask框架构建Web应用。

Bruce_xiaowei·2025-03-10 09:04

短视频配音工具CosyVoice2.0，解锁市面上所有配音师，这篇文章价值好几千！

Zhikes·2025-03-09 02:21

elasticsearch聚合查询

9聚合后再过滤查询汇总后多条件过滤超过100万的数据POSTzzp_invoice/_search{"size":0,"query":{"range":{"SSYF":{"gte":"202101","

warrah·2025-03-07 23:09

记录微信小程序中的遇到的问题，ios不支持gif,ios下语音播放

audiotime:''}}-->{{note.voiceTime!=null?note.voiceTime:'0'}}s-->{{domain.abbreviation}}:{{domai

kay三石·2025-03-04 14:28

matlab实现转换音频格式文件，mp3到wav的转换

准备数据下载的音频文件：开源https://voice.mozilla.org/zh-CN/datasets问题是该音频文件无扩展名（格式为MP3）如何实现批量在文件后面添加扩展名.mp3?

heda3·2025-03-04 06:30

cosyvoice自用的代码

importsyssys.path.append('third_party/Matcha-TTS')fromcosyvoice.cli.cosyvoiceimportCosyVoice,CosyVoice2fromcosyvoice.utils.file_utilsimportload_wavimporttorchaudioimportonnxruntimeasort

PyAIGCMaster·2025-02-27 05:22

外贸发票invoice怎么制作？外贸新人必看！

外贸发票（Invoice）是国际贸易中至关重要的财务凭证，不仅涉及货款结算，还影响税务合规和客户信任。对于外贸新人而言，掌握发票制作的核心要点并选择高效工具尤为关键。

·2025-02-27 04:17

外贸订单管理不用愁！报价、订单、发票、装箱单全流程自动化管理

传统人工处理模式效率低、易出错，如何用一套系统实现报价、订单、Invoice、装箱单全流程自动化？ZohoBooks外贸订单管理系统以智能化工具打破效率瓶颈，助力企业降本增效！

·2025-02-26 14:18

QT6开发高性能企业视频会议-5 Linux Audio开发

Linux系统音频技术简介视频会议或者其他音视频通信应用都会涉及Audio/Voice的采集和播放，本文简单介绍Linux系统常用Audio开发框架和技术，并且配有示例代码。

sqmeeting·2025-02-26 07:09

edge-tts微软文本转语音库

usage:edge-tts[-h][-tTEXT][-fFILE][-vVOICE][-l][--rateRATE][--volumeVOLUME][-OOVERLAPPING][--write-mediaWRITE_MEDIA

caridle·2025-02-21 10:47

SIP协议ALG实现逻辑【概览】（一）

SIP（SessionInitiationProtocol）是一种用于控制多媒体通信会话的信令协议，广泛应用于VoIP（VoiceoverIP）、视频通话、即时消息等实时通信应用中。

看兵马俑的程序员·2025-02-20 13:34

语音识别使用SenseVoiceSmall模型实现源码

SenseVoiceSenseVoice是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。

丢了个猪·2025-02-19 23:09

SenseVoice 实测，阿里开源语音大模型，识别效果和效率优于 Whisper，居然还能检测掌声、笑声！5分钟带你部署体验

前段时间，带着大家捏了一个对话机器人：手把手带你搭建一个语音对话机器人，5分钟定制个人AI小助手（新手入门篇）其中语音识别（ASR）方案，采用的是阿里开源的FunASR，这刚不久，阿里又开源了一个更强的音频基础模型，该模型具有如下能力：语音识别（ASR）语种识别（LID）语音情感识别（SER）声学事件分类（AEC）声学事件检测（AED）传送门：https://github.com/FunAudio

AI码上来·2025-02-19 23:38

本地部署SenceVoice（超简单）

1.下载源代码：gitclonehttps://github.com/FunAudioLLM/SenseVoice.git，或者去https://github.com/FunAudioLLM/SenseVoice

A97139012·2025-02-19 22:01

DVSI使用SenseGlove为开发虚拟现实场景技能培训

DVSI（DigitalVoiceSystemsInc）是一家美国数字化转型解决方案供应商，为全球各地的指挥中心、技术实验室、智能工作环境等提供尖端的视听解决方案。

Axis tech·2025-02-13 20:43

用AI来变换声音：超酷的实时语音转换项目-Github上的免费开源项目

今天我要给大家介绍一个特别有趣的GitHub项目——RealtimeVoiceCloning，一个可以实时变换你声音的AI项目。无论你是技术达人还是刚刚入门的初学者，都能在这个项目中找到乐趣。

韩先超·2025-02-13 09:53

CosyVoice /F5-TTS /GPT-SoVITS /Fish-Speech 开源语音克隆与文本转语音（TTS）项目的对比整理

四个主流开源语音克隆与文本转语音（TTS）项目的对比整理，基于公开资料与实测反馈总结：项目CosyVoiceF5-TTSGPT-SoVITSFish-Speech核心技术双向流式语音合成，支持离线与流式一体化建模基于流匹配的

云樱梦海·2025-02-08 10:27

makailio-alias_db模块详解

狂爱代码的码农·2025-02-07 01:44

Codeforces Round 988 (Div. 3)

sFavoritePermutationtimelimitpertest2secondsmemorylimitpertest256megabytesSuperultra,alittleredpanda,desperatelywantsprimogems.Inhisdreams,avoicetellshimthathe

BoBoo文睡不醒·2025-02-03 22:04

多语言教学材料生成：技术实现与业务价值分析

文章目录引言技术背景与需求分析多语言教学材料的业务需求技术挑战技术实现：LangChain与Writer模型的结合LangChain框架简介Writer模型的多语言生成能力实现多语言教学材料生成的代码示例多语言语音生成技术的应用多语言语音生成的需求CosyVoice

二进制独立开发·2025-02-03 01:14

基于能量检测的语音信号端点检测 FPGA 实现

基于能量检测的语音信号端点检测FPGA实现介绍语音信号端点检测（VoiceActivityDetection,VAD）是语音处理中的一个重要步骤，用于确定语音信号的起始和结束点。

鱼弦·2025-02-02 13:42

kamailio-ACC模块介绍【kamailio6.0. X】

Acc模块作者JiriKuthaniptel.orgjiri@iptel.orgBogdan-AndreiIancuVoiceSistemSRLbogdan@voice-system.roRamona-ElenaModroiurosdev.roramona

狂爱代码的码农·2025-02-01 12:42

动态修改 SeekBar 的滑块和进度条颜色

初步尝试://在你的Activity或Fragment中valseekBar=findViewById(R.id.voiceSeek)//定义动态颜色值，颜色可以来自资源、主题或计算的颜色valthumbColor

大渔歌_·2025-01-31 09:23

Silero VAD 开源项目教程

SileroVAD开源项目教程项目地址:https://gitcode.com/gh_mirrors/si/silero-vad项目介绍SileroVAD是一个预训练的企业级语音活动检测器（VoiceActivityDetector

苏鹃咪Healthy·2025-01-28 14:55

Silero VAD 教程

SileroVAD教程silero-vadSileroVAD:pre-trainedenterprise-gradeVoiceActivityDetector项目地址:https://gitcode.com

褚艳影Gloria·2025-01-28 14:25

python edge_tts（文本转音频)

1.安装插件edge-ttspipinstalledge-tts2.文本转音频""":paramvoice:指定声音名称:paramcontent:文本内容:paramaudioFile:音频输出文件:

Oscar_0208·2025-01-23 16:51

OpenBayes 一周速览｜一键部署Qwen2.5-Coder，0编程经验实现代码生成自由！

MultimodalSpectroscopic化学多模光谱数据集CDFSOD-benchmark跨域小样本对象检测基准数据集3个教程：一键部署Qwen2.5-CoderInkSight将手写文字数字化DemoGLM-4-Voice

·2025-01-20 22:17

OpenVoiceV2：零样本跨语言语音克隆技术，支持多种风格控制

1openvoicev2介绍语音克隆技术近年来取得了显著进展，但现有方法通常存在着局限性，例如无法灵活控制语音风格、需要大量多语言数据进行训练、生成速度慢等等。

智慧医疗·2025-01-20 22:16

NPOI导出表格信息，导出图片

newStringBuilder();strTemp.Append(@"select*,dbo.fu_GetCompanyNameById(company_id)asCompanyNamefromInvoiceSpecialwheredeleted

天堂镇的幽灵·2025-01-18 11:03

推荐频道