语音SBC 第6页

【MoodVine】react函数组件中使用useState改变值后立刻获取最新值

我们面临的问题是在React函数组件中，当我们通过useState更新了一个状态（这里是audioUrl）后，我们希望立刻获取到最新的值来播放语音。

沈春庭·2025-06-15 02:38

【人工智能】机器学习中的隐马尔可夫模型（Python源码）

定义模型参数步骤3：创建隐马尔可夫模型（HMM）的实例并设置模型参数步骤4：定义一个观测序列步骤5：预测最有可能的隐藏状态序列步骤6：解码观测序列步骤7：绘制结果示例2：使用隐马尔可夫模型（HMM）进行语音识别模型参数定义如下

干了这一碗BUG·2025-06-14 20:23

《延迟低于1秒！中国版“AI奶奶”反诈实战：DeepSeek-LLM优化+多模态链路设计》

多模态链路设计附Prompt模板/部署Checklist｜诈骗拦截率提升90%（含Python代码）研究目标实例效果对比：对比分析英国O2公司的“AI奶奶”Daisy、澳大利亚Apate.ai系统以及传统交互式语音应答

·2025-06-14 19:20

AI 导游：开启智能旅游新时代

它融合了语音识别、自然语言处理、大数据分析、图像识别等多种先进技术，构建起一个智能化的服务体系。通过语音识别技术，游客只需说出自己的问题或需求，AI导游

ykjhr_3d·2025-06-14 17:36

WPF开发一个语音转文字输入软件（一）

本文探索的Demo地址:https://gitee.com/lishuangquan1987/try_win32https://github.com/lishuangquan1987/try_win32后续会把他当做一个开源项目来维护需求开发一个软件，能够让用户说话来进行文字输入。具体如下：像腾讯电脑管家那样的悬浮球悬浮在其他程序之上，支持拖动，点击开始录音，再点击结束录音。有录音提示、忙碌提示。

lishuangquan1987·2025-06-14 17:02

NLP学习路线图（四十七）：隐私保护

这一过程本身就对数据有着极强的依赖性，也成为隐私风险的放大器：数据收集的无形渗透：无处不在的文本踪迹：用户的每一次搜索查询、社交媒体发帖/评论、聊天记录、邮件内容、浏览历史、文档上传（如云盘简历、合同），甚至智能设备记录的语音指令

摸鱼许可证·2025-06-14 13:02

whisper相关的开源项目 (asr)

基于Whisper（OpenAI的开源语音识别模型）的开源项目有很多，涵盖了不同应用场景和优化方向。

code-ranger·2025-06-13 22:31

从实验室到产业：IndexTTS 在六大核心场景的落地实践

一、内容创作：重构数字内容生产范式在短视频创作领域，IndexTTS的语音克隆技术彻底改变了配音流程。

gogoMark·2025-06-13 18:35

腾讯开源 AniPortrait：音频驱动的逼真肖像动画生成革命

1.音频到关键点的智能解析Audio2Lmk模块采用预训练的Wav2Vec2.0提取音频特征，通过两层全连接网络将语音信号转

gogoMark·2025-06-13 18:35

PaddleSpeech 实战：开发与打包离线语音识别（ASR）命令行应用

这篇指南从零开始，引导用户完成从环境搭建到最终部署一个离线语音识别工具的全过程。

Gyro_Zeppeliiii·2025-06-13 17:52

多模态大语言模型arxiv论文略读（118）

VoiceWukong:BenchmarkingDeepfakeVoiceDetection➡️论文作者：ZiweiYan,YanjieZhao,HaoyuWang➡️研究机构:华中科技大学➡️问题背景：随着文本转语音

胖头鱼爱算法·2025-06-13 15:10

语音活动检测模型SileroVAD

SileroVAD是一款专注于语音活动检测（VAD）的轻量级开源模型，凭借其高效率、低延迟和跨平台特性，成为实时语音处理系统的核心组件。

大囚长·2025-06-13 14:33

VAD入门（基于Python）

/details/145799439目录SileroVAD1.核心优势2.安装与依赖3.核心功能4.基础使用5.高级功能6.与WebRTCVAD的对比SileroVADSileroVAD是Silero语音模型系列中的语音活动检测

·2025-06-13 14:02

sherpa-onnx 项目亮点解析

sherpa-onnx项目亮点解析sherpa-onnxk2-fsa/sherpa-onnx:Sherpa-ONNX项目与ONNX格式模型的处理有关，可能涉及将语音识别或者其他领域的模型转换为ONNX格式

杜璟轶Freda·2025-06-13 08:55

sherpa-onnx开源语音处理框架研究报告：从技术解析到应用实践

1项目概述与技术背景开源地址：https://github.com/k2-fsa/sherpa-onnxsherpa-onnx是一个基于下一代Kaldi和ONNX运行时的开源语音处理框架，由K2-FSA

chanalbert·2025-06-13 08:22

Whisper使AI人工智能语音识别更精准可靠

Whisper使AI人工智能语音识别更精准可靠关键词：Whisper、语音识别、AI模型、自动语音识别(ASR)、深度学习、Transformer、语音处理摘要：本文深入探讨了OpenAI开发的Whisper

AI天才研究院·2025-06-12 23:44

AIGC 与 Whisper：推动语音技术进步

AIGC与Whisper：推动语音技术进步关键词：AIGC（生成式人工智能）、Whisper、语音识别、多模态交互、大语言模型、语音合成、多任务学习摘要：本文深度解析生成式人工智能（AIGC）与OpenAI

AI天才研究院·2025-06-12 23:44

鸿蒙Next语音合成技术：从文本到声音的智能转换

鸿蒙Next的语音合成技术通过轻量化架构实现自然语音输出。

·2025-06-12 21:12

开源(离线)中文文本转语音TTS(语音合成)工具整理

开源(离线)中文文本转语音TTS(语音合成)工具整理目录文章目录目录PaddleSpeechVoiceVoxTensorFlowTTSttskitOpenTTSeSpeak微软TTSPaddleSpeechPaddleSpeech

切糕师学AI·2025-06-12 19:18

用纯.NET开发并制作一个智能桌面机器人（五）：使用.NET为树莓派开发Wifi配网功能

然后结合显示屏和一些语音交互做成一个不错的树莓派可爱的机箱之类的，类似我之

zh_19995·2025-06-12 19:15

【慧游鲁博】团队记录5

文章目录进度总览完成细节Part11.图片上传与预加载功能2.前端功能扩展与密码修改页面3.DeepSeek模型微调与Kaggle实验4.前端组件化重构5.用户认证与信息管理完成细节Part21.多模态交互·语音输入

哇哦哇哦~~·2025-06-12 13:35

【慧游鲁博】团队记录2

文章目录一、项目整体进度概览二、本周详细进展（包含相关链接）后端支撑前端支撑后台管理系统小程序端数据基础一、项目整体进度概览总目标：构建基于AI的智慧博物馆导览系统，实现智能语音交互、个性化文物推荐、游戏化任务体验及后台数据管理

哇哦哇哦~~·2025-06-12 13:05

中科大、月之暗面等开源对话式语音合成模型 MoonCast；ChatGPT 发布「录音模式」，自动录音和生成会议纪要丨日报

开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@赵怡岭、@鲍勃01有话题的技术1、智源开源轻量级超长视频理解模型Video-XL-2

·2025-06-12 06:26

智能客户服务：AI与大数据的革新力量

一、大数据与AI在智能客服系统中的应用智能客服系统是一种基于AI技术的客服解决方案，它利用自然语言处理（NLP）、机器学习（ML）等AI技术，通过文本、语音、视频等形式直接或辅助人工与企业的客户进行互动

Live800智能客服·2025-06-12 04:57

AI电销机器人独立部署搭建步骤，智能语音机器人源码部署

电销机器人系统的部署代码步骤通常涉及多个环节，但具体步骤可能因不同的系统和框架而有所差异。以下是一个大致的部署代码步骤，供您参考：环境准备：确定部署电销机器人的服务器环境，如Linux操作系统版本、硬件配置等。在服务器上安装必要的软件和库，如数据库（如MySQL、PostgreSQL等）、Web服务器（如Nginx、Apache等）、编程语言环境（如Python、Java等）及其相关库和依赖。获取

安安喔·2025-06-12 04:26

GitHub开源项目esp32小智AI语音代码详解

‌一、项目概述‌xiaozhi-esp32是基于ESP32的低成本智能语音助手项目，支持本地语音唤醒、AI对话、设备控制等功能，核心目标是通过开源代码实现端侧AI交互的快速开发‌。

嵌入式软硬件叶玄·2025-06-12 04:23

FastRTC - Python实时通信库

本文翻译整理自：https://github.com/gradio-app/fastrtc文章目录一、关于FastRTC相关链接资源关键功能特性二、安装三、使用示例1、音频回传2、LLM语音对话3、摄像头流处理

·2025-06-12 01:15

2025年06月10日Github流行趋势

11152今日star数：221项目维护者：nshmyrev,vadimdddd,nnkalita,lkiesow,nalbion项目简介：适用于Android、iOS、RaspberryPi和服务器的离线语音识别

油泼辣子多加·2025-06-11 18:24

ai智能电销机器人是如何转人工的？

在一些电销行业，通过语音识别技术精准判断客户语义，对客户进行针对性的话术服务。当系统判断到客户的购买意向时，就会提示客户要不要转接人工继续深入服务。

ai智能@kelaile520·2025-06-11 07:37

AI电销机器人-智能AI机器人源码部署教程-电话机器人源码

AI电销机器人-智能AI机器人源码部署教程ai语音机器人小白部署教学前置环境一、前置环境4核8GCentos7.9.64安装教程安装宝塔y宝塔安装完毕后安装Nginx1.16MySQL5.6php7.3

ai语音机器人·2025-06-11 07:35

虚拟手机号和普通手机号有什么区别？

SIP协议转换的语音通过网络到达pstn，到达客户的手机。虚拟手机号不需要员工办卡。它会根据需要的座位数申请运营商的家号，处理后就可以使用了。

ai_vx_3307623172·2025-06-11 07:04

语音房交友app聊天系统框架设计

一、逻辑分析功能需求分析实时语音聊天：这是语音房交友的核心功能，用户需要能够在语音房中进行实时的语音交流，确保语音的清晰、低延迟传输。用户管理：包括用户注册、登录、资料修改等功能。

ALLSectorSorft·2025-06-11 06:56

OpenAI SDK 上新 RealtimeAgent；OpenAudio S1 语音生成模型：语调情感标记，精确控制风格

开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@赵怡岭、@鲍勃01有话题的技术1、OpenAI宣布其AgentsSDK新增TypeS

·2025-06-11 03:02

火山引擎实时语音合成WebSocket V3协议Python实现demo

火山引擎语音整体特点火山引擎(字节跳动旗下)的语音合成产品确实非常面向多媒体内容创作，特别是短视频、有声书和多人场景。

Mark White·2025-06-11 01:53

10分钟学会使用.Net技术开发一个Ai智能体应用

环境准备2.1安装.NETSDK2.2克隆项目三、添加NuGet包四、配置项目4.1配置`appsettings.json`五、编写代码5.1初始化`CozeAgent`5.2代码解释六、运行项目七、语音功能支持八

码事漫谈·2025-06-10 18:28

【仿生机器人】刀剑神域——爱丽丝苏醒计划，需求文档

仿生机器人"爱丽丝"系统架构设计需求文档一、硬件基础已完成头部和颈部硬件搭建25个舵机驱动表情系统颈部旋转功能眼部摄像头（视觉输入）麦克风阵列（听觉输入）颈部发声装置（语音输出）二、核心设计目标情感的真实涌现通过环境交互自然产生情感

DFminer·2025-06-10 18:56

PHP+Uniapp构建跨端相亲交友系统软件平台：技术实践与多平台适配指南的婚恋详情交友小程序源码

一、技术架构设计1分层架构**前端**：基于Uniapp框架，支持iOS、Android、H5及小程序四端同步开发，通过Vue.js语法实现组件化开发，快速构建动态匹配卡片、语音聊天室等复杂交互功能。

·2025-06-10 15:45

深入剖析 AI 大模型神经网络的原理

从智能语音助手到自动驾驶汽车，从医疗诊断到金融风险评估，这些大模型展现出了强大的能力。而神经网络作为AI大模型的核心组成部分，是实现这些复杂功能的关键技术。

Android 小码蜂·2025-06-10 07:13

深入探讨AI 神经网络：类型、特点与创新应用

不同类型的神经网络具有各自独特的特点和优势，被广泛应用于图像识别、语音识别、自然语言处理等多个领域。例如，卷积神经网络（CNN）在图像识别领域表现出色，它

fanxbl957·2025-06-10 07:11

对比分析：Rasa、Dialogflow等主流意图识别框架

对比分析：Rasa、Dialogflow等主流意图识别框架——从“翻译官”到“定制师”的对话系统实战指南关键词：意图识别、对话系统、Rasa、Dialogflow、自然语言理解（NLU）摘要：在智能客服、语音助手等

AI原生应用开发·2025-06-10 05:56

AI颠覆市场调研：生成式智能体如何重构商业决策？

而AI驱动的变革正在重塑这一领域——从语音转文本到生成式智能体，企业开始用虚拟社会替代真人样本，将调研成本降低90%，响应速度提升10倍。

花生糖@·2025-06-10 01:04

语音播报功能开发

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、实现网页版本的语音自动播放功能，不适用移动端二、实现移动端的语音播报功能总结一、实现网页版本的语音自动播放功能，不适用移动端Documentvarspeaker

凉忆-·2025-06-09 22:11

未来已来：AI技术的最新趋势与前沿探索

从基础的语音识别、图像分析到复杂的决策制定、自动驾驶，AI技术正以前所未有的力量推动着社会进步。

Mr' 郑·2025-06-09 08:34

iOS 电子书听书功能的实现

在iOS应用中实现电子书听书（文本转语音）功能，可以通过系统提供的AVFoundation框架实现。

I烟雨云渊T·2025-06-09 07:57

“Manus实测：15秒生成PPT+自动写代码+跨系统办公！中国团队造出首个‘全自动AI员工’”

1.全链路自动化：从“指挥”到“交付”一气呵成用户只需语音/文字输入需求，Manus自动分解任务→调用工具→生成结果：✅1

--笑一笑--·2025-06-09 04:32

Python免费文生音频TTS方案实战测评：gTTS、edge_tts与pyttsx3效果对比

计算机小手·2025-06-08 14:24

大模型赋能智慧办公评测报告

2.评测范围与方法本次评测主要围绕大模型在智慧办公中的核心应用场景展开，包括：文档处理（自动生成、摘要、翻译、校对）会议管理（会议纪要生成、语音转写

非著名架构师·2025-06-08 12:39

HarmonyOS运动语音开发：如何让运动开始时的语音播报更温暖

##鸿蒙核心技术##运动开发##CoreSpeechKit（基础语音服务）#前言在运动类应用中，语音播报功能不仅可以提升用户体验，还能让运动过程更加生动有趣。

二蛋和他的大花·2025-06-08 10:30

【机器学习】揭秘未来科技：人工智能、机器学习与大模型的融合与创新

从自动驾驶汽车到智能语音助手，再到精准医疗和金融预测，这些技术的应用已经深入到我们日常生活的方方面面。

AGI大模型学习·2025-06-08 10:27

语音识别数据预处理：提升AI模型准确率的关键

语音识别数据预处理：提升AI模型准确率的关键关键词：语音识别、数据预处理、降噪、特征提取、MFCC、分帧、信噪比摘要：语音识别技术（如Siri、小爱同学）已深入我们的生活，但你知道吗？

AI天才研究院·2025-06-08 04:12

推荐频道

语音SBC