语音SBC 第3页

面壁发布 MiniCPM-o 2.6：音视听三合一的“她”（SHE），不需要联网

SamAltman一如既往发了条谜语人风格的推特：“Her”，让人想起电影《Her》里那个和男主情深伉俪的AI女声；然后时任OpenAICTO的另一位美女MiraMurati当晚发布了GPT-4o，视频语音交互丝滑无比

AI科技大本营·2025-07-02 17:09

GitHub已破4.5w star，从“零样本”到“少样本”TTS，5秒克隆声音，冲击传统录音棚！

GPT‑SoVITS应运而生，它让“5秒语音克隆”“1分钟微调自定义说话人”“多语言切换”变得轻而易举。让无论是主播、配音师，还是科技爱好者，都能轻松拥有定制化声音输出。痛点场景配

小华同学ai·2025-07-02 15:28

【数据标注师】语音校对标注

目录一、语音校对标注的核心使命**任务本质****四大核心价值**二、专业工作环境配置**硬件黄金组合****软件栈深度掌握**三、九大错误类型识别与修正**语音校对错误矩阵**四、专业校对工作流**五步双轨校对法

试着·2025-07-02 12:40

【Python】pyttsx3

Pythonpyttsx3库：从入门到精通的终极文本转语音指南第1部分：pyttsx3简介与核心概念第1章：pyttsx3概览1.1什么是pyttsx3？

宅男很神经·2025-07-02 04:39

长链接-WebSocket

在IM的服务中，有多种业务场景需要客户端和服务端建立长链接，比如说语音转文字，客户端一直在输入语音，客户端和服务端保持通信，一直进行语音转化为文字，

ZhiguoXue_IT·2025-07-02 03:02

FastGPT与MCP：解锁AI新时代的技术密码

从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。

挑战者666888·2025-07-01 23:04

海外社交App开发实战：从0到百万DAU的架构设计

一、海外社交赛道破局点：找到你的“社交原子习惯”新兴市场机会矩阵地区用户痛点成功案例东南亚线下社交成本高Litmatch（匿名语音匹配）中东性别隔离文化下的匿名需求Yalla（语音聊天室）拉美热情文化+

VI8664956I26·2025-07-01 22:56

（Note）音频向量化表示

音频向量化表示经典语音特征（MFCC等）语音信号的传统特征提取方法包括MFCC（梅尔倒谱系数）、PLP等，用于描述语音的频谱包络信息。这些特征设计依据生理听觉模型，在ASR、情感识别等任务中长期有效。

·2025-07-01 20:10

【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示

文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息

Wwwilling·2025-07-01 13:24

当前最好的0样本文本转语音是哪个模型？

综合排名前三模型‌MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11

skywalk8163·2025-07-01 05:00

架构轻巧的kokoro 文本转语音模型

Kokoro是一个具有8200万个参数的开放权重TTS模型。尽管其架构轻巧，但它提供了与较大型号相当的质量，同时速度更快，更具成本效益。使用Apache许可的权重，Kokoro可以部署在从生产环境到个人项目的任何地方。官网：hexgrad/kokoro:https://hf.co/hexgrad/Kokoro-82M现在我们来实践下KokoroLinux下安装使用安装库pipinstall-qko

skywalk8163·2025-07-01 04:59

源分离：开启音频处理新纪元

源分离旨在从复杂的声音记录中提取出清晰的语音，它不仅仅是一个代码库，而是通往更真实声音世界的大门。项目

魏侃纯Zoe·2025-07-01 03:23

《解锁AudioSet：开启音频分析的无限可能》

从智能手机中的语音助手，让我们通过简单的语音指令就能查询信息、发送消息，到智能家居系统，凭借音频识别技术实现设备的智能控制，如智能音箱可根据我们的声音命令播放音乐、查询天气；从沉浸式的虚拟现实（VR）和增强现实

·2025-07-01 03:52

音频单声道跟立体声道的区别

声道数1个2个（左声道+右声道）声音来源所有声音都从一个声道发出声音分布在两个声道，模拟空间感空间效果无空间感有方向、空间定位感（左右差异）文件大小相对较小文件更大（多一倍音频数据）常见应用电话、对讲机、语音识别等音乐

张海森_168820·2025-07-01 03:20

c# 讯飞语音 sdk

首先感谢原作者。未经允许就转载了。http://blog.csdn.net/qqh19910525/article/details/50799510-----------------------------------------------------前奏，浑浑噩噩已经工作一年多，这一年多收获还是挺多的。逛园子应该有两年多了，工作后基本上是天天都会来园子逛逛，园子里还是有很多牛人写了一些不错的博

水火阴阳色空不二·2025-07-01 02:13

牛客 AI 面试 Ultra 版重磅升级！定义智能招聘新高度，三大颠覆性创新，重新诠释 AI 面试专业标杆

01.智能交互革命：2秒极速追问，双向对话零延迟●全语音沉浸式体验：无需手动操作，候选人开口即答，数字面试官依托实时推理引擎，2秒内触发多维追问，基于岗位胜任力模型（如冰山模型）层层挖掘需求理解、沟通能力

牛客企业服务·2025-07-01 01:41

C# 讯飞语音唤醒

publicpartialclassMainWindow:Window{//导入C/C++的库文件[DllImport("msc_x64.dll",CallingConvention=CallingConvention.Winapi)]publicstaticexternintMSPLogin(stringusername,stringpassword,stringloginParams);[Dl

jones.s·2025-07-01 01:38

讯飞语音--唤醒Demo

一男子在地铁站手机找不到了,但是带了蓝牙耳机,耳机还有内容,男子想手机一定还在附近,随即大喊一句,悟空你在哪儿,手机循环回答,我在这.....这时,拿手机那哥们回了男子一个尴尬而不失礼貌的微笑,哈哈所以我想起讯飞语音

程序小圆_·2025-07-01 00:03

Python实现语音识别功能，只需3个步骤！

调用科大讯飞语音听写，使用Python实现语音识别，将实时语音转换为文字。

·2025-06-30 23:27

从零开始：Python实现语音识别的完整教程

从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、完整教程、语音输入、文字输出摘要：本文将带领大家从零开始，用Python实现语音识别功能。

AIGC应用创新大全·2025-06-30 23:55

从零开始：Python实现语音识别的完整教程_副本

从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。

AIGC应用创新大全·2025-06-30 23:55

从零开始：用Python构建AI语音识别应用的完整指南

从零开始：用Python构建AI语音识别应用的完整指南关键词：Python语音识别、AI语音处理、语音转文本、SpeechRecognition库、端到端模型摘要：本文从0到1带您掌握用Python构建

AI大模型应用之禅·2025-06-30 23:24

人工智能的发展历程与未来展望

AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。

唐骁虎·2025-06-30 10:22

AI框架之Spring AI与Spring Cloud Alibaba AI使用讲解

可实现的功能1.3SpringCloudAlibabaAI1.4SpringCloudAlibabaAI实践操作1.4.1pom.xml1.4.2配置文件1.4.3对接文本模型1.4.4文生图模型1.4.5语音合成模型

web13688565871·2025-06-30 06:34

数字人驱动技术：让虚拟角色“活起来”

目录前言一、数字人驱动技术的概念（一）驱动技术的定义（二）驱动技术的关键组成部分二、数字人驱动技术的代码示例（一）安装依赖（二）语音输入处理（三）动作捕捉数据处理（四）Unity端的驱动实现（五）完整的数字人驱动系统三

CarlowZJ·2025-06-30 04:47

RNN循环神经网络原理解读

我们把循环神经网络想象成一个有记忆的助手，特别擅长处理按顺序出现的信息，比如句子、语音、股票价格、音乐旋律等。核心思想：记住过去的信息，帮助理解现在。

zhishidi·2025-06-30 01:30

python编译Edge-tts： Edge tts Player

Edge-TTS是Python库，通过微软AzureCognitiveServices转化文本为自然语音，Edge-TTS支持40多种语言和300种声音，提供优质的语音输出，这给学习外语的学生和老师很大的福利

浩读语音朗读·2025-06-30 00:57

Edge-TTS的使用

Edge-TTS的使用Edge-TTS是一个的文本转语音（TTS）Python库。它利用了微软AzureCognitiveServices的强大功能，能够将文本信息转换成流畅自然的语音输出。

·2025-06-30 00:26

Edge-TTS在广电系统中的语音合成技术的创新应用

Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。

·2025-06-30 00:55

一键字幕翻译配音！这个免费神器让外语视频秒变母语版，AI翻译官已就位[特殊字符]

最近挖到个叫pyVideoTrans的开源神器，直接把视频翻译玩成全自动流水线——语音识别、字幕翻译、AI配音、视频合成四步打包完成，连手都不用动一下！外语生肉党狂喜！

人工智能我来了·2025-06-29 19:45

SBC编解码器库：蓝牙音频传输的核心

本文还有配套的精品资源，点击获取简介：SBC编解码器库是一个软件工具集，提供在蓝牙技术中核心使用的音频编解码功能。

草莓味儿柠檬·2025-06-29 18:45

【数据标注师】语音切割转写

目录**一、语音标注任务解析****任务类型矩阵****核心挑战****二、硬件与工具准备****专业级工作环境配置****必备工具掌握****三、核心技能深度训练****模块1：精准切割技术****模块

试着·2025-06-29 16:59

数据标注师学习内容汇总

目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注

试着·2025-06-29 16:29

卷积神经网络

它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？

亿只小灿灿·2025-06-29 11:55

提升异地网络性能的全面指南：QoS策略、CDN加速与WAN优化技术

网络延迟与带宽优化：QoS策略与带宽聚合技术1.1QoS（服务质量）策略的核心功能QoS（QualityofService）是网络性能优化的核心技术，通过对网络流量进行分类和优先级分配，确保关键业务（如视频会议、语音通话

北极光SD-WAN组网·2025-06-29 03:22

高斯混合模型（Gaussian Mixture Model, GMM）

它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。

不想秃头的程序·2025-06-28 16:01

数据与ChatBI

1.语音/文字输入——解放双手的起点这是什么？一

·2025-06-28 02:01

Python 使用总结之：Python 文本转语音引擎 - pyttsx3 完全指南

文本转语音（TTS，Text-to-Speech）技术已经广泛应用于语音助手、智能硬件、教育软件等多个领域。Python提供了多个库来实现TTS，其中pyttsx3是一个非常常用的跨平台TTS引擎。

wangjinjin180·2025-06-28 01:21

深度学习详解：通过案例了解机器学习基础

通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。

beist·2025-06-28 00:46

基于 52 单片机电子智能手环导盲杖

智能手环佩戴在使用者手腕上，用于感知使用者的运动姿态并提供心率监测等功能；导盲杖则负责探测周围环境信息并为使用者提供语音导航和位置追踪等服务。二、智能手环设计智能手

·2025-06-27 17:24

对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？

该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分

MARS_AI_·2025-06-27 16:20

【软件系统架构】系列四：嵌入式软件-NPU（神经网络处理器）系统及模板

二、NPU与CPU/GPU/DSP对比三、NPU的工作原理核心结构：数据流架构：四、NPU芯片架构（简化图）五、NPU的优势六、NPU应用场景视觉识别语音识别自动驾驶智能监控AIoT设备七、主流NPU芯片

·2025-06-27 15:14

DIY语音控制车辆玩具全攻略：从硬件组装到功能实现

一、设备清单与成本估算1.1硬件组件列表组件名称价格（元）备注ArduinoUno兼容板7.04控制核心，支持多传感器接入DFRobot离线语音识别模块105支持10条自定义语音指令L298N电机驱动板

欧阳天羲·2025-06-27 13:33

GRU与Transformer结合：新一代序列模型

通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未

AI大模型应用工坊·2025-06-27 11:48

数字人分身系统源码搭建定制化开发，支持OEM

一、数字人分身系统概述数字人分身系统是一个综合性的技术解决方案，它融合了计算机图形学、人工智能、语音识别与合成、自然

·2025-06-27 09:08

【造工具-2】用SenceVoice，实现本地的语音转文本小工具

说到语音转文本，有两种说法，自动语音识别（ASR，AutomaticSpeechRecognition）和语音转文本（STT，Speech-to-Text），本质上都是通过算法将语音信号转化为可处理的文本形式的技术

zhulangfly·2025-06-26 22:46

2025年6月21和22日复习和预习（python）

语音合成技术导入pyttsx3库实现文本转语音功能，通过pyttsx3.speak()方法将文本转换为语音输出。

子豪-中国机器人·2025-06-26 22:41

讯飞星火（iFlytek Spark）：科大讯飞打造的国产AI大模型平台

作为国内首批基于全国产算力平台训练的大模型，讯飞星火在中文理解、语音交互、数学推理等方面表现突出，并持续对标国际顶尖模型（如GPT-4、Gemini）。核心优势全国产化：基于华为昇腾AI芯片和“飞星

明似水·2025-06-26 17:09

推荐频道

语音SBC