mandagod

语音合成TTS | AI产品经理需要了解的AI技术概念

TTS（Text-To-Speech，语音合成），目前是一个“小而美”的AI领域，但我个人觉得非常有意思，感觉TTS在未来会被行业真正重视起来，并且会出现做得不错的创业公司。

本文，是我收集了很多线上/线下的相关信息后，提炼出的AI产品经理“最必要”了解的TTS技术知识和行业现状（多了没必要，少了又不足以入门、准备面试或工作实战）；不仅帮大家节省了时间，更是过滤了很多无用信息和过于技术的内容。

一、核心概念

二、当前技术边界

三、瓶颈和机会（重点）

核心概念

1、TTS和ASR的概念区别

我们比较熟悉的ASR技术（Automatic Speech Recognition，语音识别），是将声音转化为文字，可类比于人类的耳朵。

而TTS技术（Text-To-Speech，语音合成），是将文字转化为声音（朗读出来），类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音，都是由TTS来生成的，并不是真人在说话。

TTS的技术实现方法，主要有2种：“拼接法”和“参数法”——

2、拼接法

1）定义：从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；为了追求合成语音的连贯性，也常常用使用双音子（从一个音素的中央到下一个音素的中央）作为单位。

2）优点：语音质量较高

3）缺点：数据库要求太大。一般需要几十个小时的成品预料。企业级商用的话，需要至少5万句，费用成本在几百万元。

3、参数法

1）定义：根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形。主要分为3个模块：前端、后端和声码器。

前端做的事情，是把文本进行解析，决定每个字的发音是什么，这句话用什么样的语气语调，用什么样的节奏来读，哪些地方是需要强调的重点等等。常见的语气相关的数据描述包含但不限于下面这些：韵律边界，重音，边界调，甚至情感。还有更多的信息甚至是难以客观描述的，目前的算法只能暂且忽略。

注：拼接法和参数法，都有前端模块，拼接和参数的区别主要是后端声学建模方法的区别。

2）优点：数据库要求相对较小一些。

如果只需要出声（做demo），大概500句就可以，但是效果肯定不行。

通用TTS，一般至少需要5000句，6个小时（一般录制800句话，需要1个小时）。——从前期的准备、找人、找录音场地、录制、数据筛选、标注，最终成为“可以用的数据”，可能至少需要3个月。（讯飞在各方面比较成熟，用时会短很多）

个性化TTS，大多数是用“参数”方法的。（adobe、微软也有尝试过拼接法，不过相对参数方法来说不是太成熟，效果也并不是太通用）

3）缺点：质量比拼接法差一些。因为受制于发声算法，有损失。

因为主要弱点和难点就是声码器。声码器的作用是复现声音信号，难在重现声音细节，并且让人听不出各种杂音、沉闷、机械感等等。目前常见的声码器都是对声音信号本身作各种理论模型以及简化假设，可以说对细节的描述近似于忽略。

注：DeepMind的WaveNet，基本解决了声码器的问题。因为他们直接对语音样本进行预测，不依赖任何发音理论模型。最后出来的音质细节十分丰富，基本达到了与原始语音类似的音质水准（所谓质量提高了50%，就是这里），而且几乎可以对任意声音建模（这就太牛了）。

4、TTS的评判标准

1）主观测试（自然度），以MOS为主

A）MOS（Mean Opinion Scores），专家级评测（主观）；1-5分，5分最好。

注：微软小冰公开宣传是4.3分，但有业内朋友认为，也不能据此就说其“绝对”比科大讯飞好，因为每次评审的专家人选都不一样。说白了，目前整个AI行业内，还是各家说自己好的节奏。

B）ABX，普通用户评测（主观）。让用户来试听两个TTS系统，进行对比，看哪个好。

C）每次主观测评应该有区分。比如这次着重听多音字，下次主要听语气词等。

2）客观测试

A）对合成系统产生的声学参数进行评估，一般是计算欧式距离等（RMSE，LSD）。

B）对合成系统工程上的测试：实时率（合成耗时/语音时长）、首包响应时间（用户发出请求到用户感知到的第一包到达时间）、内存占用、CPU占用、3*24小时crash率等。

技术边界

1、通用TTS

1）在用户预期不苛刻的场景（APP/硬件），能满足商业化需求，比如语音助手/滴滴/高德/智能音箱/机器人）；但如果用户预期非常高的话，是很难满足的，因为还是会有“机器感/机械感”，不能非常自然的模拟人声。

2）目前行业各家公司的产品效果差不多，都基本能商用。

2、个性化TTS

1）在用户预期不苛刻的场景，能“基本”满足商业化需求，但是效果没通用TTS那么好。但如果用户预期非常高的话，暂时是满足不了的。

2）目前行业内能成熟商用的，主要还是科大讯飞，也有些创业公司在这个领域有所布局，如微量分贝（HEARD）这家致力于海量内容音频化的企业，对声音进行了分门别类的生成和储备，他们瞄准的企业级需求也会更为个性化、品牌化，诸如阿里巴巴旗下的“动物园”品牌（如天猫、闲鱼、盒马、菜鸟等），都会生成诸如“小猪佩奇”这样的角色化TTS 并被商用。

3、情感TTS

1）目前业界的情感合成更多了，是因为数据本身变多了、更有节奏了，超过了传统的播音风格，但并不是真正的“喜怒哀乐”等情感合成（想高兴就高兴的这种智能）。

2）在情感TTS的理论方面，学术界是有储备的，但是，整个行业目前都没怎么做（或者没做好），是因为情感TTS很依赖“情感意图识别”，“情感特征挖掘”、“情感数据”以及“情感声学技术”等，是个系统工程。其中第1点，即是和自然语言处理相关，比如需要知道“什么时侯该高兴或悲伤”；同时，具有情感演绎的语音数据的储备，也非常重要。

瓶颈和机会

主要有5个方向的瓶颈（同时也是机会）。

1、基础技术

1）TTS技术正处于重大变革：端到端（End-to-End）的TTS建模方法，加上WaveNet 的声码器思想，是未来TTS的发展方向。

端到端TTS，一般指tacotron，tacotron只是Google提出的合并了原先时长模型和声学模型的中段结构，可以接任何TTS前端和TTS后端。TTS前端如中文分词、注音、词性，都会提升tacotron性能；后端，参数、拼接、wavenet都可以选用。

关于WaveNet技术的商业化：Google今年初将第二代WaveNet技术商业化了，速度比第一代快一万倍。而国内各家公司，基本也仿制出来了（论文算法），但工程化还需要时间，而且成本还是太高，短期内应该没法商用。

关于效果：TTS最终效果好坏，技术只占50%不到，在技术都差不多的情况下，声优质量和数据量最重要，其次是相同部署规模和成本的TTS才能相互比较，即，不能简单的说哪家公司的效果比另一家更好，a）比如，拿百度/腾讯/阿里/图灵等很多家AI公司的WaveNet v1的效果，一般都能超过讯飞线上的接口，但部署成本高几万倍，且不实时；WaveNet V2商业化以后，虽然能实时，但部署成本至少也比高配拼接TTS高10倍左右。b）成本，部分和采样率相关，例如，讯飞/百度TTS的采样率都是16k，如果用24k和48k，主观体验至少强50%，但成本会翻倍；也就是说，其他AI公司的24kTTS的MOS，能吊打讯飞/百度的API，但不能说他们的技术就比讯飞/百度强，因为在商业化时，会牺牲效果来降低成本。

2）如何让离线版效果达到在线版水平。很多客户希望（奢望）有离线版本，并且效果和在线版本一样好……现阶段来说，可能真是“臣妾做不到啊”。

2、数据缺乏

一方面，特别是个性化TTS，需要数据量更大。比如默认男孩声音，要转成女孩，就比较难。

另一方面，数据的获取（制作）成本和周期，也是各家在初期的竞争着力点，比如，一般来说，一款（套）TTS数据，至少需要先录制2-3万句话，再加上数据标注，通常耗时在3个月以上（且需要主播全力配合），对于30小时的数据，价格通常在30-50万，而上文提到的微量分贝（HEARD）这家公司，调动了8000+位优质播音人员，在给不同内容配音的同时，也做了大量结构化数据的存储（库存化），这样，针对大部分客户的数据需求，并不需要再找主播进行录制，而是直接从仓库调取数据进行解冻即可（数据标注）；通过将这种 “边进行业务边赚取数据”的流程标准化，其获取数据的成本大大降低到行业的五分之一，并且一旦有需求，可以在1个月内进行交付。这家公司在南方搭建的数据标注工场的规模，也是巨大的，包括华为等公司都从其采购语音合成数据。

3、人才匮乏

不仅没法跟NLP、CV等热门AI人才比，就算跟同样不算热门的ASR比，TTS的人才都还要少一些。

4、产品化难度

由于技术限制，现阶段不可能有非常完美的TTS效果，所以

1）尽量选择用户预期不苛刻的场景，或者在产品体验设计时，管理好用户预期（比如打车软件，郭德纲/林志玲的声音，差不多就行）。

2）选择“参数法”还是“拼接法”，和公司的技术储备、成本、以及产品目标相关。在垂直领域，现有的TTS技术（参数或者拼接）都可以针对产品做得很好。现在行业还没有太好的效果，很大原因是因为产品经理还没有深入介入，有很多细节的坑要踩（产品设计+工程化实现）——未来应该会有惊艳的产品出现。

3）体验细节设计，和一般互联网产品很不同，比如

A）文案设计，非常重要；因为在语音交互场景，不能太长，用户没耐心和时间听完的。

B）可以加入背景音乐，掩盖杂音等细节瑕疵。

C）特殊场景，还有特别的需求，比如远场场景和戴耳机场景相比，还是会有区别的。

D）中英文混合TTS。比如用户想播首英语歌曲，困难在于：所有中文的发音当中，中文和英文合拍念出来是很难的，为什么呢？因为往往录音的人。录中文是一批人，录英文又是一批人。两种语言结合起来，再用机器学习学出来，声音就会变得非常怪。这方面，小雅音箱曾经花了很大的精力和成本去“死磕”解决，详见《傅盛：人工智能的破局点是技术和产品结合【猎户星空发布小雅语音 OS】》。

5、商业化压力

1）如果要有足够的市场竞争力，至少需要12个月的时间，2~6人团队（如果有人做过前端相关工作，会节省巨大成本——工作量主要在中文前端NLP部分，比如分词、注音、词性文本规整化等），几百万资金投入（1个GPU一年十万，支持并发只有几十个）。并且，大公司的先发优势巨大，小公司必须切细分场景。

2）我个人认为，个性化TTS、情感TTS会在各细分场景得到更大的应用，比如知识付费、明星IP、智能硬件、车联网、实体/虚拟机器人等。

附：相关资料

1、相关高校及实验室

语音合成涉及专业领域较广，包含语言学、听觉与发声机理、自然语言分析、深度学习、信号处理等诸多领域，是一门综合性学科。

国际上，英国爱丁堡大学Simon King教授，卡耐基梅隆大学Alan W Black教授，日本和歌山大学Kawahara教授，谷歌Heiga Zen所在的实验室均为国际顶级实验室。

国内来说，中国学术届也一直走在行业的前列，国际语音合成挑战赛blizzard challenge已经连续10多年冠军在中国。国内大部分的语音合成人才，均来自于中科大、中科院自动化所、中科院声学所、清华大学、西北工业大学等几家单位，比如西北工业大学的谢磊老师组，已向语音合成届输送了大量人才，在微软、百度、搜狗、小米、IBM、讯飞、流利说、出门问问、猎户星空、同盾等公司的核心岗位上，都有来自西工大的学生。

2、参考文章

《目前，人工智能语音在说中文时的语气感觉上还比较机械，怎样使人工智能语音的语气更自然一些？》http://t.cn/RFnP7EH

《如何评价谷歌下一代语音合成系统WaveNet？》http://t.cn/RFnPUkA

《TTS(Text-To-Speech)的原理是什么？》http://t.cn/RFnPfP1

《百度Deep Voice作者与Bengio团队探讨五大技术细节，端到端的语音合成还有多远？》http://t.cn/RoUvHAg

3、相关产品

讯飞配音app、讯飞朗读助手app、闪电配音（http://www.soundems.com ）等。

4、有趣视频

《武汉地铁语音播报已逆天，这是要称霸全国的节奏啊》

注：以上内容来自由黄钊hanniman建立的、行业内第一个“AI产品经理成长交流社区”，通过每天干货分享、每月线下交流、每季职位内推等方式，帮助大家完成“AI产品经理成长的实操路径”；详情可点击“阅读原文”查看。

END.

- hanniman往期精选 -

一、AI产品分析

【重点】如何从“品类”角度做AI产品（2C）的需求定位

【重点】产品视角看智能客服

智能音箱上的语音技能市场，能否对标手机上的应用市场？

进击的人工智能：产品视角解析“对话机器人”

如何从零开始搭建智能外呼系统

现阶段实践“拿着锤子找钉子”的六个步骤

二、AI产品经理

【重点】【重磅福利】人工智能产品经理的新起点（200页PPT下载）（注：后台回复“200”，可获取PPT下载链接）

【重点】AI产品经理的定义和分类

【重点】AI产品经理的价值和未来 | 学习俞军老师分享有感

团员分享_AI小白如何拿到AI产品经理offer

深度报告 | AI新职位“人工智能训练师”

福利 | 《从互联网产品经理到AI产品经理》PPT下载及讲解（58P）

三、AI技术

【重点】AI产品经理需要了解的语音交互评价指标

【重点】值得收藏 | 关于机器学习，这可能是目前最全面最无痛的入门路径和资源！

‍NLP基本功-文本相似度 | AI产品经理需要了解的AI技术通识

看AI产品经理如何介绍“计算机视觉”（基于实战经验和案例）

人脸识别 | AI产品经理需要了解的CV通识（二）

多目标跟踪 | AI产品经理需要了解的CV通识（三）

填槽与多轮对话 | AI产品经理需要了解的AI技术概念

AI产品经理需要了解的数据标注工作入门

语音识别类产品的分类及应用场景

四、AI行业及个人成长

【重点】【深度】工作5年以上，到底要不要进AI创业公司？

【重点】深度 | 人工智能让我们失业？不，这取决于我们自己

【重点】我们还没准备好和AI共生——柯洁和AlphaGo大战之观后感

“人工智能与法律”对AI产品经理有何实际借鉴意义

稻盛和夫的这些话，是鸡汤还是干货？

跨过这十个误区，提前2年告别职场小白

如何分辨明师并遇到他 | 周日换频道（7）

---------------------

作者：黄钊hanniman，图灵机器人-人才战略官，前腾讯产品经理，6年AI实战经验，9年互联网背景，微信公众号/知乎/在行ID“hanniman”，饭团“AI产品经理大本营”，分享人工智能相关原创干货，200页PPT《人工智能产品经理的新起点》被业内广泛好评，下载量1万+。
---------------------

基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
推荐项目：VITS2 Chinese - 轻松转化你的中文语音至文本傅尉艺Maggie
推荐项目：VITS2Chinese-轻松转化你的中文语音至文本VITS2-ChineseVITS2forChinesespeech|最新VITS2中文语音合成项目地址:https://gitcode.com/gh_mirrors/vi/VITS2-Chinese项目介绍VITS2Chinese是一个针对中文语音的自动转文字工具，它简化了传统语音识别的复杂流程，让用户只需上传音频文件，就能一键完成语
探索MB-iSTFT-VITS：一款高效的语音合成工具张姿桃Erwin
探索MB-iSTFT-VITS：一款高效的语音合成工具MB-iSTFT-VITSLightweightandHigh-FidelityEnd-to-EndText-to-SpeechwithMulti-BandGenerationandInverseShort-TimeFourierTransform项目地址:https://gitcode.com/gh_mirrors/mb/MB-iSTFT-V
WhisperX: 带时间戳的自动语音识别及说话人分离史恋姬Quimby
WhisperX:带时间戳的自动语音识别及说话人分离whisperXm-bain/whisperX:是一个用于实现语音识别和语音合成的JavaScript库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的API，支持多种语音识别和语音合成引擎，并且能够自定义语音识别和语音合成的行为。项目地址:https://gitcode.com/gh_mirrors/wh/whisp
标贝科技个性化音色定制方案解锁语音合成无限可能标贝科技科技语音识别人工智能人机交互
近日，标贝科技语音合成音色库又有新进展。针对智能客服场景，上新两个温和风格音色，适用于服务回访、业务咨询、产品介绍等细分业务场景。加上前不久的两款严肃客服音色，标贝科技已累计上线20多个风格迥异的男女客服发音人，全力加速企业客服中心的智能化转型。此外，本次也同步上线两个泰语女声音色和法语女声音色，以满足更多细分场景的应用需求。大模型驱动语音合成更“拟人”传统的语音合成，因为技术上的限制，通常是采集
SPIRNGBOOT+VUE实现浏览器播放音频流并合成音频定制开发才有价值音视频人工智能语音合成
一、语音合成支持流式返回，通过WS可以实时拿到音频流，那么我们如何在VUE项目中实现合成功能呢。语音合成应用非常广泛，如商家广告合成、驾校声音合成、新闻播报、在线听书等等场景都会用到语音合成。二、VUE下实现合成并使用浏览器播放代码如下：在线语音合成流式版{{ttsText}}立即合成DOWNWAVimport*asbase64from'js-base64'importCryptoJSfrom'.
Azure和Transformers的详细解释漫天飞舞的雪花 azure microsoft python
AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感
YeAudio音频工具的介绍和使用夜雨飘零1 语音音视频语音识别 python ffmpeg
夜雨飘零音频工具这款Python音频处理工具功能强大，支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作，还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。安装使用pip安装。pipinstallyeaudio-U-ihttps://pypi.tuna.tsinghua.edu.cn/simple（推荐）使用源码安装。gitclonehttps
探索前沿科技：在本地系统上安装和使用Style TTS2进行高质量语音合成七哥的AI日常 tts
我们正处于一个令人激动的时代，有如此多的选择，不仅在大型语言模型方面，还有现在的文本到语音（TTS）模型。在这篇文章中，我将向您展示如何在本地系统上轻松安装这个非常出色的模型——StyleTTS2，然后进行语音克隆，或者您可以进行多语音或单语音的文本到语音转换，操作非常简单、快捷，并且具有人类级别的语音质量。StyleTTS2：前沿的文本到语音模型StyleTTS2是一款前沿的文本到语音模型，能够
增强语音对车载语音质量测试的挑战众乐认证 itu
一、什么是增强语音语音助手是实现智慧车联的关键之一，通过助手，方可去掉按键。其中一个比较典型的功能就是目前比较流行的enhancedsiri。二、增强语音的难点1.语音合成技术语音合成技术在车内环境中的表现至关重要。语音合成采用了混合单元选择系统，结合了单元选择和参数合成的优势，并通过深度学习进一步提升了语音质量。这种技术的应用，使得语音助手能够在车内环境中提供流畅自然且易于理解的语音交互体验。2
GPT-SoVITS语音合成服务器部署，可远程访问（全部代码和详细部署步骤）学术菜鸟小晨最新人工智能技术 gpt 人工智能
GPT-SoVITS是一个开源项目，它使用大约一分钟的语音数据便可以训练出一个优秀的TTS模型。项目的核心技术是Zero-shotTTS和Few-shotTTS。Zero-shotTTS可以让用户输入5秒钟的语音样本并立即体验转换后的语音，而Few-shotTTS则可以通过使用仅一分钟的训练数据进行模型微调，从而提高语音相似度和真实性。该项目支持多语言推理，包括但不限于英语，日语和中文。此外，项目
WebKit的语音交互新篇章：Web Speech API深度解析 2401_85742452 前端 webkit 交互
WebKit的语音交互新篇章：WebSpeechAPI深度解析随着技术的进步，人机交互的方式正在不断演变。WebSpeechAPI作为现代Web技术的一部分，为浏览器提供了语音识别和语音合成的能力。这项API在WebKit中的支持为开发者带来了创建具有语音交互功能的Web应用的可能性。本文将详细介绍WebKit对WebSpeechAPI的支持，并提供实际的代码示例。一、WebSpeechAPI简介
开源的语音合成项目-EdgeTTS，无需部署无需Key AI码上来人工智能语音识别
前几天和大家分享了：全网爆火的AI语音合成工具-ChatTTS。有很多小伙伴反应模型下载还有点麻烦~今天再给大家带来一款开源的语音合成TTS项目-EdgeTTS，相比ChatTTS，操作起来对小白更友好。因为其底层是使用微软Edge的在线语音合成服务，所以不需要下载任何模型，甚至连api_key都给你省了，简直不要太良心~关键是，除了支持普通话外，还支持很多地方口音(比如:粤语、台湾口音、陕西话、
iOS Unity导出的工程基础百度语音合成SDK问题 Fintecher
没有基础百度语音合成sdk前,Unity可以正常播放声音。集成后百度语音合成sdk能够播放声音，但是Unity却不能播放声音。研究了一个多小时，终于在百度语音的sdk中发现一点蛛丝马迹。配置百度sdk的时候讲AVSession管理关闭[[BDSSpeechSynthesizersharedInstance]setSynthParam:@(0)forKey:BDS_SYNTHESIZER_PARAM
扩展语音识别系统：增强功能与多语言支持 GT开发算法工程师语音识别人工智能
一、引言在之前的博客中，我们成功构建了一个基于LibriSpeech数据集的英文语音识别系统。现在，我们将对系统进行扩展，增加一些增强功能，并尝试支持多语言识别。二、增加增强功能语音合成--除了语音识别，我们还可以增加语音合成（Text-to-Speech,TTS）功能，将文本转换为语音输出。这可以使得我们的系统不仅仅是一个转录工具，还能够进行语音交互。情感分析--通过结合情感分析模型，我们可以识
windows 环境实现文字转语音。咕噜咕噜_87bc
目前有很多提供语音合成的SDK，比如科大讯飞，百度，腾讯云等。其实windowspowershell里自带语音合成。例如：Add-Type-AssemblyNameSystem.speech;$speak=New-ObjectSystem.Speech.Synthesis.SpeechSynthesizer;$speak.Rate=1;//朗读速度$speak.SetOutputToWaveFil
虚拟人专题报告：虚拟人深度产业分析报告人工智能学派 xr
今天分享的是虚拟人系列深度研究报告：《虚拟人专题报告：虚拟人深度产业分析报告》。（报告出品方：Q量子位）报告共计：18页技术背景虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等，代表性的细分应用包括虚拟助手、虚拟客服、虚
语音合成（TTS）技术在有道词典笔中的应用实践有道AI情报局有道技术团队语音识别人工智能
1.背景介绍自2017年10月推出有道翻译蛋开始，网易有道已先后推出了二十余款智能学习硬件产品，包括有道翻译王、有道口袋打印机、有道超级词典、有道词典笔、有道听力宝等。其中，有道词典笔开创了智能词典笔品类，连续两年获天猫、京东销量第一，并广受用户好评。在近期有道词典笔的全新软件升级中（关联阅读：全新软件升级！真的很有料），有两个重要的优化，分别是：发音接近真人，告别机械式发音准确度提升，正确朗读多
阿里云智能语音交互：API连接，助力用户运营 api
【无代码开发，轻松实现智能语音交互】随着技术的不断进步，智能客服系统已经变得越来越高效。阿里云智能语音交互技术是这一进步的典型代表。这种基于先进的语音识别、语音合成以及自然语言理解技术的服务，为用户提供了一种全新的人机交互体验。更重要的是，企业可以通过无代码开发轻松连接和集成这些服务，极大地提升了企业运营的效率。【API连接，简易的集成过程】对于想要使用阿里云智能语音交互服务的企业来说，连接和集成
python 文字转语音带情感_Python文字转换语音，让你的文字会「说话」抠脚大汉秒变撒娇萌妹... weixin_39947961 python 文字转语音带情感
APP也有文字转换为语音的功能，虽然听起来很别扭，但是基本能解决长辈们看不清文字或者眼睛疲劳，通过文字转换为语音来获取信息。我们用Python能否实现文字转语音呢，可以的，百度有个语音接口，可以在Python中直接调用，甚至提供了多种声音选择，当然可以选择萌妹子的声音。安装百度接口通过pip命令直接安装(-i后面是豆瓣的镜像，这样下载安装速度更快)创建应用百度语音合成地址如下：点击立即使用，没有登
PHP文字转语音排号声音_文字转语音真人发声在线怎么转换？这种操作最简单有书 PHP文字转语音排号声音
文字转语音真人发声在线怎么转换？我们在学习和生活中经常会需要给视频进行配音，但你可能会存在担心自己的声音不够好听，或者是不想暴露自己原有声音。下面笔者就来给大家安利一款非常不错的工具—文字转语音助手，帮助你轻松实现语音合成、在线文字。工具介绍文字转语音助手是一款文字语音转换应用，亦是我千挑万选出来的办公助手。它可以轻松帮助我们将文档或文字快速的转变成音频输出，还可将音频设置成有感情的女声或男声。在
TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码) 夏天｜여름이다 -Speech -#TTS -生成模型 -人工智能语音合成 vits
----------------------------------️语音合成VITS相关系列直达️-------------------------------------VITS：TTS|保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)MB-iSTFT-VITS：TTS|轻量级语音合成论文详解及项目实现MB-iSTFT-VITS2：TTS|轻量级VITS2的项目实现以及API
【记录】Python3｜用百度语音 API 朗读你的小说TXT shandianchengzi 代码 python 百度语音识别
百度语音合成官方教程_AI开放平台百度语音合成官方demo_github.com简单地写了一个按段落朗读文本的demo：DEMO链接_gitee.com。有时候会请求不到数据，不知道是网络原因还是什么，已添加自动重新请求。config.ini：;关于语音合成的相关配置[default]api_key=Yourapikeysecret_key=Yoursecretkey;发音人选择,基础音库：0为度
Stability AI一种新型随心所欲生成不同音调、口音、语气的文本到语音（TTS）音频模型喜好儿网人工智能语音识别
该模型无需提前录制人声样本作为参考，仅凭文字描述就能生成所需的声音特征。用户只需描述他们想要的声音特点，例如“一个语速较快、带有英国口音的女声”，模型即可相应地生成符合要求的语音。它不仅能模仿已有的声音，还能根据用户的描述合成全新的声音，展现出强大的语音生成能力。这一特性使得该模型在语音合成领域具有极高的灵活性和实用性。主要功能特点：高保真语音生成：此模型能依据文字描述，在各种口音、韵律风格、通道
vue 文字转语音mp3_vue 语音合成 - 梦魂清风的个人空间 - OSCHINA - 中文开源技术交流社区... 左锦辉 vue 文字转语音mp3
1、百度语音restAPIhttps请求，在线语音合成免费tex必填合成的文本，使用UTF-8编码。小于2048个中文字或者英文数字。(文本在百度服务器内转换为GBK后，长度必须小于4096字节)tok必填开放平台获取到的开发者access_token(见上面的“鉴权认证机制”段落)cuid必填用户唯一标识，用来计算UV值。建议填写能区分用户的机器MAC地址或IMEI码，长度为60字符以内ctp必
使用speech_sambert-hifigan_tts_zh-cn_16k模型语音合成 m0_67235149 python
一、下载模型语音合成-中文-多情感领域-16k-多发音人·模型库(modelscope.cn)二、安装类库安装modelscope参考官方文档：环境安装·文档中心(modelscope.cn)运行示例代码报错，还需要安装以下类库：pipinstallmatplotlibpipinstallkantts-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/
sambert中英混文本到语音训练教程小李学不会编程 python conda github 语音识别人工智能
sambert语音转文字使用教程搭建视频教程：开源项目sambert语言合成，手把手教你搭建和训练效果最好的中英混TTS项目，实现个性化语音合成。_哔哩哔哩_bilibili1.参考文档ModelScope魔搭社区#sambert，支持中文、英文、中英混音频的语言合成。个性化语音合成-自动标注模型-16k#数据标注，支持中文、英文、中英混音频的标注FRCRN语音降噪-单麦-16k#若声音有噪声，可
【语音合成】中文-多情感领域-16k-多发音人太空眼睛人工智能 tts 语音合成数字人 modelscope python
模型介绍语音合成-中文-多情感领域-16k-多发音人框架描述拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用，故此处仅涉及参数法。参数TTS系统可分为两大模块：前端和后端。前端包含文本正则、分词、多音字预测、文本转音素和韵律预测等模块，它的功能是把输入文本进行解析，获得音素、音调、停顿和位置等语言学特征。后端包含时长模型、声学模型和声码器，它
PyTorch（超详细）部署与激活举起Python火炬，点亮智慧人生【Windows版】心安成长 PyTorch python pytorch windows
AI时代，我们不仅要学习Python，同时机器学习，深度学习利器也要逐步掌握，再次开始Pytorch学习教程记录。PyTorch是一个流行的开源深度学习框架，它可以用于构建、训练和部署各种机器学习和深度学习模型。PyTorch可以用于以下领域：计算机视觉：图像分类、目标检测、图像分割、人脸识别等。自然语言处理：机器翻译、文本分类、情感分析、问答系统等。语音处理：语音识别、语音合成、说话人识别等。生
百度语音合成API swoole~ PHP 百度 php
引言：随着语音合成技术的不断发展和应用，越来越多的开发者开始关注和学习如何将语音合成功能应用到自己的项目中。百度语音合成接口是一款强大的工具，提供了丰富的功能和灵活的调用方式。本文将介绍如何使用PHP语言实现对接百度语音合成接口的技巧与注意事项，并附上代码示例。一、准备工作要使用百度语音合成接口，首先需要拥有一个百度账号并创建一个应用，在创建应用时会分配给你一个APIKey和一个SecretKey
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

语音合成TTS | AI产品经理需要了解的AI技术概念

你可能感兴趣的:(语音合成)