巴扎黑_2016

语音交互技术概述

1.概述

最近做了两个与语音识别相关的项目，两个项目的主要任务虽然都是语音识别，或者更确切的说是关键字识别，但开发的平台不同，一个是windows下的，另一个是android平台的，于是也就选用了不同的语音识别平台，前者选的是微软的Speech API开发的，后者则选用的是CMU的pocketsphinx，本文主要将一些常见的语音交互平台进行简单的介绍和对比。

这里所说的语音交互包含语音识别（Speech Recognition，SR，也称为自动语音识别，Automatic Speech Recognition，ASR）和语音合成（Speech Synthesis，SS，也称为Text-To-Speech，简记为TTS）两种技术，另外还会提到声纹识别（Voice Print Recognition，简记为VPR）技术。

语音识别技术是将计算机接收、识别和理解语音信号转变为相应的文本文件或者命令的技术。它是一门涉及到语音语言学、信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能的交叉学科。在语音识别系统的帮助下，即使用户不懂电脑或者无法使用电脑，都可以通过语音识别系统对电脑进行操作。

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

下面按平台是否开源来介绍几种常见的语音交互平台，关于语音识别和语音合成技术的相关原理请参见我接下来的其他文章。

2.商业化的语音交互平台

1)微软Speech API

微软的Speech API（简称为SAPI）是微软推出的包含语音识别（SR）和语音合成（SS）引擎的应用编程接口（API），在Windows下应用广泛。目前，微软已发布了多个SAPI版本（最新的是SAPI 5.4版），这些版本要么作为于Speech SDK开发包发布，要么直接被包含在windows 操作系统中发布。SAPI支持多种语言的识别和朗读，包括英文、中文、日文等。SAPI的版本分为两个家族，1-4为一个家族，这四个版本彼此相似，只是稍微添加了一些新的功能；第二个家族是SAPI5，这个系列的版本是全新的，与前四个版本截然不同。

最早的SAPI 1.0于1995年发布，支持Windows 95和Windows NT 3.51。这个版本的SAPI包含比较初级的直接语音识别和直接语音合成的API，应用程序可以直接控制识别或合成引擎，并简化更高层次的语音命令和语音通话的API。SAPI3.0于97年发布，它添加了听写语音识别（非连续语音识别）和一些应用程序实例。98年微软发布了SAPI4.0，这个版本不仅包含了核心的COM API，用C++类封装，使得用C++来编程更容易，而且还有ActiveX控件，这个控件可以再VB中拖放。这个版本的SS引擎随Windows2000一起发布，而SR引擎和SS引擎又一起以SDK的形式发布。

SAPI5.0 于2000年发布，新的版本将严格将应用与引擎分离的理念体现得更为充分，所有的调用都是通过动态调用sapi.dll来实现的，这样做的目的是使得API更为引擎独立化，防止应用依赖于某个具有特定特征的引擎，这种改变也意图通过将一些配置和初始化的代码放到运行时来使得应用程序的开发更为容易。

2).IBM viaVoice

IBM是较早开始语音识别方面的研究的机构之一，早在20世纪50年代末期，IBM就开始了语音识别的研究，计算机被设计用来检测特定的语言模式并得出声音和它对应的文字之间的统计相关性。在1964年的世界博览会上，IBM向世人展示了数字语音识别的“shoe box recognizer”。 1984年，IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率。

1992年，IBM引入了它的第一个听写系统，称为“IBM Speech Server Series (ISSS)”。1996年发布了新版的听写系统，成为“VoiceType3.0”，这是viaVoice的原型，这个版本的语音识别系统不需要训练，可以实现孤立单词的听写和连续命令的识别。VoiceType3.0支持Windows95系统，并被集成到了OS/2 WARP系统之中。与此同时，IBM还发布了世界上首个连续听写系统“MedSpeak Radiology”。最后，IBM及时的在假日购物季节发布了大众化的实用的“VoiceType Simply Speaking”系统，它是世界上首个消费版的听写产品(the world’s first consumer dictation product).

1999年，IBM发布了VoiceType的一个免费版。2003年，IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权，而ScanSoft公司拥有颇具竞争力的产品“Dragon NaturallySpeaking”。两年后，ScanSoft与Nuance合并，并宣布公司正式更名为Nuance Communications，Inc。现在很难找到IBM viaVoice SDK的下载地址了，它已淡出人们的视线，取而代之的是Nuance。

3）Nuance

Nuance通讯是一家跨国计算机软件技术公司，总部设在美国马萨诸塞州伯灵顿，主要提供语音和图像方面的解决方案和应用。目前的业务集中在服务器和嵌入式语音识别，电话转向系统，自动电话目录服务，医疗转录软件与系统，光学字符识别软件，和台式机的成像软件等。

Nuance语音技术除了语音识别技术外，还包扩语音合成、声纹识别等技术。世界语音技术市场，有超过80%的语音识别是采用Nuance识别引擎技术，其名下有超过1000个专利技术，公司研发的语音产品可以支持超过50种语言，在全球拥有超过20亿用户。据传，苹果的iPhone 4S的Siri语音识别中应用了Nuance的语音识别服务。另外，据Nuance公司宣布的重磅消息，其汽车级龙驱动器Dragon Drive将在新奥迪A3上提供一个免提通讯接口，可以实现信息的听说获取和传递。

Nuance Voice Platform(NVP)是Nuance公司推出的语音互联网平台。Nuance公司的NVP平台由三个功能块组成：Nuance Conversation Server 对话服务器，Nuance Application Environment （NAE）应用环境及Nuance Management Station管理站。Nuance Conversation Server对话服务器包括了与Nuance语音识别模块集成在一起的VoiceXML解释器，文语转换器（TTS）以及声纹鉴别软件。NAE应用环境包括绘图式的开发工具，使得语音应用的设计变得和应用框架的设计一样便利。Nuance Management Station管理站提供了非常强大的系统管理和分析能力，它们是为了满足语音服务的独特需要而设计的。

4）科大讯飞——讯飞语音

提到科大讯飞，大家都不陌生，其全称是“安徽科大讯飞信息科技股份有限公司”，它的前身是安徽中科大讯飞信息科技有限公司，成立于99 年12月，07年变更为安徽科大讯飞信息科技股份有限公司，现在是一家专业从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的企业，在中国语音技术领域可谓独占鳌头，在世界范围内也具有相当的影响力。

科大讯飞作为中国最大的智能语音技术提供商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。03年，科大讯飞获迄今中国语音产业唯一的“国家科技进步奖（二等）”，05年获中国信息产业自主创新最高荣誉 “信息产业重大技术发明奖”。06年至11年，连续六届英文语音合成国际大赛（Blizzard Challenge）荣获第一名。08年获国际说话人识别评测大赛（美国国家标准技术研究院—NIST 2008）桂冠，09年获得国际语种识别评测大赛（NIST 2009）高难度混淆方言测试指标冠军、通用测试指标亚军。

科大讯飞提供语音识别、语音合成、声纹识别等全方位的语音交互平台。拥有自主知识产权的智能语音技术，科大讯飞已推出从大型电信级应用到小型嵌入式应用，从电信、金融等行业到企业和家庭用户，从PC到手机到MP3/MP4/PMP和玩具，能够满足不同应用环境的多种产品，科大讯飞占有中文语音技术市场60%以上市场份额，语音合成产品市场份额达到70%以上。

5）其他

其他的影响力较大商用语音交互平台有谷歌的语音搜索（Google Voice Search），百度和搜狗的语音输入法等等，这些平台相对于以上的4个语音交互平台，应用范围相对较为局限，影响力也没有那么强，这里就不详细介绍了。

3.开源的语音交互平台

1）CMU-Sphinx

CMU-Sphinx也简称为Sphinx（狮身人面像），是卡内基 - 梅隆大学（ Carnegie Mellon University，CMU）开发的一款开源的语音识别系统，它包括一系列的语音识别器和声学模型训练工具。

Sphinx有多个版本，其中Sphinx1~3是C语言版本的，而Sphinx4是Java版的，另外还有针对嵌入式设备的精简优化版PocketSphinx。Sphinx-I 由李开复（Kai-Fu Lee）于1987年左右开发，使用了固定的HMM模型（含3个大小为256的codebook），它被号称为第一个高性能的连续语音识别系统（在Resource Management数据库上准确率达到了90%+）。Sphinx-II由Xuedong Huang于1992年左右开发，使用了半连续的HMM模型，其HMM模型是一个包含了5个状态的拓扑结构，并使用了N-gram的语言模型，使用了Fast lextree作为实时的解码器，在WSJ数据集上的识别率也达到了90%+。

Sphinx-III主要由Eric Thayer 和Mosur Ravishankar于1996年左右开发，使用了完全连续的（也支持半连续的）HMM模型，具有灵活的feature vector和灵活的HMM拓扑结构，包含可选的两种解码器：较慢的Flat search和较快的Lextree search。该版本在BN（98的测评数据集）上的WER（word error ratio）为19%。Sphinx-III的最初版还有很多limitations，诸如只支持三音素文本、只支持Ngram模型（不支持CFG/FSA/SCFG）、对所有的sound unit其HMM拓扑结构都是相同的、声学模型也是uniform的。Sphinx-III的最新版是09年初发布的0.8版，在这些方面有很多的改进。

最新的Sphinx语音识别系统包含如下软件包：
 Pocketsphinx — recognizer library written in C.
 Sphinxbase — support library required by Pocketsphinx
 Sphinx4 — adjustable, modifiable recognizer written in Java
 CMUclmtk — language model tools
 Sphinxtrain — acoustic model training tools
这些软件包的可执行文件和源代码在sourceforge上都可以免费下载得到。

2）HTK

HTK是Hidden Markov Model Toolkit（隐马尔科夫模型工具包）的简称，HTK主要用于语音识别研究，现在已经被用于很多其他方面的研究，包括语音合成、字符识别和DNA测序等。

HTK最初是由剑桥大学工程学院（Cambridge University Engineering Department ，CUED）的机器智能实验室（前语音视觉及机器人组）于1989年开发的，它被用来构建CUED的大词汇量的语音识别系统。93年Entropic Research Laboratory Inc.获得了出售HTK的权利，并在95年全部转让给了刚成立的Entropic Cambridge Research Laboratory Ltd，Entropic一直销售着HTK，直到99年微软收购了Entropic，微软重新将HTK的版权授予CUED，并给CUED提供支持，这样CUED重新发布了HTK，并在网络上提供开发支持。

HTK的最新版本是09年发布的3.4.1版，关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。

3）Julius

Julius是一个高性能、双通道的大词汇量连续语音识别（large vocabulary continues speech recognition，LVCSR）的开源项目，适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM，在当前的PC机上能够实现实时的语音识别，单词量达到60k个。

Julius整合了主要的搜索算法，高度的模块化使得它的结构模型更加独立，它同时支持多种HMM模型（如shared-state triphones 和 tied-mixture models等），支持多种麦克风通道，支持多种模型和结构的组合。它采用标准的格式，这使得和其他工具箱交叉使用变得更容易。它主要支持的平台包括Linux和其他类Unix系统，也适用于Windows。它是开源的，并使用BSD许可协议。

自97年后，Julius作为日本LVCSR研究的一个自由软件工具包的一部分而延续下来，后在2000年转由日本连续语音识别联盟(CSRC)经营。从3.4版起，引入了被称为“Julian”的基于语法的识别解析器，Julian是一个改自Julius的以手工设计的DFA作为语言模型的版本，它可以用来构建小词汇量的命令识别系统或语音对话系统。

4）RWTH ASR

该工具箱包含最新的自动语音识别技术的算法实现，它由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发。

RWTH ASR工具箱包括声学模型的构建、解析器等重要部分，还包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化训练和单词词根处理组件等，它支持Linux和Mac OS等操作系统，其项目网站上有比较全面的文档和实例，还提供了现成的用于研究目的的模型等。

该工具箱遵从一种从QPL发展而来的开源协议，只允许用于非商业用途。

5）其他

上面提到的开源工具箱主要都是用于语音识别的，其他的开源语音识别项目还有Kaldi 、simon 、iATROS-speech 、SHoUT 、 Zanzibar OpenIVR 等。

常见的语音合成的开源工具箱有MARY、SpeakRight、Festival 、FreeTTS 、Festvox 、eSpeak 、Flite 等。

常见的声纹识别的开源工具箱有Alize、openVP等。

4.小结

本文介绍了几种常见的语音交互平台，主要是语音识别、语音合成的软件或工具包，还顺便提到了声纹识别的内容，下面做一个简单的总结：

以上总结的表格希望对读者有用！

参考文献

[1]语音识别-维基百科：http://zh.wikipedia.org/wiki/语音识别
[2]语音合成-百度百科：http://baike.baidu.com/view/549184.htm
[3] Microsoft Speech API：http://en.wikipedia.org/wiki/Speech_Application_Programming_Interface#SAPI_1
[4] MSDN-SAPI：http://msdn.microsoft.com/zh-cn/library/ms723627.aspx
[5] 微软语音技术 Windows 语音编程初步：http://blog.csdn.net/yincheng01/article/details/3511525
[6]IBM Human Language Technologies History：http://www.research.ibm.com/hlt/html/history.html
[7] Nuance: http://en.wikipedia.org/wiki/Nuance_Communications
[8] 科大讯飞：http://baike.baidu.com/view/362434.htm
[9] CMU-Sphinx: http://en.wikipedia.org/wiki/CMU_Sphinx
[10] CMU Sphinx homepage：http://cmusphinx.sourceforge.net/wiki/
[11] HTK Toolkit：http://htk.eng.cam.ac.uk/
[12] Julius：http://en.wikipedia.org/wiki/Julius_(software)
[13] RWTH ASR：http://en.wikipedia.org/wiki/RWTH_ASR
[14] List of speech recognition software: http://en.wikipedia.org/wiki/List_of_speech_recognition_software
[15] Speech recognition: http://en.wikipedia.org/wiki/Speech_recognition
[16] Speech synthesis: http://en.wikipedia.org/wiki/Speech_synthesis
[17] Speaker recognition: http://en.wikipedia.org/wiki/Speaker_recognition

metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
感恩日记美玲_
1，感恩小妹一大早，就发来了给妈妈洗浴后的照片。看到老妈平安健康，心中很是喜悦。祈愿老妈～在世的菩萨，健健康康平平安安，有妈在，家就在。让在外的儿女逢年过节有归心似箭的心情。2，感恩姚老师咖啡冥想研究生滴2期的义工团队，及时通报我参加学习事宜。让我这次学习不再，毫无准备，手忙脚乱。做好学习安排。3，感恩永红接受我的邀请，参与姚老师咖啡冥想研究生延续班，4，感恩丰盛10门的素娜，提议的语音好方法，更
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
VITS 源码解析2-模型概述迪三 #NN_Audio 音频人工智能
VITs是文本到语音(Text-to-Speech,TTS)任务中最流行的技术之一，其实现思路是将文本语音信息融合到了HiFiGAN潜空间内,通过文本控制HiFiGAN的生成器，输出含文本语义的声音。VITs主要以GAN的方式训练,其生成器G是SynthesizerTrn，判别器D是MPD。VITS的判别器几乎和HiFiGAN一样，生成器则融合了文本、时序、声音三大类模型1.文件概述模型部分包含三
语音识别技术有哪些应用场景？不想秃头的程序语音识别人工智能
语音识别技术，作为人工智能领域的重要分支，已经深入到我们日常生活的方方面面。以下是一些常见的应用场景：智能助理智能助理如Siri、GoogleAssistant以及Alexa等，都基于语音识别技术来实现用户交互。用户可以通过语音命令来拨打电话、查询信息、设置提醒等。这些助理软件能够理解多种语言和方言，并能够在复杂的环境噪声中准确识别用户的指令。智能家居在智能家居领域，语音识别被用于控制各种智能设备
2021-03-07 昨日关于身体如何影响思维和行为的一些思考了不起的华伟
昨天的时候，听冬月老师的读书营课，然后给我一个学员的小姐姐进行了答疑了她的一个问题，然后当时我就结合自己的一本书《具身认知》，思考了一些事情。当时直接在社群用语音的方式输出给大家的，然后今天看到提问的小姐姐，帮我整理出的文字版。1.冬月老师指出问题的核心是不自信，所以让她抬头挺胸自信地走出去，就是说这种方式，它是用身体的方式去打破你这种不自信的一个方式，也就是说从身体上去影响，这个方式跟我现在看的
【20220616】今日十点感悟邱小美是Kelly
1、语音输入，确实比键盘打字要快很多；2、任何方式都有优劣，找到适合自己的就好；3、下定决心要做的事情，一定要去做；4、品行真的很重要；5、永远不要高估自己的能力；6、不管做什么事情，都将就认真；7、一定要多喝水；8、女孩子之间的友谊，真的值得羡慕；9、多和那些同频道的人多说话；10、记账的目的，就是知道自己的钱花到了哪里，以及怎么省钱。
岐路，还能回头吗？奋发_09ba
昨晚小奋与女儿视频通话，女儿4岁机灵可爱，非常的聪明。小奋心中始终能够肯定小姑娘长大一定很有出息，与女儿视频完以后，小奋与前妻婉婷语音聊了几句。希望婉婷能够带着女儿过来玩两天。小奋的邀请婉婷拒绝了，而且婉婷看起来非常的生气，小奋看到了婉婷满满的不满和怨言。小奋心中知道，自己没有婉婷说的那种想法，但又无法辩驳，因为这一切都是小奋造成的。称呼婉婷前妻小奋觉得似乎有些不恰当，虽然两个人已经离婚，但小奋没
猿创征文｜【FreeSwitch开发实践】使用sipp对FreeSwitch进行压力测试一马途追 FreeSwitch开发实践 sipp 压力测试 FreeSwitch 压测
✨博客主页：小小马车夫的主页✨所属专栏：FreeSwitch开发实践✨专栏介绍：主要介绍博主在实际项目中使用FreeSwitch开发外呼类项目的一些经验心得，主要涉及FreeSwitch的基本安装编译、基本配置、ESL、WSS、录音、自定义模块、mediabug、语音播放、MRCP及对接AI机器人等内容。内容在持续更新中，如果感兴趣可以对专栏进行订阅~文章目录前言1、sipp编译安装2、sipp命
文本生成图像工作简述1--概念介绍和技术梳理尹凯
姓名：尹凯学号：22011210590学院：通信工程学院原文链接：https://blog.csdn.net/air__Heaven/article/details/127302735【嵌牛导读】文本生成图像的概念介绍与技术梳理【嵌牛鼻子】文本生成图像基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功，而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的
梧桐幸福演说训练营第八天之《幸福演说家》（补作业） 7fd6564e6ed8
今天是母亲节，也是佛诞日，此刻的我在上古养生之道的课堂上参加学习，时间被安排的很紧实，没有跟妈妈发语音和打电话，就给妈妈发了一条微信过去，我相信我的妈妈已经收到我的祝愿妈妈，我想念你，很想很想你，在我心中妈妈就是佛，我好想此刻见到你，在这里祝福你健康幸福，快乐每一天。老师说当一个幸福的演说家，在这里我来解读一下我对幸福演说家的理解。对我来说付出是一种幸福。每当帮我周围的人用我所学的上古的手法解决了
微软 Azure AI 服务免费试用及申请：语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景全云在线allcloudonline microsoft azure 人工智能
为方便企业认识和快速上手AzureAI服务，我们总结了一套包括语音识别、文本转语音、基于视觉、语言处理场景、文档分析场景等全面的预构建模型和演示，旨在解决各种用例。这些模型易于访问，可帮助企业无缝实施AI驱动的解决方案，如下是已整理并编录的AzureAI服务中提供的预构建演示，希望这可以帮助您将AI无缝融入您的产品和服务中。微软AzureAI服务可以合规、稳定地提供企业用户使用ChatGPT的可能
sox处理mp3_sox :音频文件转换命令 weixin_39615741 sox处理mp3
在开发呼叫中心的过程中要播放语音，要把自己录制的语音的wav格式转换为gsm格式，asterisk中也支持wav格式，但是不清楚为什么wav文件大一些就无法播放，所以只有转换为gsm格式。命令：sox00.wav-r8000-c100.gsmresample-ql下面的是在网上找到的一篇文章文章来源Sox是最为著名的OpenSource声音文件格式转换工具。已经被广泛移植到Dos、windows、
Python中的pyttsx3库：文本到语音转换的利器会三十六变的猫 python python 开发语言 pycharm pip
pyttsx3是一个跨平台的文本到语音转换库，它可以在没有安装其他依赖项的情况下在Windows、Linux和macOS上运行。pyttsx3使用系统自带的TTS（文本到语音）引擎，因此可以确保在各种操作系统上都具有较高的稳定性和可用性。官方文档：https://pyttsx3.readthedocs.io/en/latest/https://pyttsx3.readthedocs.io/en/l
[Python]使用pyttsx3将文字转语音小九不会Python Python python 语音识别人工智能
一、安装Pyttsx3首先，你需要在你的Python环境中安装Pyttsx3库。可以通过pip命令进行安装：pipinstallpyttsx3二、基本使用方法导入Pyttsx3库在你的Python脚本中，首先需要导入Pyttsx3库：importpyttsx3初始化TTS引擎使用pyttsx3.init()方法初始化一个TTS引擎对象：engine=pyttsx3.init()将文本转换为语音使用
freeswitch模块的介绍系列【codecs】【mod_ilbc】黄宝良 freeswitch 学习 linux 视频编解码音视频
ffreeswitch模块的介绍系列【编解码】【mod_ilbc】mod_ilbc文章目录ffreeswitch模块的介绍系列【编解码】【mod_ilbc】一、mod_ilbc是什么？二、使用步骤1.引入模块环境2.安装mod_ilbc模块2.FS导入模块总结一、mod_ilbc是什么？“mod_ilbc”是freeswitch忠低比特率编解码器（iLBC）模块，通常在电信和互联网协议语音（VoI
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
Gemini实时语音模式对安卓用户免费——现在你就可以试用 AI小智慧语音识别人工智能
Gemini，这是谷歌快速崛起的AI驱动应用，现在已经开始向Android用户免费推出其实时语音模式。这将使用户能够与Gemini进行实时的交互式语音对话，这是我们与AI互动方式的一大进步。之前，用户只能通过传统的文字输入和响应来与Gemini互动，而现在借助Gemini实时语音模式，用户可以免提地实时探索想法、头脑风暴和讨论各种话题。这种创新互动体验与光年AI的灵活工作流不谋而合，进一步增强了用
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
夜深人静书香心雅
亲爱的伙伴们：今天晩上听了马龙飞老师的语音我失眠了，作为一个成年人的我们每天都扮演着多个角色，每个角色的背后都有好多声音或者念头冒着出来。我们该如何做得更好呢？我思考半天每个人身份定位很重要，隐藏的三大动力。父母智慧这是一个基础课，也就是父母刚把我们送进幼儿园的大门，执行师小学生的水平。导师班，初中刚毕业。深研班也就刚开始找自己更合适的工作。金钱智慧，也就是点醒我们如何父母的关系与钱的关系人生的必
【生活点滴】急性肠胃炎，又来！缘来是你的园园
昨晚哄女儿睡觉的时候只觉得头有点痛，有点不太舒服。可没想到半小时之后，肚子开始痛起来，同时又开始干呕。我心想不会是肠胃炎吧，又来！！！这才过多久，然后回想晚上吃的食物，可晚上只是吃的粥啊！紧接着越来越不对劲，赶紧喝了杯温水。然后呕吐的感觉越来越强，我在卫生间守着马桶！那时候老公正在跟朋友语音聊天，估计听到动静，问我怎么了。我只说肚子痛，然后，我想上厕所。一开始没有拉肚子，可是上完厕所肚子越来越痛，
遇到柚子妹的我，很幸福谦奈儿
图片发自App2018年1月6日，天气阴，坐标苏州，周复盘第31篇，朋友圈27篇。周一晚上突然接到柚子妹的语音电话，原来是她帮我对接了一份文案修改工作，这里的价值远超过价钱。她说：2019年我要让你不一样，我不会再让你借钱了，我会有所行动。我听完后很感动，柚子妹值得拥有最好的。回忆我们认识的一年中，有10个月的时间，我和柚子妹并没有太多的交集，只是存在她的能量社群里，经常冒泡的成员之一。在最后一个
除了你自己，谁也不可以对你“不” 森林树
书名：《谁说你不能坚持》作者：程龙出版社：电子工业出版社字数：244K阅读者：森林树阅读时间：3小时看名字就知道了，这是一本教读者如何坚持的一本书。“坚持”这个词因为今年罗胖的跨年演讲，变得格外火爆。但是这个词绝对不是因为罗胖才有影响力的，只是今年才这么傲娇地出现在大众的视野里，让人们知道它的重要性。很多在“坚持”这件事上坚持的人，都在我意识到坚持很重要时就已经成功了，比如每天坚持录60秒语音的罗
2021-09-25 - 草稿韩佳桐在英
顺智2021.09.25日课1.语音朗读1分钟摘抄：修养要由内及外，要保持一个好的心态，才能保持一个好的状态。反思：今天参加师门拜师活动，一方面是想要积极参加师门活动，还有也是想多修点学分，但一整天下来收获大于付出。第一次完整的听师爷答疑，师爷说的话句句入心。顺晟师姐还帮我答疑解惑，指明方向。今天见到顺妙、顺言、顺坤、接小娟师妹和顺寰、顺旸、顺昕、顺正、顺翠、顺雅师姐，是那样的亲切，好温暖！感恩所
（玖）九月十五号.周二蓝熊米兔
早上摸鱼，摸到中午，收到社区信息，说要人口普查，到社区去登记，再骑车到社保局办理事情，顺利！大芳还是和我微信语音聊天，我推荐她看一本书（当下的力量）耶稣经常这么问他的弟子们。“难道焦虑会让你活得更久吗？”佛陀也说，痛苦的根源就在于我们无止境的欲望。没有任何事情可以发生在过去，所有的事情都发生在当下。也没有任何事情会发生在未来，所有的事情都只发生在当下。如果想象的未来比现在更好，它会给你希望，或让你
对游戏语音软件Oopz遭遇DDoS攻击后的一些建议网络安全服务 ddos 服务器 udp 负载均衡安全 tcp/ip web安全
由于武汉天气太热，因此周末两天就没怎么出门。一直在家打《黑神话：悟空》，结果卡在广智这里一直打不过去，本来想找好友一起讨论下该怎么过，但又没有好的游戏语音软件。于是在网上搜索了一些信息，并偶然间发现了一个名为Oopz的游戏语音软件遭受DDoS攻击的消息。值得注意的是，自最近三个月以来，Oopz共发生两起DDoS攻击事件。身为一名网络安全从业者，对6月份的这一次DDoS攻击事件提出以下建议，宝子们可
即时通讯技术文集（第16期）：IM架构设计技术精选(第一部分) [共17篇] jackjiang20212
为了更好地分类阅读52im.net总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第16期。[-1-]浅谈IM系统的架构设计[链接]http://www.52im.net/thread-307-1-1.html[摘要]下面把我近年来从技术上我对IM系统（即时消息的传输，不包括语音，视频，文件的传输）的理解和设计分享出来，浅薄之见，望大家别见笑，欢迎给出批评意见。[-2-]简述移动
机器学习，深度学习，AGI，AI的概念和区别我就是全世界人工智能机器学习深度学习
1.人工智能（AI）的定义与范围1.1AI的基本概念人工智能（AI）是指通过计算机系统模拟人类智能的技术和科学。AI的目标是创建能够执行通常需要人类智能的任务的系统，如视觉识别、语音识别、决策制定和语言翻译。AI的核心在于其能够处理和分析大量数据，从中提取有用的信息，并根据这些信息做出决策或预测。AI的发展可以追溯到20世纪50年代，当时科学家们开始探索如何使机器能够执行复杂的任务。随着计算能力的
大模型实战—Ollama 本地部署大模型猫猫姐大模型大模型
Ollama本地部署大模型在当今的科技时代，AI已经成为许多领域的关键技术。AI的应用范围广泛，从自动驾驶汽车到语音助手，再到智能家居系统，都有着AI的身影，而随着Facebook开源LLama2更让越来越多的人接触到了开源大模型。今天我们推荐的是一条命令快速在本地运行大模型，在GitHub超过22KStar的开源项目：ollama随着围绕着Ollama的生态走向前台，更多用户也可以方便地在自己电
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

语音交互技术概述

1.概述

2.商业化的语音交互平台

1)微软Speech API

2).IBM viaVoice

3）Nuance

4）科大讯飞——讯飞语音

5）其他

3.开源的语音交互平台

1）CMU-Sphinx

2）HTK

3）Julius

4）RWTH ASR

5）其他

4.小结

参考文献

你可能感兴趣的:(语音识别,语音)