Kaldi语音识别第31页

Adlik如何实现与燧原芯片的对接？

加入了与燧原科技合作的成果，增加了对燧原i20芯片的支持，该芯片是燧原科技发布的基于邃思2.5芯片打造的面向数据中心的第二代人工智能推理加速卡，具有高性能高能效、模型覆盖面广、易部署易运维等特点，可广泛应用于计算机视觉、语音识别与合成

Linux基金会AI&Data基金会·2023-04-20 13:42

汉字编码输入法综述（一）

现在是2020年末，汉字输入技术已经发生了巨大变化，人工智能技术的应用使得文字识别和语音识别这些非编码输入方式日益成熟、实用，基于键盘编码的汉字输入也取得长足的进步。互联网和智能手机的普及，使中文输入

声笔系列·2023-04-20 11:43

chain model 翻译

翻译http://kaldi-asr.org/doc/chain.html时间2018年12月13日基于前人翻译的结果,结合自己的理解进行了修改.lattice翻译为词图phone翻译为音素学习chainmodel

sky_186·2023-04-20 00:16

ChatGPT神器免费使用，告别昂贵低效工具

ChatGPT是一种非常强大的AI技术，可以用于各种领域，包括自然语言处理、语音识别、机器翻译等等。而且，由于它是开源的，所以你可以在任何地方使用它，不需要担心版权问题。

小博测试成长之路·2023-04-19 17:33

安装kaldi遇到问题的解决办法

/tools/INSTALL***1234经过查看其他人的做法，我到kaldi.tools目录下用ma

才学·2023-04-19 14:41

2020-02-19 语音识别：speechrecognition的recognize_ibm

speechrecognition简介：speechrecognition包,集合了几个语音识别库的接口：recognize_bing()：MicrosoftBingSpeechrecognize_google

菜菜笛·2023-04-19 08:00

Qt创建SDK库(dll动态库)并调用SDK库(dll动态库)

SDK通常就是封装为单一功能的功能库，比如语音识别SDK。很早之前，API的集合也被称之为SDK。在windows系统中，

冯一川·2023-04-19 07:13

Batch Normalization与Layer Normalization的区别与联系

BatchNormalization与LayerNormalization的区别与联系深度学习作为人工智能领域的热门技术，在图像识别、语音识别、自然语言处理等领域取得了显著的成果。

Chaos_Wang_·2023-04-19 04:13

深度学习的一些基本概念—入门教程

损失函数优化器批处理常用模型卷积神经网络循环神经网络长短时记忆网络自编码器生成对抗网络实践中使用深度学习数据预处理监督学习模型非监督学习模型梯度下降法超参数调整模型评估模型部署结论深度学习的概念入门教程深度学习是一种人工智能技术，其应用广泛，包括图像识别、语音识别

百年孤独百年·2023-04-19 01:30

LD3320语音模块二次开发

因为是二次开发，我只关心应用层的事儿，底层代码驱动我就不一一解释了向LD模块中改变关键字（在配套的底层函数LDChip.c中）LDChip.hmain.c函数中处理语音识别结果以上是口令模式，必须每次喊出

TX564·2023-04-19 00:21

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。

·2023-04-19 00:07

Python实时音频识别与处理——让上网课不再单调

Python实时语音识别转字幕实现原理用speech_recognition库获得实时电脑音频输入，用requests和json库将生成的语音文件上传至百度的云语音识别服务器进行识别，返回结果用wx库显示为字幕

EricFrenzy·2023-04-18 22:36

学习实践-Whisper语音识别模型实战（部署+运行）

1、Whisper内容简单介绍OpenAI的语音识别模型Whisper，Whisper是一个自动语音识别（ASR，AutomaticSpeechRecognition）系统，OpenAI通过从网络上收集了

李卓璐·2023-04-18 22:33

openai的whisper语音识别介绍

今天说说这个whisper项目https://github.com/openai/whisperta是关于语音识别的。它提出了一种通过大规模的弱监督来实现的语音识别的方法。

我口袋有三十三块·2023-04-18 20:00

openfst 介绍

FST在语音识别和合成，机器翻译，光学字符识别，模式匹配，字符串处理，机器学习，信息提取和检索等方面具有关键应用。通常，加权转换器用于表示概率模型（例如，n元语法模型，发音模型）。

ziyu123·2023-04-18 14:33

用于端到端语音识别的文本数据多任务训练

论文MULTITASKTRAININGWITHTEXTDATAFOREND-TO-ENDSPEECHRECOGNITION摘要论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法，以更好地整合语言级别的信息

尚歌·2023-04-18 10:31

智能语音信息处理团队18篇论文被语音技术顶会ICASSP 2023接收

近日，ICASSP2023会议发出了审稿结果通知，语音及语言信息处理国家工程研究中心智能语音信息处理团队共18篇论文被会议接收，论文方向涵盖语音识别、语音合成、话者识别、语音增强、情感识别、声音事件检测等

语音之家·2023-04-18 10:30

ICASSP 2022 | 标点恢复——一套可以同时服务单模态和多模态文本的标点恢复框架

导读在信息时代，自动语音识别技术(AutomaticSpeechRecognition，ASR)已成为互联网领域一大典型应用，尤其是在智能手机等设备上，语音识别功能已经成为标配。

TechBeat人工智能社区·2023-04-18 10:30

[Paper Reading] A Deep Learning Approach for Generalized Speech Animation

其中音频已经标注了对应的音位信息，使用ActiveAppearanceModel(AMM)从视频中提取人脸表情相关的参数；根据音位和人脸表情动画参数数据集，训练模型步骤二：推断过程中，使用语音识别等已有的技术

_soaroc_·2023-04-18 07:52

浅谈智能家居的发展史（一）

随着物联网、大数据、人工智能等技术的发展，智能家居的风越刮越大，特别是语音识别技术的突破，2014年11月，亚马逊推出一款全新概念的便携式的人工智能语音音箱——Echo之后，潘多拉的魔盒至此被打开，以语音音响为流量入口

娃哈哈里的爽歪歪·2023-04-18 06:51

【转】设备接入过千万，涂鸦智能如何打造智能解决方案平台？

自2015年新型智能硬件起步，经过两年多发展，联网和远程控制已成为智能硬件的标准配置，以语音交互为核心的产品越来越多，人工智能在语音识别、NLP、图像识别方面的进展也对新型智能硬件的发展助力不少。

Franck2020·2023-04-18 03:07

自然语言处理中词嵌入降维方法-Random Fourier Feature

这种技术特别适用于处理大规模数据集和大规模特征空间的机器学习问题，如图像分类、语音识别、自

高山莫衣·2023-04-18 03:28

FastASR+FFmpeg(音视频开发+语音识别)

想要更好的做一件事情，不仅仅需要知道如何使用，还应该知道一些基础的概念。一、音视频处理基本梳理1.多媒体文件的理解1.1结构分析多媒体文件本质上可以理解为一个容器容器里有很多流每种流是由不同编码器编码的在众多包中包含着多个帧(帧在音视频的处理中是最小单位)1.2封装格式封装格式(也叫容器)就是将已经编码压缩好的视频流、音频流及字幕流按照一定的方案放到一个文件中，便于播放软件播放。一般来说，视频文件

陈达书·2023-04-18 00:58

Transformer模型及其语音识别应用

https://www.zhihu.com/question/322027027/answer/673423447

纸上得来终觉浅～·2023-04-17 21:17

讯飞语音开发之语音唤醒

只有前面讲到的语音合成，语音理解，语义理解，语音识别确实可以实现人机交流。但是还不能实现完全智能，不能狗做到实时问道，间歇式问答。要实现实时问答，切不用手动操作。这时候语音唤醒功能就大选伸手了。

sz0268·2023-04-17 20:05

解决讯飞语音唤醒参数无效（错误码：10106）的问题

youlin121·2023-04-17 20:04

科大讯飞语音唤醒(Android)

前面的工程项目配置和语音识别差不多，但是需要从SDK的res文件夹中复制ivw文件夹粘贴到main下面的assets文件夹下面。具体的文件配置结构，我截个图给大家看看：剩下的步骤就是两页代码了，附上！

谈情不如逗狗.·2023-04-17 20:33

一步步上手TensorFlow——基础知识

作为常用的机器学习框架，可被用于语音识别或图像识别等多项机器学习和深度学习领域，且上手简单，教材丰富。TensorFlow从名字上，我们就可以对他有一定的理解。Tensor：张量，表示N维数组。

BlackBlog__·2023-04-17 18:37

asr 语音识别方法基于paddle的方法

#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2023/3/1716:25#@Author:sparkle_code_guy'''condacreate-npaddlespeechpython=3.7cudnn=7.6.5cudatoolkit=10.1.243ffmpegx264pipinstallpaddlepaddle-ihttps://mirr

会发paper的学渣·2023-04-17 15:52

PaddleSpeech 流式语音识别系统 PP-ASR

2.特点语音识别的基本流程如下

小湉湉·2023-04-17 15:22

飞桨开发者又出新工具！让AI也能听懂你的话

前言PPASR是飞桨社区开发者夜雨飘零开发的一款基于飞桨实现的语音识别工具，简单实用，可识别中文语音，可部署在服务器、NvidiaJetson设备，未来还计划支持Android等移动设备。

飞桨PaddlePaddle·2023-04-17 15:20

百度飞桨paddlespeech实现小程序实时语音流识别

如果仅仅是简单的语音识别倒也没什么难度，wav文件直接走模型输出结果的事。可是注意标题，流式识别、实时！那么不得不说一下流式的优点了。1、解决内存溢出的烦恼。

一码超人·2023-04-17 15:50

SFSpeechRecognitionTask.error 错误码对照表

iOS语音识别引擎中常见错误对照表加注释了errorAnerrorobjectthatspecifiestheerrorthatoccurredduringaspeechrecognitiontask.iOS10.0

司小文·2023-04-17 05:32

【iOS】iOS语音通话回音消除(AEC)技术实现

一、前言在语音通话、互动直播、语音转文字类应用或者游戏中，需要采集用户的麦克风音频数据，然后将音频数据发送给其它终端或者语音识别服务。如果直接使用采集的麦克风数据，就会存在回音问题。

devnn·2023-04-17 02:11

神经协同过滤（论文笔记）

NeuralCollaborativeFiltering（2017年）一.论文总结在2017年左右，深度学习在计算机视觉、自然语言处理、语音识别等领域取得巨大成功。但在推荐系统这方面的研究比较少。

苏钟白·2023-04-17 01:35

whisper:robust speech recognition via large-sacle weak supervision

视频播放量68331、弹幕量327、点赞数2332、投硬币枚数1192、收藏人数983、转发人数394,视频作者跟李沐学AI,作者简介，相关视频：自动识别讲座、访谈录音——Python开源whisper语音识别

Kun Li·2023-04-16 21:14

李宏毅，语音合成

SpeechSynthesis(1-2)-Tacotron_哔哩哔哩_bilibili[DLHLP2020]SpeechSynthesis(1-2)-Tacotron是[DLHLP2020]李宏毅老师2020春课程-语音识别

Kun Li·2023-04-16 21:43

AI智能语音识别，让电销机器人应运而生！

接通电话后，你能听出电话那边的是客服人员还是AI机器人吗？实际上，目前已经有不少外呼电话是机器人打来的。智能语音机器人正式现身了，不仅比普通客服更高效，发音也更自然，甚至还能模拟真人工作场景、实现情绪标准化。传统人工外呼成本高在传统人工外呼过程中，一直存在着人力成本高、转化率偏低的问题，外呼过程中90%的电话会被挂断。可见，目前营销扔外呼的精准度暂时还无从谈起，同时在此过程中，随着挂断率的居高不下

邦悦信息·2023-04-16 03:31

【飞桨PaddleSpeech语音技术课程】— 语音唤醒

自动语音识别（AutomaticSpeechRecognition,ASR）是一种

小湉湉·2023-04-15 21:46

百度飞桨PaddleSpeech的简单使用

PaddleSpeech是基于飞桨PaddlePaddle的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型，一些典型的应用示例如下：语音识别、语音翻译

fj_changing·2023-04-15 21:44

机器学习深入浅出

文章目录机器学习基本概念机器学习算法类型机器学习的实现步骤机器学习三个基本要素机器学习相关应用1.语音识别2.图像识别机器学习是一种人工智能的分支，它使用算法和数学模型来让计算机自主学习数据并做出预测和决策

夏沫の梦·2023-04-15 20:52

10月晨读复盘

——完成第一篇、第二篇的背诵，并且通过了微信的语音识别。2.坚持每日一词造句打卡。造句时候遇见的各种问题，归根结底是语法不过关。——每日一词进行了27天，打卡20次，完成率在70%以上。

刘珂PH·2023-04-15 20:20

深度学习深入浅出

在过去几年中，深度学习技术取得了许多突破性的成果，如在图像识别、语音识别、自然语言处理、游戏AI等领域中。

夏沫の梦·2023-04-15 20:47

人工智能的基本概念与分类

例如，语音识别或图像识别系统就是狭窄

江南侠客（上海）·2023-04-15 19:33

基于树莓派的智能家居控制系统设计

85802405论文参考：基于树莓派的智能家居控制系统论文参考https://blog.csdn.net/G1842965496/article/details/130071066一、功能介绍1.通过手机APP、语音识别等控制家电

@小高同学·2023-04-15 19:32

基于MATLAB的语音识别仿真系统

本文实现的语音识别系统，主要是对语音识别的特征参数的提取和识别模型的匹配，进行深入的研究。首先,对语音识别进行了概述，给出了语音识别的系统框架。

早起的小懒虫·2023-04-15 18:24

免费的语音转文字软件有哪些？推荐一款好用的

随着人工智能技术的不断发展，语音识别技术已经得到了广泛的应用。语音转文字软件是其中的一种应用，它能够将人们说出的话语自动转化为文字，从而方便人们进行文本处理、记录、存档等操作。

记灵·2023-04-15 18:22

百度AI中语音合成API的调用

（一）下载SDK(百度的SDK里面有有语音识别和合成，图像处理，文字识别等好多接口函数，根据自己的开发语言进行下载，我用的是python)SDK下载（二）安装（cd到下载的SDK文件夹下进行安装）如果已安装

温柔证据·2023-04-15 12:22

顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别（asr）接口

语音识别接口（ASR）启动ASR识别APPcti_detect_speech_sessionasrproxy_addrvad_modevad_min_active_time_msvad_max_end_silence_time_msvad_levelvad_filterwait_speech_timeout_msmax_speech_time_mshot_wordasr_paramsasr_not

顶顶通-FreeSWITCH二次开发接口·2023-04-15 09:42

机器学习与深度学习知识点梳理

人工智能目前的应用主要有搜索引擎（Google）、推荐系统（YouTube、Amazon、天猫）、语音识别（Siri、Alexa）、自动驾驶（Tesla）、策略游戏（Alph

georgeguo·2023-04-15 06:46

推荐频道

Kaldi语音识别