Springboot实现语音听写转文字功能

Springboot实现语音听写转文字功能

  • 背景概述
  • 项目描述
  • 技术特性
  • 技术规格
    • 输入
    • 输出
  • 解决思路
  • 源码下载

背景概述

语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

项目描述

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果,方便用户在实时同声传译,形成文档形式,去繁化简。

技术特性

  • 针对上下文进行语义理解,将中间结果进行智能纠错,确保准确性。
  • 对于音频流实现毫秒级识别,并返回带有时间戳的文字流,便于二次开发。
  • 对结果中出现数字、日期、时间等内容格式化成规整的文本。
  • 运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。

技术规格

输入

  • 形式:实时音频流
  • 支持语种:中文普通话
  • 支持格式:PCM
  • 声道:单声道
  • 采样率:16KHz
  • 分片时长:40ms
  • 采样精度:16bits

输出

  • 形式:json格式字符串
  • 编码:UTF-8
  • 结果:句子开始&结束时间&词识别内容&词标识&词开始时间&词结束时间&结果类型标识&段落ID,整句的中间结果,整句的最终结果

解决思路

通过下载讯飞开发平台SDK以及demo进行java开发简易语音识别功能模块

源码下载

https://download.csdn.net/download/crazy_mamba/10993062

你可能感兴趣的:(Springboot实现语音听写转文字功能)