2022.9.24 第2次周报

目录

  • 文献阅读
    • 摘要
    • 研究内容及结论
  • 深度学习
    • 代价函数
    • 梯度下降
    • 线性回归
  • 总结

文献阅读

本周阅读了《Speech Recognition and Correction of a Stutterrd Speech》文献。

摘要

本文的目的是开发一种算法,以增强口吃的语音识别。口吃是一种疾病,通过非自愿重复,单词/音节的延长或非自愿的无声间隔影响语音流利。当前的语音识别系统无法识别口吃的语音。在文献中已经报道了检测口吃的方法,但是尚未报告有效的口吃校正技术。本文解决了此问题,并提出了在可接受的时间限制内检测和纠正口吃的方法。为了清除样品中的延长,开发了通过神经网络的幅度阈值。使用现有的文本对语音(TTS)系统通过字符串重复删除算法来删除重复。因此,对所有没有口吃输出信号,产生更好的语音识别。

研究内容及结论

在实时模式下检测和校正这些口吃语音样本,生成没有任何口吃的经过校正的语音样本。人们提出了一种使用神经网络和少量字符串运算的算法来检测和校正语音。这个系统可以与手机和笔记本电脑集成,帮助患有这种语言障碍的人用语音控制他们的设备,就像当今世界大多数人所作的那样。帮助言语残疾人使用他们已经可以使用的工具,而不用担心他们的言语障碍。

口吃的语音处理系统在MATLAB环境中实现。创建了一个用户友好的GUI,该GUI使用户能够记录自己的演讲,然后处理演讲以生成无序的语音,如下所示。GUI为用户提供了仅删除用户语音中的延长或所有类型口吃的选项。这里讨论的斯托特的类型是部分或全词的重复,延长和插入。2022.9.24 第2次周报_第1张图片
图1(a) 从用户语音样本中删除所有类型的口吃
2022.9.24 第2次周报_第2张图片
图1(b) 去除用户语音样本中的延长

本文的主要目的是提出一种算法,该算法有效地检测和纠正口吃障碍者的语音段中的口吃。提出的算法对于50个口吃的语音样本的精度为86%。两种算法用于更精确的口吃拆卸系统,可以在任何设备上构建。

可以将开发的系统纳入任何现有的语音识别系统中。它还可以用作语音治疗系统,在该系统中,患有口吃的用户听起来像从系统中获得的正确输出。因此,患有口吃的人可以使用该设备来使用现有的虚拟助手服务,或者使用该设备充满信心地与他人交谈。这将提高这种疾病患者之间的沟通水平。

深度学习

本周学习了吴恩达《机器学习》的代价函数、梯度下降、线性回归。

代价函数

代价函数就是用于找到最优解的目的函数,这也是代价函数的作用。
2022.9.24 第2次周报_第3张图片
The cost function(代价函数) or Square error cost function(平方误差代价函数)公式:
2022.9.24 第2次周报_第4张图片

梯度下降

梯度下降(gradient descent):在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,它的主要目的是通过迭代找到目标函数的最小值,或者收敛到最小值。下图中展示了只有两个参数的模型运用梯度下降算法的过程。
2022.9.24 第2次周报_第5张图片

线性回归

下图为线性回归模型的代价函数对参数的偏导数:
2022.9.24 第2次周报_第6张图片2022.9.24 第2次周报_第7张图片

总结

本周学习了吴恩达的机器学习,看了几遍都还是懵懵懂懂,这方面的知识严重缺失,希望通过后期的学习可以及时填不上,后面我也会继续学习机器学习,了解更多算法和模型,尽快入手代码,使自己得到很好的提升。

你可能感兴趣的:(语音识别,人工智能)