【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记

【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记

  • 比赛评分规则
  • 比赛奖品
    • 学习笔记
      • 课程目录
        • ASR自动语音识别简介
        • ASR自动语音识别的工作流程及原理
        • NeMo自动语音识别工具库及Quartznet模型
        • 使用NeMo快速实现第一个自动语音识别应用
        • 服务器端使用Nemo结合自制数据集训练模型

比赛评分规则

  1. 自动语音识别推理精度评估(accASR):将服务器端训练好的语音识别模型上传到Jetson NX节点上实现推理,调用语音识别模型进行推理完成语音识别任务,并计算字错率(cer_score)分数,进而得到准确率的分数即(accASR = 1 -cer_score)。
    1. 目标检测推理精度评估:将最终提交的模型在Jetson NX节点上进行部署,在Jetson NX上对图片中的垃圾进行检测. 根据组委会提供的统一测试数据集进行推理并计算mAP精度部分。
  • 3.目标检测模型推理速度评估:将最终提交的模型在Jetson NX节点上进行部署, 在Jetson NX上对垃圾进行检测分类。根据组委会提供的统一视频进行推理, 并计算推理速度FPS。
    1. 系统页面完整性和创新性: 最终提交的系统需要有一个用户界面, 完成完整的用户界面并能顺利操作才能得到最终的得分25分。
      *5额外加分项:
      · 本教程在语音识别部分提供Quartznet预训练模型为基础,若能够灵活使用框架内其他语音识别预训练模型完成推理,则最终成绩isOthermodel加2分,若能够自制语音数据集进行模型训练并完成推理,则最终成绩isOthermodel加5分。
      · 视觉部分(修改resnet18 ,isOthermodel加3分,修改ssd ,isOthermodel加5分,如:利用ssd-mobilenet则加3分,利用yolo-resnet18加5分)
      · 用户界面创新性, 如果能够在用户界面中增加新的功能或者作出有特色的美化和优化, 那么可以额外为UI加5分
      最终成绩通过以上4项分数的排名和第五项额外加分项获得:
      语音识别排名: rankASR
      视觉精度排名: rankMAP
      视觉速度排名: rankFPS
      系统用户界面: rankUI
      语音额外模型: asrOtherModel (最高加5分)
      视觉额外模型: cvOtherModel(最高加5分)
      UI美化创新: UI (最高加5分)
      参加的全部队伍数量: teams
      最终成绩:
      FinalScore = 100 – (rankASR -1)*25/teams - (rankMAP -1)*25/teams - (rankFPS -1)*25/teams - (rankUI -1)*25/teams + asrOtherModel + cvOtherModel +UI
      分数最高者为胜出团队。
      另外本次比赛另设考勤分数,即参赛团队必须完成两次在线AI训练营打卡,即可获得考勤分。并且考勤情况我们也会通知团队导师。

比赛奖品

本次比赛前三名队伍将获得RTX3050显卡一个;前二十名参赛团队导师将获得由创乐博提供的Jetson NANO开发套件各一套;进步最大的一支团队也将获得由创乐博提供的Jetson NANO开发套件一套。

学习笔记

课程目录

ASR自动语音识别简介

ASR(Automatic Speech Recognition)自动语音识别是计算机科学和计算语言学的一个跨学科子领域,其开发的方法和技术使计算机可以将口语识别并翻译成文本。它也被称为计算机语音识别或语音转文本(STT)它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记_第1张图片

ASR自动语音识别的工作流程及原理

【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记_第2张图片输入特征向量,进入神经网络,卷积神经网络会对频谱图进行特征抽取,拿到声音当中的特征向量,输送到声学模型中去,声学模型会进行一个编解码的过程,寻找每一帧语音数据和文字之间的关系。

NeMo自动语音识别工具库及Quartznet模型

【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记_第3张图片
【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记_第4张图片
【我参加NVIDIA Sky Hackathon】11月12日下午,第一次线上训练营-学习笔记_第5张图片

使用NeMo快速实现第一个自动语音识别应用

服务器端使用Nemo结合自制数据集训练模型

你可能感兴趣的:(学习,语音识别,人工智能)