课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)

人类语言处理任务总结与研究方向

李宏毅老师2020新课深度学习与人类语言处理课程主页:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频链接地址:
https://www.bilibili.com/video/BV1RE411g7rQ
课件ppt已上传至资源,可免费下载使用


在本课程中,文字和语音的内容各占一半,主要关注近3年的相关技术,重点讲述BERT及之后的预处理模型。

**

课程任务总结:

**
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第1张图片六大类:
    I 语音——文字(语音辨识) Speech Recognition
      传统: 多模组
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第2张图片
      现今: ASR(Automatic Speech Recognition)
        端到端神经网络系统(但不是传统的seq2seq模型),后续会讲

    II 文字——语音(语音合成) Text-to-Speech Synthesis
      现今: 端到端的系统TTS
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第3张图片
    III 语音——语音
       应用: 语音分离 Speech Separation (例如将两个人同时说的话分离为各自所说的)
           语音转换 Voice Conversion (例如柯南中的变音器)
           无监督语音转换 Only one utterance from each speaker(one-shot learning) (一次学习,例如,使系统各听A、B两人说的一句话,将A所说的话用B的语气、语调讲出,反之也可),技术后续会讲
       One-shot learning扩展:《deep learning》一书 480页 迁移学习的两种极端形式是一次学习(one-shot learning) 和 零次学习 (zero-shot learning) ,有时也被称为 零数据学习 (zero-data learning)。只有一个标注样本的迁移任务被称为一次学习;没有标注样本的迁移任务被称为零次学习。

    IV 语音——类别
       应用:
           1 Speaker Recognition 讲述人辨识,判别一段语音是属于谁
           2 Keyword Spotting 关键词判断,判别一段语音是否是一种关键词(可用于聊天系统 如 判别启动语,在Siri中当语音中包含"Hey Siri"时 Siri便会启动)
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第4张图片
    V 文字——文字 (文字生成) Text Generation
       Autoregressive:    自回归,逐字预测输出
       Non-Autoregressive:非自回归,乱序预测输出
       应用:翻译、摘要、聊天机器人、问答系统
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第5张图片
    VI 文字——类别 ,文本分类

扩展:(后续会有详细讲解)
Meta Learning 元学习,学习如何去学习
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第6张图片
Leaning from Unpaired Data 从输入输出模式不同的数据学习
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第7张图片
Adversarial Attack 敌手攻击
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)_第8张图片
Explainable AI ,AI模型的可解释性

你可能感兴趣的:(课程向,自然语言处理,深度学习,机器学习)