2022清华暑校笔记之L1_NLP和Bigmodel基础

2022清华大学大模型交叉研讨课

2022-6-27

L1

1 NLP部分

  • NLP Tasks
    • 词性标注
    • 命名实体的识别(省略的现象)
    • 共体消减(代词)
    • 标注成分之间的依赖关系
    • 中文的自动分词
  • 运用:

    • 搜索引擎中运用NLP
      • 匹配query和document的相似度,给定query后,可以给一些广告
      • 判断文档质量
    • NLP结合knowledge graph
      • 充分抽取、利用知识
    • 人工助手
    • 翻译(解除语言屏障)
    • 用语言作为一个视角,去分析社会
  • 词表示:

    • 转化成机器可以理解的词的意思
    • similarity和relation
      • 弊端
        • 人工标注,缺失一些新的含义
        • 缺失细微的差别
        • 主观性
        • 数据吸收
        • 需要大量人工
  • one-hot

    • 独立的,找一维和该词对应,其余维度为0
    • 默认词和词之间都是正交的,导致任意两个词之间的相似度都是0
    • 改进:词义和上下文有关
    • 一个词用它上下文的常见词进行表示
    • 弊端:
      • 增加了词的空间
      • 对于出现频率较少的词,上下文比较稀疏,导致效果不好
  • word embedding

    • 建立低维的向量空间
    • Word2Vec
  • Language Model

    • 语言建模,根据前文进行预测
      • 联合概率:已有序列组成句子的概率
      • 条件概率:根据已有的句子预测下一个词
    • 如何完成?
      • 假设:一个未来的词只受到之前的词的影响
      • 可以拆分,得到联合概率和条件概率的关系
  • N-gram Model

    • E.g, 4-gram(n-gram只和该词的前n-1个词有关)
      P ( w j ∣  never to late to  ) = count ⁡ (  too late to  w j ) count ⁡ (  too late to  ) P\left(w_{j} \mid \text { never to late to }\right)=\frac{\operatorname{count}\left(\text { too late to } w_{j}\right)}{\operatorname{count}(\text { too late to })} P(wj never to late to )=count( too late to )count( too late to wj)
      (never在此式子中并不纳入计算)
    • 弊端:
      • 距离比较短
      • 仍然没有考虑到词之间的相似度
  • Neural Language Model

    • 分布式的表示来建构
    • 先把前3个词都表示成低维的向量,然后把低维的向量拼在一起,形成一个高一些的向量,然后就可以用这个向量来预测下一个词。
    • 所有的预测都是通过对上下文的表示来进行的。
    • 通过大模型去学习参数的设置

2 Bigmodel

2.1 简介

预训练语言模型的机理和细节。

  • Why PLM?
    • 语言理解和语言生成的效果都很好
      • 不断增加参数
      • 增加计算
      • 增加算力
    • 例子:GPT-3
      • rich knowledge
      • zero/few-shot(无标注,少样本)
  • Paradigms
    • 从无标注的数据中进行学习,通过一些自监督的任务做预训练,从中得到丰富通用的知识。在具体运用的时候,再引入任务相关的知识,去调整模型。
    • word embddings
    • contextual word embddings
    • ELMo,ULMFiT
    • Transformer
  • Typical Case
    • GPT
    • Bert

2.2 Demo

  • 大模型demo
    • GPT-3(问答模型)
    • 代码大模型
    • DALL-E 2 图像生成
    • 搜素引擎

你可能感兴趣的:(深度学习,自然语言处理,学习,机器学习)