NLP_统计语言模型的发展历程

文章目录


统计语言模型发展的里程碑:
NLP_统计语言模型的发展历程_第1张图片
上半部分是语言模型技术的进展;下半部分则是词向量(词的表示学习)技术的发展。其中,词向量表示的学习为语言模型提供了更高质量的输入信息(词向量表示)

  • 1948年,著名的N-Gram 模型诞生,思路是基于前N-1个项目来预测序列中的第N个项目,所谓的“项目”,就是词或者短语。
  • 1954 年的 Bag-of-Words模型是一种简单且常用的文本表示方法,它将文本表示为一个单词的集合,而不考虑单词在文本中的顺序。在这种表示方法中,每个单词都可以表示为一个单词频率向量,对应一个特定的维度,向量的值表示该单词在文本中出现的次数。
  • 1986 年出现的分布式表示(Distributed Representation )是一种将词或短语表示为数值向量的方法。在这种表示法中,单词的语义信息被分散到向量的各个维度上,因此可以捕捉到单词之间的相似性和关联性。分布式表示主要基于单词在文本中的上下文来构建,因此具有较多的语义和句法信息。这种表示方法有助于解决传统Bag-of-Words 模型和独热编码(One-Hot Encoding)中的词汇鸿沟问题(词汇歧义、同义词等)。
  • 2003年的神经概率语言模型则提出使用神经网络来学习单词之间的复杂关系,它是后续的神经网络语言模型,比如CNN、RNN、LSTM 的思想起点。
  • 2013 年出现的另外一个重要的里程碑,即Word2Vec(W2V),是一种通过训练神经网络模型来学习词汇的分布式表示,简单而又高效。Word2Vec有两种主要的架构:连续词袋(Continuous Bag of Words,CBOW)模型和 Skip-Gram 模型。CBOW模型通过预测一个单词的上下文来学习词向量,而Skip-Gram 模型则通过预测目标单词周围的单词来学习词向量。 Word2Vec生成的词向量可以捕捉到单词之间的相似性、语义关联及词汇的句法信息。其思想和训练结果被广泛用于许多 NLP 模型中。
  • 2018 年之后,基于Transformer的预训练语言模型一统江湖,在自然语言处理领域的许多任务中成为主导方法。它通过更大的语料库和更加复杂的神经网络体系结构来进行语法语义信息的学习,这就是语言模型的预训练过程。这些模型在具体 NLP 任务(如机器翻译、问答系统、文本分类、情感分析、文本生成等任务)上进行微调后,都表现出色,并且不断刷新各种基准测试的最高分数。如今,许多研究者和工程师都在使用这些预训练语言模型作为他们自然语言处理项目的基础。

学习的参考资料:
(1)书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习(pytorch)

(2)机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏

你可能感兴趣的:(NLP,自然语言处理,语言模型,人工智能)