NLP-分布表示(distributional representation)与分布式表示(distributed representation)

写论文好纠结这两个东西的概念。。。现对网上查到的资料进行以下整理。。。

distributed representation&distributional representation


1.关于Manning 在2015 年深度学习暑期学校(蒙特利尔)的澄清

Distributed: A concept is represented as continuous activation levels in a number of elements. Like a dense word embedding, as opposed to 1-hot vectors.
Distributional: Meaning is represented by contexts of use. Word2vec is distributional, but so are count-based word vectors, as we use the contexts of the word to model the meaning.

含义

  • Distributed:分布式描述的是若干元素的连续表示形式,如稠密的词嵌入向量表示,与之相反的是独热向量。
  • Distributional:使用词语的上下文来表示其语义,Word2vec和基于计数的词向量表示都是分布表示,因为我们都使用词语的上下文来表征它的含义。

2.关于Stefan Evert在Distributional Semantic Models中的报告

Distributional model
  • captures linguistic distribution of each word in the form of a high-dimensional numeric vector
  • typically (but not necessarily) based on co-occurrence counts
  • distributional hypothesis:distributional similarity/distance ∼ semantic similarity/distance
Distributed representation
  • sub-symbolic representation of words as high-dimensional numeric vectors
  • similarity of vectors usually (but not necessarily) corresponds to semantic similarity of the words
  • hot topic: unsupervised neural word embedding
☞ Distributional model can be used as distributed representation

含义

  • 分布模型:从高维向量中捕捉每个词语的语义分布,通常基于共现计数,该模型基于分布假说
  • 分布式表示:高维向量的词的子符号表示,向量的相似性对应于语义的相似性,最主要的代表是基于神经网络的词嵌入

3.Quora中对两个词语概念的辨析

回答多种多样,,有人认为是不同的表示技术,有人认为是相关的。。

4.维基百科中对分布语语义模型的描述

5.来斯惟在<基于神经网络的词和文档语义向量表示方法研究>论文中的描述

  • 分布表示(distributional representation):分布(distributional)描述的是上
    下文的概率分布,因此用上下文描述语义的表示方法(基于分布假说的方
    法)都可以称作分布表示。与之相对的是形式语义表示。
  • 分布式表示(distributed representation):分布式(distributed)描述的是把
    信息分布式地存储在向量的各个维度中,与之相对的是局部表示(local
    representation),如词的独热表示(one-hot representation),在高维向量中
    只有一个维度描述了词的语义。一般来说,通过矩阵降维或神经网络降维
    可以将语义分散存储到向量的各个维度中,因此,这类方法得到的低维向
    量一般都可以称作分布式表示。

读了这些还是完全没有弄懂,感觉他们的说法总有交叉的内容在里面。

你可能感兴趣的:(NLP之路)