cs224n斯坦福深度学习NLP课程笔记

1,同义词,相似语义的,不能改变其语义程度,我是行业专家和我精通这个行业,两个的程度不一样
2,独热编码表示其中信息,问题无法表示近义词之间的语义信息,
3,建立两个词表表之间的相似性,建立词汇之间一套完全独立的相似性关系,一个单词编码表示的含义是,构造相似性含义,然后做一些类似求解点积的操作,这样就可以让我i们了解词汇之间有多少相似性,
4,相关性做法是,NLP概念的分布相似性,分布相似性是指,你可以得到大量的表示某个词汇含义的值,只需要通过观察其出现的上下文,并对这些上下文做一些处理来得到,例如如果想到的bank的信息,我需要做到是找出数千个包含banking的例句,然后观察每一次它出现的场合,
会出现像关于债户,债务,等相关信息 ,然后开始统计所有出现过的内容,通过上下文的词来表示banking的含义,
意思是通过知道单词的伙伴来表示其中的含义通过预测单词出现的文本的上下文就可以理解这个但系的含义了
cs224n斯坦福深度学习NLP课程笔记_第1张图片cs224n斯坦福深度学习NLP课程笔记_第2张图片

5,接下来要做的是给每一单词构建一个词向量,会选择一个密集型向量,让它可以预测目标单词所在文本的其他词汇,比如对两个向量间的点积,可以训练递归,这些可以用算法来实现
6,关键词两个。分布式distributional 分布式表示 distributed repressentations 即用密集型向量表示词汇含义 ,两个词的含义不同
分布相似性的概念是一种关于词汇语义的理论,你可以通过单词出现的上下文,来描述 词汇的意思,所以分布式是指次面意思,分布式又跟独热词汇向量不同,独热词汇是指具体表示的某一个单词,在分布相似性中,我们在一个大的向量空间模糊化词汇的含义
7word2vec ,什么是word2vec。一种来学习神经词嵌入问题的方法,我们定义一个模型来根据中心词汇来预测它上下文的词汇 ,还有其他方法通过预测其他单词上下文出现的概率,
7.1 通过损失函数在判断预测的准确性,通过预测中心词汇周围的词,目的使其达到一个很高的准确率,目标是调整词汇表示,从而使损失最小化,你实际上设置这样一个目标以外,其他的什么也做不了,只是让每个单词的向量,都能预测其周围的词汇,然后剩余的是神经网路处理,网络在表示单词四亿方面如此强大,在处理各种类似问题上也有非常有用
.

你可能感兴趣的:(深度学习,自然语言处理,机器学习)