首先说一下文本分析流程:
现在已经到了流程图的第五块内容了~
NLP学习-分词:https://blog.csdn.net/RHJlife/article/details/104748790
NLP学习-清洗:https://blog.csdn.net/RHJlife/article/details/104834980
NLP学习-词形标准化:https://blog.csdn.net/RHJlife/article/details/104835785
NLP学习-文本特征向量化:https://mp.csdn.net/console/editor/html/104893608
NLP学习-建模:暂无
下面讲述文本特征向量化的相关内容。
前面四个模块的完成,意味着我们已经有了以词为单元的数据了,但是有个问题...计算机能直接用这些词来训练吗?答案是不能的,例如如果之前接触过神经网络等概念的,或者自己拿别人模型跑着玩的时候就会发现,训练机是数字数据的时候可以直接用,如果图片、音频等其实也都是转化成数字数据的格式来进行训练的,那么...我们如何讲词语也变成数字数据哪?常见的方法有:one-hot编码、TF-IDF文本向量化、Word2vec文本向量化
也称为独热编码,独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。(百度百科内容)
其实这么说...光看定义是没什么用的,以下我讲举例说明一些one-hot编码在nlp中的应用,或许大家就明白
例子1:假设词典是:[我们,去,爬山,你们,聚会,今天,明天],用独热编码则如下:
我们->(1,0,0,0,0,0,0)
去->(0,1,0,0,0,0,0)
爬山->(0,0,1,0,0,0,0)
你们->(0,0,0,1,0,0,0)
聚会->(0,0,0,0,1,0,0)
今天->(0,0,0,0,0,1,0)
明天->(0,0,0,0,0,0,1)
为什么是这样哪?使用N位状态寄存器来对N个状态进行编码的意思就是有多少个需要表示的词语就要用几个状态,我们要表示七个词,那么就需要七个状态,也就是向量是7位的;每个状态都有它独立的寄存器位的意思就是每个词都要有一个向量;并且在任意时候,其中只有一位有效,你们发现了吗,每个向量仅有1个1,就是这么个意思。
相信大家和我当初一样有很多疑惑,为什么我们对应的(1,0,0,0,0,0,0,0)不能是其他向量吗?答案:当然是可以的,遵循上面的规定,我们发现7个词会对应7个向量(此向量要遵循只有一位有效的规定,那么比如7个位的向量只有7种向量),但是7个词语和7个向量是一一对应的(一个词只能对应一个向量),但是吧...谁对应谁,这个随意...一般就是按顺序来对应的。
独热编码算是比较早期的方法了,它有很多缺点和优点,这个大家可以自行查阅,这个地方大家要了解一下,独热编码并不是nlp中特有的,它有很多应用,你可以了解它本身存在的优缺点,以及在不同领域存在的优缺点。下面我就简单说说我理解的独热编码在nlp中的优缺点:
优点:我个人感觉它最大的优点就是,确实讲词语分来了,并且转换为数字形式了,比较严谨的意思就是:将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。
缺点:这个地方有两个公认的缺点也是最主要的缺点,我就和大家说一下了,第一就是不能表示语义的相似度,举个例子:今天和明天相似度肯定要比今天和爬山相似度都高(这句话...如果不理解...我也不太建议看后面了哈...),但是从独热编码上来看是看不出区别来的(因为独热编码的分配本来就是认为的,用个比较较真的说法,你假设认为今天和明天独热编码比今天和爬山的独热编码更接近,那么我把明天和爬山的独热编码换一下,你还感觉 今天和明天独热编码比今天和爬山的独热编码更接近吗?);第二个缺点就是稀疏性的问题,简单来说7个词语光表示出来就需要7*7的空间,那么...8个词?1000个词?目前比较全面的词典库是10的五次方级的,那么...一个词语就要占用10的五次方级的向量...可想而知...空间耗费有多么大。
说完了词的独热编码后,说一下如果表示句子!
S1:我们今天去爬山
S2:昨天我们去爬山,你们去聚餐
以上面两句话为例,下面介绍两种表示方法
第一种方法:boolean(只考虑出现不出现)方法
以我们今天去爬山为例,出现的词语有我们|今天|去|爬山根据独热编码,我们占据第一位,今天占据第六位,去占据第二位,爬山占据第三位,所以 我们今天去爬山->(1,1,1,0,0,1,0);再看第二句,除了第六位其他的都占据的,甚至有两个去占据了两次第二位,但是结果是这样滴:昨天我们去爬山,你们去聚餐->(1,1,1,1,1,0,1),这就是(只考虑出现不出现)不考虑出现了几次,只要出现了就是1没出现就是0,该方法中仅有0\1,没有其他数字出现的可能
第二种方法:count(考虑词频)
还是上面两个例子,我直接给出答案了我们今天去爬山->(1,1,1,0,0,1,0)和昨天我们去爬山,你们去聚餐->(1,2,1,1,1,0,1),观察区别就知道了,向量中的数字代表该状态位代表词语的词频,因为去出现两次,所以第二位上为2
说完了如何表示句子,那么最后补充两个计算相似度的方法
1.欧式距离:不考虑方向 d=|s1-s2|
2.余弦相似度:考虑方向 d=(s1.s2)/(|s1|*|s2|) (其中s1.s2为内积)
令刚刚两句话为s1,s2(已标注,且采用boolean方法),则欧式距离=根号下(1方+1方+1方+1方)=2;余弦相似度=(1+1+1)/(根号下(4)*根号下(6))=3/(2*根号6)
(不太会打符号...献丑了...多担待)
用上述两种相似度计算方法计算词的相似度,会发现...欧式距离都是根号2,余弦都是0,这两种方法是不可行的,但是实际生活中我们还是需要,为什么哪?因为我们和你们,肯定比我们和游戏更接近,这个地方出现这两个问题的原因是:词的表示上面,而不是相似度的计算上。这个地方又让大家了解了下,one-hot编码不能表示语义的相似度这一缺点。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。(百度百科内容)
以下我主要说明一下tf-idf在nlp的相关知识,先说一下它是为了解决什么?其实它在nlp中解决的并不是出现的越多就越重要,出现的越少就越不重要是这个问题。
举个例子大家就明白了:他|喜欢|去|游泳,但是|他|也|喜欢|去|滑雪,他|还|喜欢|玩|游戏,例如我们要做的事是去找他做了什么的话,可以看出来他出现三次,去也出现两次,但是重点应该是游泳、滑雪、游戏,而tf-idf方法就是解决这一问题的一个方法。
官方公式:
(w为词汇,d为某文档,tf(d,w)表示文档d中的w的词频,idf(w)=log(N/N(w)),N是语料库中的文档总数,N(W)是含W的文档数量)
tf(d,w)代表词语的词频,idf(w)代表词语的重要性
以上就是TF-IDF相关知识。是不是听了也一脸懵逼?那么带你弄例子说明一下,你就明白该怎么样去实现了~
词典:[今天,学习,NLP,知识,的,有,意思,大数据,也]
词典含有9个单词->向量是9位的;总共出现了三句话(蓝色内容)N=3
1.今天|学习|NLP|知识
综上所属,该句的词向量为:今天|学习|NLP|知识 ->(1*log(3/2),1*log(3/1),1*log(3/1),1*log(3/3),0,0,0,0,0)
2.今天|的|知识|有|意思
综上所属,该句的词向量为:今天|的|知识|有|意思 ->(1*log(3/2),0,0,1*log(3/3),1*log(3/1),1*log(3/2),1*log(3/2),0,0)
3.大数据|知识|也|有|意思
综上所属,该句的词向量为:大数据|知识|也|有|意思 ->(0,0,0,1*log(3/3),0,1*log(3/2),1*log(3/2),1*log(3/1),1*log(3/1))
这样是不是就学会了?
Word2vec文本向量化后续更新,可能额外本文挂链接,可能直接写本文里,看情况吧~
暂时学习了部分(以后还会更新完善的),Word2vec浅显的理解:https://blog.csdn.net/RHJlife/article/details/104943389