文本向量化浅析

       在解释文本向量如何向量化之前,先要明白文本为什么要向量化?如果你向计算机中输入“明天我要出去玩”,计算机不知道你要做什么,因为他识别不了这样的语言,但是你和计算机说0101,他就能明白你的意思。所以,非结构化数据,像语音、视频、文字等等,在输入到人工智能算法之前,都要先转化为能代表他们的特征或矩阵。

       就像26个英文字母是没有意义的,但是每个中文词汇都有一个对应的、由他们组成的英文单词,如苹果和“apple”。“我有一个苹果”这句话能根据中英转换的规则变成“I have a apple”,就可以根据另一种规则转化成既能代表这句话又能被计算机识别的语句(向量/矩阵)。

        由于输入到算法中训练的是转化后的矩阵/向量,所以文本向量化后所带的特征信息是区别其他文本的重要依据。一个文本语句在进行向量化之前,就已经经过了文本预处理和分词,去掉各种语气词并变成了一个个词语。如:明天你回家不回家啊。会去掉“啊”这种语气词,同时,根据词库,“明”和“天”会被当成一个词处理,最后分词结果会是“明天/你/回家/不/回家”,而不是“明/天/你/回/家/不/回/家”。

        如果简单的按照词语出现的频率来向量化,“明天/你/回家/不/回家”,就会对应成(1,1,2,1),其中“回家”的频率是两次。而实际上,文本向量化的规则有很多种,词频(词语的频率)是其中最简单的一种。实际运用中,输入的文本一般是多个,成为一个文本集,在分词之后,所有的词都是特征词。如文本集:“明天回家不回家啊”、“明天回家”、“明天是几号”,分词后的特征词就有:“明天”、“回家”、“不”、“是”、“几号”,5个特征词,向量维度就是5,第一个文本的特征向量就是(1,2,1,0,0)。

        其他的文本向量化规则,如one-hot是根据特征词在文本中是否出现,根据这个规则,“明天回家不回家啊”就会转化成(1,1,1,0,0,)。

       最常用的规则是TF-IDF,TF-IDF算法包含词频算法TF和逆文档频率算法IDF。

文本向量化浅析_第1张图片

        TF算法的思想是当特征项在一类文档出现较多,在其他类中出现较少时,这个特征项就对这一类文档相对重要。同时,某特征词的IDF值越小,说明含该特征词的文档数越少,该词区分文本类别的能力就越强。TF-IDF算法将二者结合,得到的文本特征向量更具有代表性。

你可能感兴趣的:(人工智能,机器学习,自然语言处理)