第3章:中文文本向量化——思想详解

文本向量化

文本向量化表示就是用数值向量来表示文本的语义。我们人类在读一段文本后立刻就能明白它要表达的内容,如何让机器也能拥有这样的能力呢?文本分类领域使用了信息检索领域的词袋模型,词袋模型在部分保留文本语义的前提下对文本进行向量化表示。

One-Hot表示法
TF表示法
TF-IDF表示法
Word2vec
BERT
第3章:中文文本向量化——思想详解_第1张图片

下面根据一个案例分别讲解各向量化方法的思想:
第3章:中文文本向量化——思想详解_第2张图片说明:id:表示文章的数量;假设文档已经分词

1.1 One-Hot表示法

思想:

  • One-Hot表示法:词语序列中出现的词语其数值为1,词语序列中未出现的词语其数值为0。用数学式子表达为:
  • 第3章:中文文本向量化——思想详解_第3张图片
    第3章:中文文本向量化——思想详解_第4张图片

1.2 TF表示法

思想:

  • TF表示法:词语序列中出现的词语其数值为词语在所在文本中的频次,词语序列中未出现的词语其数值为0。用数学式子表达为:
  • 在这里插入图片描述

第3章:中文文本向量化——思想详解_第5张图片

1.3 TF-IDF表示法

思想:

  • TF-IDF表示法:词语序列中出现的词语其数值为词语在所在文本中的频次乘以词语的逆文档频率,词语序列中未出现的词语其数值为0。用数学式子表达为:
    第3章:中文文本向量化——思想详解_第6张图片
    第3章:中文文本向量化——思想详解_第7张图片
    第3章:中文文本向量化——思想详解_第8张图片

1.4 Word2vec表示法

思想:

  • 2013年,Mikolov等人提出了Word2vec(word to vector)模型用于词向量的生成,单词越相似,它们在向量空间中的相似度就越高。这种方法已被证明是可行和有效的,与独热编码相比,维度更低,计算更容易,但词和向量是一一对应的,在实践中,词在不同的文本语境中有不同的含义,向量不能被转换区别以适应语境。
  • word2vec是一种将word转为向量的方法,其包含两种算法,分别是skip-gram和CBOW,它们的最大区别是skip-gram是通过中心词去预测中心词周围的词,而CBOW是通过周围的词去预测中心词。
    第3章:中文文本向量化——思想详解_第9张图片
    第3章:中文文本向量化——思想详解_第10张图片

你可能感兴趣的:(自然语言处理,自然语言处理,word2vec,人工智能)