贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)

贝叶斯公式

已知:P(X|H),求P(H|X)

贝叶斯例子:

贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)_第1张图片

以上是只有一种特征的情况,如果有多个特征的情况下会使得统计量巨大,n个特征,需要计算2n-1次

朴素贝叶斯(假设:特征X1,X2,X3……之间都是相互独立的)

贝叶斯模型

       <1>多项式模型

       <2>伯努利模型

       <3>混合模型

       <4>高斯模型

词袋模型(Bag of Words)

BoW忽略文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词来表达一段文字或文档。

贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)_第2张图片

例子:

贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)_第3张图片

应用领域:自然语言处理(Natural Language Processing)和信息检索(Infomation Retrieval)

TF-IDF算法

某个词TF-IDF值就越大,说明该词对文章的重要性越高,越有可能成为关键词。

TF(Term Frequency)词频

贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)_第4张图片

贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)_第5张图片

IDF(Inverse Document Frequency)逆文档频率

IDF大小与一个词的常见程度成反比

一个例子理解TF-IDF是如何计算的?

贝叶斯算法(贝叶斯公式、词袋模型、TF-IDF算法)_第6张图片

你可能感兴趣的:(机器学习)