朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
朴素贝叶斯法是一种用来进行分类的方法,它基于两个重要的假设:贝叶斯定理和特征条件独立假设。
- 贝叶斯定理:
- 贝叶斯定理是一种用来估计事件发生概率的数学原理。
- 它告诉我们如何根据已知的信息来计算未知事件的概率。
- 在分类问题中,我们希望找到最有可能的类别,贝叶斯定理帮助我们基于已知信息来估计这些概率。
- 特征条件独立假设:
- 这是朴素贝叶斯法的一个关键假设,它有点“朴素”,因为它通常不完全成立。
- 这个假设意味着在分类问题中,我们假设每个特征(或属性)都是独立的,也就是说,一个特征的出现不受其他特征的影响。
- 尽管这个假设在现实中并不总是成立,但它简化了数学计算,使得贝叶斯分类变得更加可行。
对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y
当我们使用朴素贝叶斯分类时,我们首先从训练数据中学习如何根据特征来预测输出。这是一个两步过程:
步骤 1:学习输入输出的联合概率分布
这个步骤的目标是理解在给定一组输入特征的情况下,对应的输出是什么的可能性有多大。这就好像我们要了解在不同天气条件下,是否会下雨的概率一样。
- 我们收集一堆包含输入和输出的数据,比如天气(晴天、多云、雨天)和是否下雨(是、否)。
- 基于这些数据,我们计算出每种天气情况下下雨的概率。例如,晴天时下雨的概率是多少,多云时下雨的概率是多少等等。
- 这就构建了一个模型,用来描述输入(天气)和输出(是否下雨)之间的关系,也就是输入输出的联合概率分布。
步骤 2:利用贝叶斯定理预测输出
一旦我们建立了这个模型,就可以用它来进行预测。假设我们想知道在某一天是晴天的情况下,是否会下雨。
- 我们有了输入x(晴天),现在我们要找出对应的输出y(是否下雨)的概率。
- 我们使用贝叶斯定理来计算这个后验概率,也就是在已知输入的情况下,输出的概率有多大。
- 贝叶斯定理告诉我们如何从已知的概率(在步骤1中计算的)中计算出后验概率。
- 我们计算每种可能的输出(下雨或不下雨)的后验概率,然后选择具有最高概率的那个作为最终的预测结果。
所以,总的来说,朴素贝叶斯分类就是在学习阶段通过分析训练数据来了解输入和输出之间的关系(联合概率分布),然后在预测阶段使用贝叶斯定理来计算在给定输入情况下的最可能输出。这使我们能够根据已知信息来进行分类或预测。
先验概率和后验概率是统计学和概率论中的两个重要概念,它们描述了事件或假设的概率在不同情境下的变化。
当我们谈论先验概率和后验概率时,可以使用以下类比来理解这两个概念:
- 先验概率就像我们对一个事情的“初始猜测”或“初始估计”。它是在我们了解任何新信息之前,对某个事件或情况的概率的估计。想象一下你要掷一枚骰子,但在掷之前,你猜测每个数字出现的概率是相等的,因为你认为这个骰子是公平的。这个猜测就是先验概率,因为它是在掷骰子之前的猜测。
- 后验概率是在考虑了新信息或证据之后,我们对事件或情况的概率的修正估计。继续上面的骰子的例子,假设你掷了骰子,并且观察到了数字6。现在,你可以更新你的估计,认为数字6出现的概率更高,因为你有了新的证据支持这个想法。这个更新后的概率就是后验概率,因为它是在考虑了新信息后的估计。
所以,先验概率是我们在了解任何新信息之前的初始猜测,而后验概率是在考虑了新信息之后的修正估计。贝叶斯定理是用来从先验概率和新信息中计算后验概率的数学工具,帮助我们更好地根据已知信息来做出估计和决策。
以下是先验概率、后验概率和贝叶斯定理的数学公式:
- **先验概率(Prior Probability)**通常表示为 P ( A ) P(A) P(A),其中 A A A 代表某个事件或假设,它是在考虑任何新信息之前的概率估计。
- **后验概率(Posterior Probability)**通常表示为 P ( A ∣ B ) P(A|B) P(A∣B),其中 A A A 代表某个事件或假设, B B B 代表新的证据或信息。后验概率是在考虑了新信息 B B B后,对事件或假设 A A A的概率的修正估计。
- 贝叶斯定理用于计算后验概率,其数学表达式如下:
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)
其中:
- P ( A ∣ B ) P(A|B) P(A∣B) 表示后验概率,即在给定 (B) 的情况下 (A) 的概率。
- P ( B ∣ A ) P(B|A) P(B∣A) 表示似然度,即在 (A) 的情况下 (B) 的概率。
- P ( A ) P(A) P(A) 表示先验概率,即在考虑任何新信息 (B) 之前 (A) 的概率。
- P ( B ) P(B) P(B) 表示边际似然度,也就是在所有可能的 (A) 情况下观察到 (B) 的概率。
设输入空间 χ ∈ R n \chi \in R^n χ∈Rn为n维向量的集合,输出空间为类标记集合 Y = c 1 , c 2 , . . . , c K Y ={c_1,c_2,...,c_K} Y=c1,c2,...,cK。输入为特征向量 x ∈ χ x \in \chi x∈χ,输出为类标记(class label) y ∈ Y y \in Y y∈Y。X是定义在输入空间 χ \chi χ上的随机变量,Y是定义在输出空间Y上的随机变量。P(X,Y)是X和Y的联合概率密度。训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}
由P(X,Y)独立同分布产生
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。
先验概率分布:
P ( Y = c k ) , k = 1 , 2 , . . . , K P(Y=c_k),k=1,2,...,K P(Y=ck),k=1,2,...,K
条件概率分布
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) , k = 1 , 2 , . . . , K P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k),k=1,2,...,K P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck),k=1,2,...,K
于是学习到联合概率密度P(X,Y)
朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设,朴素贝叶斯法也由此得名。具体地,条件独立性假设是
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) P(X=x∣Y=ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)