什么是条件概率
概率指的是某一事件A
发生的可能性,表示为P(A)
。而条件概率指的是某一事件A
已经发生了条件下,另一事件B
发生的可能性,表示为P(B|A)
,举个例子:
今天有25%
的可能性下雨,即P(下雨)=0.25
; 今天75%
的可能性是晴天,即P(晴天)=0.75
; 如果下雨,我有75%
的可能性穿外套,即P(穿外套|下雨)=0.75
; 如果下雨,我有25%
的可能性穿T恤,即P(穿T恤|下雨)=0.25
;
从上述例子可以看出,条件概率描述的是|
右边的事件已经发生之后,左边的事件发生的可能性,而不是两个事件同时发生的可能性!
1、P(AB)
表示的是事件A
与事件B
同时发生的概率,P(A|B)
表示的是事件B
已经发生的条件下,事件A
发生的概率。
2、从1,2,...,15
中小明和小红两人各任取一个数字,现已知小明取到的数字是5
的倍数,请问小明取到的数大于小红取到的数的概率是多少?
答案:1、A 2、C
全概率公式:
当为了达到某种目的,但是达到目的有很多种方式,如果想知道通过所有方式能够达到目的的概率是多少的话,就需要用到全概率公式(上面的例子就是这种情况!)。全概率公式的定义如下:
若事件B1,B2,...,Bn两两互不相容,并且其概率和为1
。那么对于任意一个事件C
都满足:
P(C)=P(B1)P(C∣B1)+...+P(Bn)P(C∣Bn)=i=1∑nP(Bi)P(C∣Bi)
贝叶斯公式:
当已知引发事件发生的各种原因的概率,想要算该事件发生的概率时,我们可以用全概率公式。但如果现在反过来,已知事件已经发生了,但想要计算引发该事件的各种原因的概率时,我们就需要用到贝叶斯公式了。
贝叶斯公式定义如下,其中A
表示已经发生的事件,Bi
为导致事件A
发生的第i
个原因:
P(Bi∣A)=∑i=1nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
贝叶斯公式看起来比较复杂,其实非常简单,分子部分是乘法定理,分母部分是全概率公式(分母等于P(A)
)。
如果我们对贝叶斯公式进行一个简单的数学变换(两边同时乘以分母,再两边同时除以P(Bi)
)。就能够得到如下公式:
P(A∣Bi)=P(Bi)P(Bi∣A)P(A)
这个公式是朴素贝叶斯分类算法的核心数学公式。
1、对以往数据分析结果表明,当机器调整得良好时,产品的合格率为98%
,而当机器发生某种故障时,产品的合格率为55%
。每天早上机器开动时,机器调整得良好的概率为95%
。计算已知某日早上第一件产品是合格时,机器调整得良好的概率是多少?
2、一批产品共8
件,其中正品6
件,次品2
件。现不放回地从中取产品两次,每次一件,求第二次取得正品的概率。
答案:1、D 2、C
第3关:朴素贝叶斯分类算法流程
import numpy as np
class NaiveBayesClassifier(object):
def __init__(self):
'''
self.label_prob表示每种类别在数据中出现的概率
例如,{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333,类别1的概率为0.667
'''
self.label_prob = {}
'''
self.condition_prob表示每种类别确定的条件下各个特征出现的概率
例如训练数据集中的特征为 [[2, 1, 1],
[1, 2, 2],
[2, 2, 2],
[2, 1, 2],
[1, 2, 3]]
标签为[1, 0, 1, 0, 1]
那么当标签为0时第0列的值为1的概率为0.5,值为2的概率为0.5;
当标签为0时第1列的值为1的概率为0.5,值为2的概率为0.5;
当标签为0时第2列的值为1的概率为0,值为2的概率为1,值为3的概率为0;
当标签为1时第0列的值为1的概率为0.333,值为2的概率为0.666;
当标签为1时第1列的值为1的概率为0.333,值为2的概率为0.666;
当标签为1时第2列的值为1的概率为0.333,值为2的概率为0.333,值为3的概率为0.333;
因此self.label_prob的值如下:
{
0:{
0:{
1:0.5
2:0.5
}
1:{
1:0.5
2:0.5
}
2:{
1:0
2:1
3:0
}
}
1:
{
0:{
1:0.333
2:0.666
}
1:{
1:0.333
2:0.666
}
2:{
1:0.333
2:0.333
3:0.333
}
}
}
'''
self.condition_prob = {}
def fit(self, feature, label):
'''
对模型进行训练,需要将各种概率分别保存在self.label_prob和self.condition_prob中
:param feature: 训练数据集所有特征组成的ndarray
:param label:训练数据集中所有标签组成的ndarray
:return: 无返回
'''
#********* Begin *********#
row_num=len(feature)
col_num=len(feature[0])
for c in label:
if c in self.label_prob:
self.label_prob[c]+=1
else:
self.label_prob[c]=1;
for key in self.label_prob.keys():
self.label_prob[key]/=row_num
self.condition_prob[key]={}
for i in range(col_num):
self.condition_prob[key][i]={}
for k in np.unique(feature[:,i],axis=0):
self.condition_prob[key][i][k]=0
for i in range(len(feature)):
for j in range(len(feature[i])):
if feature[i][j] in self.condition_prob[label[i]]:
self.condition_prob[label[i]][j][feature[i][j]]+=1
else:
self.condition_prob[label[i]][j][feature[i][j]]=1
for label_key in self.condition_prob.keys():
for k in self.condition_prob[label_key].keys():
total=0
for v in self.condition_prob[label_key][k].values():
total +=v
for kk in self.condition_prob[label_key][k].keys():
self.condition_prob[label_key][k][kk] /=total
#********* End *********#
def predict(self, feature):
'''
对数据进行预测,返回预测结果
:param feature:测试数据集所有特征组成的ndarray
:return:
'''
# ********* Begin *********#
result =[]
for i,f in enumerate(feature):
prob=np.zeros(len(self.label_prob.keys()))
ii=0
for label,label_prob in self.label_prob.items():
prob[ii]=label_prob
for j in range(len(feature[0])):
prob[ii] *= self.condition_prob[label][j][f[j]]
ii+=1
result.append(list(self.label_prob.keys())[np.argmax(prob)])
return np.array(result)
#********* End *********#
第4关:拉普拉斯平滑
import numpy as np
class NaiveBayesClassifier(object):
def __init__(self):
'''
self.label_prob表示每种类别在数据中出现的概率
例如,{0:0.333, 1:0.667}表示数据中类别0出现的概率为0.333,类别1的概率为0.667
'''
self.label_prob = {}
'''
self.condition_prob表示每种类别确定的条件下各个特征出现的概率
例如训练数据集中的特征为 [[2, 1, 1],
[1, 2, 2],
[2, 2, 2],
[2, 1, 2],
[1, 2, 3]]
标签为[1, 0, 1, 0, 1]
那么当标签为0时第0列的值为1的概率为0.5,值为2的概率为0.5;
当标签为0时第1列的值为1的概率为0.5,值为2的概率为0.5;
当标签为0时第2列的值为1的概率为0,值为2的概率为1,值为3的概率为0;
当标签为1时第0列的值为1的概率为0.333,值为2的概率为0.666;
当标签为1时第1列的值为1的概率为0.333,值为2的概率为0.666;
当标签为1时第2列的值为1的概率为0.333,值为2的概率为0.333,值为3的概率为0.333;
因此self.label_prob的值如下:
{
0:{
0:{
1:0.5
2:0.5
}
1:{
1:0.5
2:0.5
}
2:{
1:0
2:1
3:0
}
}
1:
{
0:{
1:0.333
2:0.666
}
1:{
1:0.333
2:0.666
}
2:{
1:0.333
2:0.333
3:0.333
}
}
}
'''
self.condition_prob = {}
def fit(self, feature, label):
'''
对模型进行训练,需要将各种概率分别保存在self.label_prob和self.condition_prob中
:param feature: 训练数据集所有特征组成的ndarray
:param label:训练数据集中所有标签组成的ndarray
:return: 无返回
'''
#********* Begin *********#
row_num=len(feature)
col_num=len(feature[0])
unique_label_count=len(set(label))
for c in label:
if c in self.label_prob:
self.label_prob[c]+=1
else:
self.label_prob[c]=1
for key in self.label_prob.keys():
self.label_prob[key]+=1
self.label_prob[key]/=(unique_label_count+row_num)
self.condition_prob[key]={}
for i in range(col_num):
self.condition_prob[key][i]={}
for k in np.unique(feature[:,i],axis=0):
self.condition_prob[key][i][k]=1
for i in range(len(feature)):
for j in range(len(feature[i])):
if feature[i][j] in self.condition_prob[label[i]]:
self.condition_prob[label[i]][j][feature[i][j]]+=1
for label_key in self.condition_prob.keys():
for k in self.condition_prob[label_key].keys():
total =len(self.condition_prob[label_key].keys())
for v in self.condition_prob[label_key][k].values():
total+=v
for kk in self.condition_prob[label_key][k].keys():
self.condition_prob[label_key][k][kk]/=total
#********* End *********#
def predict(self, feature):
'''
对数据进行预测,返回预测结果
:param feature:测试数据集所有特征组成的ndarray
:return:
'''
result = []
# 对每条测试数据都进行预测
for i, f in enumerate(feature):
# 可能的类别的概率
prob = np.zeros(len(self.label_prob.keys()))
ii = 0
for label, label_prob in self.label_prob.items():
# 计算概率
prob[ii] = label_prob
for j in range(len(feature[0])):
prob[ii] *= self.condition_prob[label][j][f[j]]
ii += 1
# 取概率最大的类别作为结果
result.append(list(self.label_prob.keys())[np.argmax(prob)])
return np.array(result)
第5关:sklearn中的朴素贝叶斯分类器
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
def news_predict(train_sample, train_label, test_sample):
'''
训练模型并进行预测,返回预测结果
:param train_sample:原始训练集中的新闻文本,类型为ndarray
:param train_label:训练集中新闻文本对应的主题标签,类型为ndarray
:param test_sample:原始测试集中的新闻文本,类型为ndarray
:return 预测结果,类型为ndarray
'''
#********* Begin *********#
vec=CountVectorizer()
train_sample=vec.fit_transform(train_sample)
test_sample=vec.transform(test_sample)
tfidf=TfidfTransformer()
train_sample =tfidf.fit_transform(train_sample)
test_sample=tfidf.transform(test_sample)
mnb=MultinomialNB(alpha=0.01)
mnb.fit(train_sample,train_label)
predict=mnb.predict(test_sample)
return predict
#********* End *********#