机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。即:通过根据已有的数据使用算法获取这些数据的特性(模型),然后预测未知数据的走向。
如今因为数据量的增加,硬件条件越来越好,给机器学习提供了非常多的发展空间。目前在很多领域都用到了机器学习,比如:计算机识别、抖音推荐算法、360异常流量监控、信用卡欺诈检测、AI游戏玩家、医学诊断等都有很多非常成功的案例。
机器学习最核心的东西,还是大量的数据作为基本基础。数据可以通过多个渠道获取,比如通过网络爬虫抓取,通过公司自有产品收集,通过与第三方公司合作等。
获取到数据后,可能存在很多问题,比如字段缺失,比如数据格式不一致,异常数据等,这时候需要将数据进行清洗,然后再送到机器学习程序进行训练。
在这一步通过一定的算法,对数据进行建模,然后不断的调整各个参数的值已达到最优的训练模型。
使用其他的数据对这个模型进行测试,看下这个模型的准确率,如果准确率偏低,则重复第3步,直至最优的模型。
将做好的机器学习模型和算法转化为可以在生产环境中使用的产品。比如提供一个网站,或者一个app,通过接口的方式访问机器学习程序。在这个过程中也要不断的循环3、4来测试和优化模型。
Anaconda3(python3.7+jupyter notebook5.7)
其中用到的包:numpy 1.15.4
、pandas 0.24.1
、scikit-learn 0.20.2
。
scikit-learn
是基于Python
语言的机器学习工具,具有以下特点:
NumPy
,SciPy
和matplotlib
上。对Python
语言有所了解的科研人员可能都知道SciPy
——一个开源的基于Python
的科学计算工具包。基于SciPy
,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits
,即SciPy
工具包的意思。而在这些分支版本中,最有名,也是专门面向机器学习的一个就是Scikit-learn
。
Scikit-learn
项目最早由数据科学家David Cournapeau
在2007 年发起,需要NumPy
和SciPy
等其他包的支持,是Python
语言中专门针对机器学习应用而发展起来的一款开源框架。
它的维护也主要依靠开源社区。
作为专门面向机器学习的Python
开源框架,Scikit-learn
可以在一定范围内为开发者提供非常好的帮助。它内部实现了各种各样成熟的算法,容易安装和使用,样例丰富,而且教程和文档也非常详细。
另一方面,Scikit-learn
也有缺点。例如它不支持深度学习和强化学习,这在今天已经是应用非常广泛的技术。此外,它也不支持图模型和序列预测,不支持Python
之外的语言,不支持PyPy
,也不支持GPU
加速。
看到这里可能会有人担心Scikit-learn
的性能表现,这里需要指出的是:如果不考虑多层神经网络的相关应用,Scikit-learn
的性能表现是非常不错的。究其原因,一方面是因为其内部算法的实现十分高效,另一方面或许可以归功于Cython
编译器;通过Cython
在Scikit-learn
框架内部生成C
语言代码的运行方式,Scikit-learn
消除了大部分的性能瓶颈。
Scikit-learn
的基本功能主要被分为六大部分:分类
,回归
,聚类
,数据降维
,模型选择
和数据预处理(特征工程)
等。
https://scikit-learn.org/stable/
不同类型的数据集采用的算法是不一样的。总体来说,生活场景中只有两种类型的数据,一种是离散型,一种是连续型:
Kaggle
:一个大数据竞赛平台,上面的数据都是真实的,并且有很多数据集。网址是https://www.kaggle.com/datasetsUCI
:收录了360个数据集,覆盖了科学、生活、经济等领域。网址是http://archive.ics.uci.edu/ml/scikit-learn
数据集:用于学习的数据集,数据量比较小,但是方便获取和学习。网址http://scikit-learn.org/stable/datasets/index.html#datasets。k-means
。scikit-learn
数据集:from sklearn import datasets
import sklearn
boston=datasets.load_boston()
type(boston)
dir(boston) # ['DESCR', 'data', 'feature_names', 'filename', 'target']
# print(boston.DESCR)
# print(boston.data)
# print(boston.target)
# print(boston.filename)
print(boston.feature_names)
# 下载在哪里
datasets.fetch_20newsgroups(data_home="./newsgroups.csv")
xxx.fit() 训练
xxx.score() 验证
xxx.predict() 预测
sklearn
内部提供了一些数据集,用于学习使用。在使用他之前,首先对他进行一些了解。
获取数据集的方式有两种,有load_*
和fetch_*
。以下:
sklearn.datasets.load_*()
:获取小规模的数据集,数据集已经随着scikit-learn
安装而下载了。sklearn.datasets.fetch_*(data_home=None)
:用于从远程获取大规模的数据集,函数的第一个参数是data_home
,表示数据集下载的目录,默认是~/scikit_learn_data/
。两种方式返回的结果都是sklearn.utils.Bunch
类型,这种数据类型有以下方法和属性:
data
:特征数据数组,是[n_samples * n_features]
的二维numpy.ndarray
数组。target
:标签数组,是n_samples
的一维numpy.ndarray
数组。DESCR
:数据描述。feature_names
:特征名,新闻数据、手写数字、回归数据集没有。target_names
:标签名,回归数据集没有。我们拿到数据集后,一般会采用75%
的用于训练,25%
的用来测试。因此在把数据进行训练之前,先要对数据进行划分。我们可以使用sklearn.model_selection.train_test_split
进行分割,train_test_split
中的常用参数如下:
# 永远都是x先写完,先训练再测试
x_train,x_test,y_train,y_test = train_test_split(boston.data,boston.target,test_size=0.25)
print("测试集:",x_train,y_train)
x
:数据集的特征值。y
:数据集的目标值。test_size
:测试的数据的占比,用小数表示。返回值如下:
x_train
:训练部分的特征值。x_test
:测试部分的特征值。y_train
:训练部分的特征值。y_test
:测试部分的目标值。示例代码如下:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def dataset_split():
li = load_iris()
x_train,x_test,y_train,y_test = train_test_split(li.data,li.target,test_size=0.25)
print("训练集的数据:",x_train,y_train)
print("测试集的数据:",x_train,x_test)
load_iris
:鸢尾花花瓣数据集。load_digits
:手写数字数据集。load_wine
:红酒数据集。load_breast_cancer
:乳腺癌数据集。load_boston
:波士顿房价数据集。load_diabetes
:糖尿病数据集。load_linnerud
:体能训练数据集。以上所有的数据集的网址为:https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html#sklearn.datasets.数据集函数名
。
远程数据集是一些真实的数据,一般都比较大,因此在需要的时候进行加载即可。
fetch_olivetti_faces
:面孔数据集。fetch_20newsgroups
:20个新闻组数据集。fetch_lfw_people
:户外人脸识别数据集。fetch_lfw_pairs
:户外人脸对(同一个人两个图片)数据集。fetch_covtype
:美国一块30*30m的森林斑块土地,上面覆盖了不同类型的树木。fetch_rcv1
:路透社文集I (RCV1)。由路透社有限公司为研究目的提供的80多万篇手动分类的新闻专线报道的存档。fetch_california_housing
:加利福尼亚房子数据集。计算预判点与所有点之间的距离,将距离排序,前k个点中,那种类别的点多就属于哪一种
K
近邻算法是如果一个样本在特征空间中的K
个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
他的原理就是求两点之间的距离,看距离谁是最近的,以此来区分我们要预测的这个数据是属于哪个分类:
比如有两点,要求他们的距离,a(a1,a2,a3)
,b(b1,b2,b3)
,则计算公式为:
√((1−1)^2+(2−2)^2+(3−3)^2)
这个公式叫做欧式距离公式。
sklearn
实现K
近邻算法:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
:
n_neighbors
:int
,可选(默认= 5),k_neighbors
查询默认使用的邻居数。
algorithm
:可选用于计算最近邻居的算法。
ball_tree
:将会使用BallTree
。kd_tree
:将使用KDTree
。auto
:将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)使用FaceBook
生成的一个选址的数据集为例。
网站为:https://www.kaggle.com/c/facebook-v-predicting-check-ins/data
。
代码如下:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
train_data = pd.read_csv("data/FBlocation/train.csv")
time_value = pd.to_datetime(train_data['time'],unit='s')
time_value = pd.DatetimeIndex(time_value)
# 将时间戳变成周几,几点。因为不同的时间可能会影响选址
train_data['week'] = time_value.week
train_data['hour'] = time_value.hour
place_count = train_data.groupby("place_id").count()
temp_data = place_count[place_count['row_id'] > 10].reset_index().head()
train_data = train_data[train_data['place_id'].isin(temp_data['place_id'])]
train_data = train_data.reset_index().drop(['index','row_id'],axis=1)
y = train_data['place_id']
x = train_data.drop(['place_id'],axis=1)
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)
# 因为不同的数据大小单位不一样,为了避免造成太大的影响,都做一个标准化。
scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.fit_transform(x_test)
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(x_train,y_train)
y_predict = knn.predict(x_test)
# print("预测的位置:",y_predict)
print("预测的准确率:",knn.score(x_test,y_test))
其中正确率达到98%
。
K
(也就是n_neighbors
)值该去多大?K
值不能取太少,也不能取太多。如果取太少,则容易受异常点的影响,如果取太多,则容易产生过拟合的现象,也会影响分类的准确性。因此要不断的调参数,来看下参数对最终结果的影响。
K
值要不断的调整来达到最优的效果。基于以上优缺点,在小数据场景,几千~几万的数据量的时候,可以使用K
近邻算法。
使用sklearn
自带的数据集load_wine
,来预测酒的分类。
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_wine
# 加载数据
wine = load_wine()
# 标准化
scaler = StandardScaler()
features = scaler.fit_transform(wine.data)
targets = wine.target
# 训练数据求得分
X_train,X_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
knn.score(X_test,y_test)
```python
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
values = np.array([
[0,0],
[0.1,0.2],
[1,1],
[1.1,0.9]
])
lables = ['A','A','B','B']
df = pd.DataFrame(values,lables)
axis = sns.scatterplot(values[:,0],values[:,1])
for value,label in zip(values,lables):
axis.text(value[0],value[1],label)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(values,lables)
knn.predict([[0.85,0.9]])
K近邻预测约会是否受欢迎
```python
df = pd.read_csv("data/datingTestSet.txt",sep="\t",names=['flight','icecream','game','type'])
df.head()
features = df.drop(columns=['type'],axis=0)
targets = df['type']
X_train,X_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
# knn.predict(X_test)
knn.score(X_test,y_test)
# knn.predict([[40000,10,0.5]])
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)
knn.fit(X_train,y_train)
knn.score(X_test,y_test)
特征预处理是采用特定的统计方法(数学方法)将数据转化成算法要求的数字。
归一化首先在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义,其次可以程序可以运行更快。 例如:一个人的身高和体重两个特征,假如体重50kg,身高175cm,由于两个单位不一样,数值大小不一样。如果比较两个人的体型差距时,那么身高的影响结果会比较大,因此在做计算之前需要先进行归一化操作。归一化的公式为:
X'=(x−min)/(max−min)
X" = X'*(mx-mi)+mi
其中max和min
分别代表的是某列中的最大值和最小值,x
为归一化之前的值。mx和mi
为要归一化的区间,默认为[0,1]
。
示例代码如下:
from sklearn.preprocessing import MinMaxScaler
def normalize():
data = [
[180,75,25],
[175,80,19],
[159,50,40],
[160, 60, 32]
]
scaler = MinMaxScaler(feature_range=(0,2))
result = scaler.fit_transform(data)
print(result)
归一化因为非常容易受到最大值和最小值的影响,因此如果数据集中存在一些异常点,结果将发生很大的改变,因此这种方法鲁棒性(稳定性)比较差,只适合数据量比较精确,比较小的情况。
常用的方法是z-score
标准化,经过处理后的数据均值为0,标准差为1,满足标准正太分布,标准正太分布如下:
处理公式为:
X' = (x-μ)/σ
其中μ
是样本的均值,σ
是样本的标准差,它们可以通过现有的样本进行估计,在已有的样本足够多的情况下比较稳定,适合嘈杂的数据场景。
标准差的求法是先求方差,方差std的求法如下:
=((1−)^2+(2−)^2+…)/((每个特征的样本数))
然后标准差则开根号:
=√std
方差和标准差越趋近于0,则表示数据越集中,如果越大,则表示数据越离散。
def standard():
data = [
[180, 75, 25],
[175, 80, 19],
[159, 50, 40],
[160, 60, 32]
]
scaler = StandardScaler()
result = scaler.fit_transform(data)
print(result)
print("="*10)
print("="*10)
print(scaler.var_)
缺失值一般有两种处理方式。第一种是直接进行删除,第二种是进行替换。除非缺失值占总数据集的比例非常少,才推荐使用删除的方式,否则建议使用“平均值”、“中位数”的方式进行替换。在scikit-learn
中,有专门的缺失值处理方式,叫做sklearn.preprocessing.Imputer
。示例代码如下:
from sklearn.impute import SimpleImputer
def missing():
im = SimpleImputer()
data = im.fit_transform([
[1,2],
[np.NAN,4],
[9,1]
])
print(data)
K
(也就是n_neighbors
)值该去多大?K
值不能取太少,也不能取太多。如果取太少,则容易受异常点的影响,如果取太多,则容易产生过拟合的现象,也会影响分类的准确性。因此要不断的调参数,来看下参数对最终结果的影响。
K
值要不断的调整来达到最优的效果。基于以上优缺点,在小数据场景,几千~几万(20万以内)的数据量的时候,可以使用K
近邻算法。
使用sklearn
自带的数据集load_wine
,来预测酒的分类。
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_wine
# 加载数据
wine = load_wine()
# 标准化
scaler = StandardScaler()
features = scaler.fit_transform(wine.data)
targets = wine.target
# 训练数据求得分
X_train,X_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
knn.score(X_test,y_test)
贝叶斯全名托马斯·贝叶斯(Thomas Bayes,1702-1761),是一名英国数学家,贝叶斯公式是源于他生前写的一篇“逆概率”问题的文章。贝叶斯公式在生前并不被认可,在去世后被他的朋友整理才公诸于世被世人所认可。
在学习朴素贝叶斯基础之前,先要学习一下数学中关于概率的计算。比如有以下表:
症状 | 职业 | 疾病 |
---|---|---|
打喷嚏 | 护士 | 感冒 |
打喷嚏 | 农夫 | 过敏 |
头痛 | 建筑工人 | 脑震荡 |
头痛 | 建筑工人 | 感冒 |
打喷嚏 | 教师 | 感冒 |
头痛 | 教师 | 脑震荡 |
根据以上数据,回答以下问题:
联合概率是包含多个条件,且所有的条件同时成立的概率,以上第二点就是联合概率。这种概率计算的方式有专门的公式,记作P(AB)
,其中P(A)
表示A
这个特征出现的概率,同理P(B)
也是,在特征条件独立的情况下存在公式P(AB)=P(A)*P(B)
。所以以上第二题的答案是:P(头痛)*P(教师)=(3/6)*(2/6)=1/6
。
条件概率就是事件A
在另外一个事件B
已经发生的前提下发生的概率。计算的公式为:P(A|B)
,如果有多个条件,那记作P(A1,A2|B)=P(A1|B)*P(A2|B)
。所以以上第四题的答案是:P(打喷嚏|感冒)*P(护士|感冒)=(2/3)*(1/3)=2/9
。
注意:以上的计算公式,是在以各个特征是条件独立的基础之上才成立的!
# 因为在概率论中有一个乘法定理
P(AB) = P(A|B)*P(B)
# 这个公式同样适合B在A条件下发生的概率,因此:
P(AB) = P(B|A)*P(A)
# 以上两个等式相等,所以
P(A|B) = P(B|A)*P(A)/P(B)
假如现在学校有N
个学生,男生占60%,女生占40%,其中男生都穿长裤,女生有一半是穿长裤,一半是穿裙子,那么以下两个问题:
以上便是朴素贝叶斯的公式。一般朴素贝叶斯经常用到文档分类上,文档分类是根据已经分类的文档中提取关键词,在以后遇到新的文档分类的时候,就从这些关键词中预测是属于哪个类别。在文档分类中可以把贝叶斯公式改成以下:
针对每个进行一个讲解:
P(C|W)
:某个关键词属于某个分类的概率。P(W|C)
:某个分类下,某个关键词出现的概率。P(C)
:某个类别的概率(某个类别的文档个数/总文档数)。P(W)
:这个关键词在需要预测的文档中出现的概率。朴素贝叶斯预测文档分类的原理是:根据以上公式,可以计算出某篇文档下出现得比较多的词,然后把这些词去每个分类下求下概率,在哪个分类下的概率高,那么就意味着这篇文章是属于哪个分类。
比如现在有以下表格:
数字代表的是出现的次数
特征 | 科技类 | 娱乐类 | 汇总 |
---|---|---|---|
明星 | 9 | 51 | 60 |
影院 | 8 | 56 | 64 |
云计算 | 63 | 0 | 63 |
支付宝 | 20 | 15 | 35 |
汇总 | 100 | 121 | 221 |
假如现在有一篇文章包含“影院”、“支付宝”、“云计算”,要计算属于科技类和娱乐类的概率。计算方式如下:
出现`影院,支付宝,云计算`三个关键词,文章属于科技类别的概率
P(科技|影院,支付宝,云计算)=P(影院,支付宝,云计算|科技)*P(科技) =
(8/100)*(20/100)*(63/100)*(100/221)
出现`影院,支付宝,云计算`三个关键词,文章属于娱乐类别的概率
P(娱乐|影院,支付宝,云计算)=P(影院,支付宝,云计算|娱乐)*P(娱乐) =
(8/121)*(15/121)*(0/121)*(121/221)
为了避免出现0的情况,可以使用拉普拉斯系数
可以看到上面的演示中,娱乐类在计算完成后,概率为0,这肯定是不对的,因为他只要里面包含了任何一个跟娱乐相关的词,都有可能是属于娱乐。因此为了避免出现0的情况,可以使用拉普拉斯系数,将P(W|C)
改为如下:
(W│)=(+)/(+)
其中
为该W
词在C
类别所有文档中出现的次数。N
为所属类别C
下的文档所有词出现的次数和。
就是为指定的系数,一般为1。m
为训练文档中统计出的特征词个数。这样计算出来虽然结果稍微有些不同,但是不会影响每个词对文档分类的概率大小,大小没改变,那么分类结果也不会被改变。
可以使用sklearn.navie_bayes.MultinomialNB(alpha=0.1)
来实现。
我们用sklearn
库中提供的fetch_20newsgroups
来做分类,这个数据总共有20个类别,总共有18000篇新闻。
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB,GaussianNB
import pandas as pd
word1 = "life is short,i need python"
word2 = "i love python,it makes me happy"
vect = CountVectorizer()
words = vect.fit_transform([word1,word2])
names = vect.get_feature_names()
print(names)
print(words.toarray()) # 每个单词出现的次数
print(type(words))
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB,GaussianNB
import pandas as pd
newsgroups = fetch_20newsgroups(data_home="./data")
X_train,X_test,y_train,y_test = train_test_split(newsgroups.data,newsgroups.target,test_size=0.25)
news_vect = CountVectorizer()
X_train = news_vect.fit_transform(X_train)
X_test = news_vect.transform(X_test)
nb = MultinomialNB()
nb.fit(X_train,y_train)
nb.score(X_test,y_test)
针对不同的数据,我们有不同的朴素贝叶斯模型来进行分类。如果特征是离散型数据,比如文本这些,那么推荐使用多项式模型来实现;如果特征是连续型数据,比如具体的数字,那么推荐使用高斯模型来实现;如果特征是连续型数据并且值只有0
和1
两种情况,那么推荐使用伯努利模型。虽然模型不同,但是原理都是朴素贝叶斯公式,只不过不同的模型,在计算概率的时候采用的方式不一样,比如高斯模型,那么是通过高斯分布函数来计算而已。
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB,GaussianNB
import pandas as pd
newsgroups = fetch_20newsgroups(data_home="./data")
X_train,X_test,y_train,y_test = train_test_split(newsgroups.data,newsgroups.target,test_size=0.25)
news_vect = CountVectorizer()
X_train = news_vect.fit_transform(X_train)
X_test = news_vect.transform(X_test)
nb = MultinomialNB()
nb.fit(X_train,y_train)
nb.score(X_test,y_test)
from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
newsgroups = fetch_20newsgroups(data_home="./data")
X_train,X_test,y_train,y_test = train_test_split(newsgroups.data,newsgroups.target,test_size=0.25)
tf = CountVectorizer()
X_train = tf.fit_transform(X_train)
X_test = tf.transform(X_test)
mnb = MultinomialNB()
mnb.fit(X_train,y_train)
mnb.score(X_test,y_test)
离散型数据应该使用多项式模型来实现。比如文档分类、垃圾邮件识别等。使用的类是sklearn.navie_bayes.MultinomialNB
。
连续型数据应该使用高斯模型来实现。公式依然是使用之前的朴素贝叶斯公式,但是在计算条件概率的时候用的是高斯分布函数:
在sklearn
中,使用的类是sklearn.navie_bayes.GaussianNB
来实现的。比如有一组心脏病患者的数据,心脏病患者的一些特性,都是具体的数值,也就是连续型数据,因此这种情况下应该使用高斯模型。示例代码如下:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB,GaussianNB
import pandas as pd
hearts = pd.read_csv("data/heart.csv")
features = hearts.drop(columns=['target'],axis=0)
targets = hearts['target']
X_train,X_test,y_train,y_test = train_test_split(features,targets,test_size=0.25)
gaus = GaussianNB()
gaus.fit(X_train,y_train)
gaus.score(X_test,y_test)
伯努利模型,一般在特征的值,都是0和1的情况下使用。在sklearn
中,使用的类是sklearn.navie_bayes.BernoulliNB
来实现。
由于使用了样本特性条件独立性,如果样本特性有关联的时候,会影响算法的效果。