绝对是谨慎提交的昵称

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法（朴素贝叶斯法与贝叶斯估计是不同的概念）。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对个给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯方法实现简单，学习与预测的效率都很高，是一种常用的方法¹。

假如对于机器学习是用来干什么的也不是很清楚的话，可以先阅读一下周志华老师的西瓜书（清华大学出版社）或者李航老师的统计学习方法（清华大学出版社）。可以粗糙地理解为，机器学习是通过一些已知结果的样本来训练一个训练器，再将这个训练器运用到未知结果的样本上，用以推测其结果。我们在机器学习中通常要做的就是预测问题、参数优化问题和模型比较问题。

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第1张图片

还有阿里云大学上的免费公开课：https://edu.aliyun.com/course/838?spm=5176.13345299.1392555.36.458ef153vkLC1h

朴素贝叶斯分类器

基本原理方法

模型目标
贝叶斯错误 Bayes error
模型假设
概率模型 Probabilistic Model
事件模型 Event Model

连续事件模型

高斯朴素贝叶斯 Gaussian Naïve Bayes

离散事件模型

贝努利贝叶斯 Bernoulli Naïve Bayes
多项式贝叶斯 Multinomial Naïve Bayes

概率估计

特征/属性取值是离散值

极大似然估计 Maximum Likelihood Esitimation,MLE
贝叶斯估计 Baysian Esitimation

特征/属性取值是连续值

朴素贝叶斯模型特点

优点
缺点

朴素贝叶斯模型评估

手动计算的朴素贝叶斯分类器
代码：R language

用代码核算手算题
klaR包中的NaiveBayes函数存在问题
自变量是定性的问题

建模：极大似然估计
建模：Laplace smoothing的贝叶斯估计

自变量是定量的问题

建模：高斯密度估计
建模：核密度估计
作图：密度函数

交叉验证

代码：Python

用代码核算手算题&建模：多项式贝叶斯
建模：高斯贝叶斯
建模：混合型自变量

说明&致谢
参考资料

基本原理方法

模型目标

设输入空间（又称样本空间、属性空间） $\mathcal{X} \subseteq \mathbb{R}^n$ 为 $n$ 维向量的集合，输出空间为类别标记的集合 $\mathcal{Y}=\{C_1,C_2,\cdots,C_K\}$ 。输入为特征向量 $x\in \mathcal{X}$ ，输出为类标记 $y\in \mathcal{Y}$ 。 $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机变量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。

首先，我们需要确定一个损失函数，将最小化该损失函数的期望值（即，最小化期望风险函数）作为建模目标：期望风险越小，说明模型预测结果和真实结果越相近。不妨考虑 0-1 损失函数作为损失函数的例子：

$\begin{cases} 0, & f(X)= Y, \\ 1, & f(X) \neq Y. \end{cases}$

这里 $f (X)$ 为预测值， $Y$ 为真实类别值。这个损失函数意味着，当样本的模型预测结果和真实类别一致时，损失函数值为0；样本的模型预测结果和真实类别不一致时，损失函数值为1。

其次，期望风险/平均损失(Expected Prediction Error,EPE) 可以写作：

$E [L (Y, f (X))]$

其中，

$\begin{cases} 0, & f(X)= Y, \\ 1, & f(X) \neq Y. \end{cases}$

根据重期望公式，EPE可以分解为：

$E[L(Y,f(X))]=E_X[E_{Y|X}[L(Y,f(X))]]$

最后，我们寻找的朴素贝叶斯训练器 $f(\cdot)$ 要能够最小化EPE。为了最小化 EPE，我们找到了一个它的充分条件：在 $X = x$ 给定情况下，让 $E_{Y|X=x}[L(Y,f(X))]$ 都达到最小。能达到这个条件，就足以达到最小化 EPE 的目的。该充分条件可以表达为：

$\begin{aligned} & argmin\ E_{Y|X=x}[L(Y,f(X))] \\ =\ & argmin\ 0 \cdot P(L(Y,f(X))= 0|X=x) + 1 \cdot P(L(Y,f(X))= 1|X=x) \\ =\ & argmin\ 0 \cdot P(f(X)= Y|X=x) + 1 \cdot P(f(X) \neq Y|X=x) \\ =\ & argmin\ 1-P(f(X) = Y|X=x) \\ =\ &argmax P(f(X) = Y|X=x) \end{aligned}$

因此，基于最小化EPE的最优贝叶斯训练器 $f(\cdot)$ 要满足以下条件：

$\begin{aligned} f(x) =\ &argmax P(f(X) = Y|X=x) \\ =\ &argmax_{k \in \{1,2,\cdots,K\}} P(f(X) = C_k|X=x) \end{aligned}$

这是寻找最优训练器的后验概率最大化准则。根据这个准则，得到的训练器 $f(\cdot)$ 对于输入 $X = x$ 得到的训练结果分类为：使条件概率 $P(f(X) = C_k|X=x)$ 取值最大的那个分类 $C_k$ 。比如 $\in \{1,2,\cdots,K\}$ ，若

$P(f(X) = c_i|X=x) > P(f(X) = c_j|X=x)$

则 $X = x$ 通过得到训练器 $f(\cdot)$ 的训练结果分类为第 $i$ 类。

贝叶斯错误 Bayes error

贝叶斯分类器的错误率称为贝叶斯错误。理论上，贝叶斯分类器是基于“后验概率最大化准则”进行分类的最优分类器，因此，贝叶斯错误常用来作为比较其他分类器效果如何的基底。

模型假设

朴素贝叶斯分类器是一系列基于贝叶斯定理的简单概率分类器，输入空间需要满足假设：在特征（又称属性）之间具有很强的相互独立性，需注意这是一种条件独立性（下文会解释）。

概率模型 Probabilistic Model

给定一个分类实例问题，用向量 $X=(x^{(1)},x^{(2)},\cdots,x^{(m)})$ 来表示 $m$ 个属性/特征的输入。利用贝叶斯定理，条件概率 $P(f(X) = C_k|X=x)$ 可以分解为：

$C_k|X=x)=\frac{P(f(X) = C_k)p(X = x|f(X) = C_k)}{P(X = x)}$

简记为

$p(C_k|x)=\frac{p(C_k)p(x|C_k)}{p(x)}=\frac{p(C_k,x)}{p(x)}$

其中的原理即

$posterior（后验分布）=\frac{prior（先验分布） \times likelihood（可能性）}{evidence}$

实际上，我们仅需关注该分数的分子，因为分母“evidence”是给定 $x$ 之后能够确定下来的常数。在贝叶斯定理中 $p(x)=\sum_{k=1}^K p(c_k)p(x|c_k)$ ，即在不同类别 $c_k$ 下，可能会出现属性/特征 $x$ 的可能性，对于我们给定的属性/特征 $x$ ， $p (x)$ 也是一定的。

因此，在比较 $p(C_i|X=x)$ 和 $p(C_j|X=x)$ 大小时，若“去除相同的分母 $p (x)$ ”直接比较 $p(C_i,x)$ 和 $p(C_j,x)$ 大小，结果也是一样的。

我们来考虑 $p(C_k,X)$ 的估计，根据条件概率乘法公式的推广，可得：

$\begin{aligned} p(C_k,X)=&\ p(C_k)p(x^{(1)},x^{(2)},\cdots,x^{(m)}|C_k) \\ =&\ p(C_k)p(x^{(1)}|C_k)p(x^{(2)}|C_k,x^{(1)})\cdots p(x^{(m)}|C_k,x^{(1)},x^{(2)},\cdots,x^{(m-1)}) \end{aligned}$

由“朴素贝叶斯”的不同属性/特征的条件独立性假设可知，给定类别 $C_k$ ，假设每个特征 $x_i$ 条件独立于每个其他特征 $x_j$ 。这意味着：

$\begin{aligned} p(x^{(2)}|C_k,x^{(1)})=&\ p(x^{(2)}|C_k) \\ \cdots \\ p(x^{(m)}|C_k,x^{(1)},x^{(2)},\cdots,x^{(m-1)}) =&\ p(x^{(m)}|C_k) \end{aligned}$

关于朴素贝叶斯的独立性，我们用一个例子来解释：如果水果是红色，圆形且直径约10厘米，则可以认为是苹果。朴素贝叶斯分类器的“独立性”便认为无论颜色、形状和直径这三个特征之间是否存在任何相关性，每一个特征都会独立地影响这种水果是否被归为苹果的可能性。

因此，联合模型可以表示为

$p(C_k|x) =\frac{p(C_k,x)}{evidence} \propto p(C_k,x)=\ p(C_k)\prod_{i=1}^m p(x^{(i)}|C_k)$

那么朴素贝叶斯分类器就是为 $\hat{y}=C_k$ 分配类标签 $k$ 的函数，如下所示：

$\hat{y}=argmax_{k\in\{1,2,\cdots,K\}} p(C_k)\prod_{i=1}^m p(x^{(i)}|C_k)$

事件模型 Event Model

$p(x^{(i)}|C_k)$ 被称为事件模型。

连续事件模型

高斯朴素贝叶斯 Gaussian Naïve Bayes

高斯朴素贝叶斯训练器的事件模型为：

$p(x=v|c)=\frac{1}{\sqrt{2\pi \sigma_c^2}} e^{-\frac{(v-\mu_c)^2}{2 \sigma_c^2}}$

其中不同类别 $c$ 下 $\sigma_c$ 和 $\mu_c$ 会改变。

离散事件模型

贝努利贝叶斯 Bernoulli Naïve Bayes

贝努利朴素贝叶斯训练器的事件模型为：
$p(x^{(j)}=l|c_k)=p_{kj}^l(1-p_{kj})^{1-l},l=0,1$

其中 $p_{kj}$ 为在类别 $c_k$ 下事件 $x^{(j)}$ 发生的概率。

多项式贝叶斯 Multinomial Naïve Bayes

多项式朴素贝叶斯训练器的事件模型为：
$p(x^{(j)}=l|c_k)=p_{kjl}$

多项式朴素贝叶斯分类器在对数空间中表示时变为线性分类器。

概率估计

特征/属性取值是离散值

根据概率模型

$\hat{y}=argmax_{k\in\{1,2,\cdots,K\}} p(C_k)\prod_{i=1}^m p(x^{(i)}|C_k)$

可知我们需要估计两个量：一个是类别为 $C_k$ 的可能概率 $\hat{P}(Y=C_k)$ ；另一个是输入特征的第 $j$ 个特征 $X^{(j)}=l$ 的条件概率 $\hat{P}(X^{(j)}=l|C_k)$

极大似然估计 Maximum Likelihood Esitimation,MLE

先验概率的极大似然估计为：

$\hat{P}(Y=C_k)=\frac{\sum_{i=1}^n I(y_i=C_k)}{n}$

其中 $I(\cdot)$ 为示性函数。

这个公式的含义是： $\sum_{i=1}^n I(y_i=C_k)$ 表示在训练集中，样本类别为 $C_K$ 的样本数量， $n$ 表示样本总数，因此， $\frac{\sum_{i=1}^n I(y_i=C_k)}{n}$ 表示已有训练集中样本的类别为 $C_K$ 的比例。

每个类别为 $C_k$ 的样本中，第 $j$ 个特征为第 $l$ 种取值的条件概率的极大似然估计为：

$\hat{P}(X^{(j)}=l|C_k)=\frac{\sum_{i=1}^n I(x_i^{(j)}=l,y_i=C_k)}{\sum_{i=1}^n I(y_i=C_k)}$

这个公式的含义是： $\sum_{i=1}^n I(x_i^{(j)}=l,y_i=C_k)$ 表示在训练集中，样本类别为 $C_K$ 同时第 $j$ 个特征为第 $l$ 种取值的样本数量， $\sum_{i=1}^n I(y_i=C_k)$ 表示在训练集中，因此， $\frac{\sum_{i=1}^n I(x_i^{(j)}=l,y_i=C_k)}{\sum_{i=1}^n I(y_i=C_k)}$ 表示训练集样本类别为 $C_K$ 的样本中，第 $j$ 个特征为第 $l$ 种取值的样本比例。

但是，由极大似然估计定义的条件概率可能为0，那么带入到概率模型中去， $\prod_{i=1}^m p(x^{(i)}|C_k)=0$ ，此时，其他维度的条件概率无论是否为0，都将失去意义。为修正这个问题，我们将采用贝叶斯估计

贝叶斯估计 Baysian Esitimation

条件概率的贝叶斯估计为：

$\hat{P}(X^{(j)}=l|C_k)=\frac{\sum_{i=1}^n I(x_i^{(j)}=l,y_i=C_k)+\lambda}{\sum_{i=1}^n I(y_i=C_k)+S_j \lambda}$

其中 $\lambda > 0$ ，当 $\lambda = 0$ 这就是MLE，常取 $\lambda =1$ ，这时称之为拉普拉斯光滑(Laplace smoothing)。这是一个小样本校正，称为伪计数，修正后不会将任何条件概率值正好为零。 $S_j$ 为第 $j$ 个特征可能的取值总数，它的作用是保证第 $j$ 个特征不同取值的条件概率之和为1（正规性），即

$\sum_{l=1}^{S_j} \hat{P}(X^{(j)}=l|C_k) = 1.$

同样，先验概率的贝叶斯估计为：

$\hat{P}(Y=C_k)=\frac{\sum_{i=1}^n I(y_i=C_k)+\lambda}{n+K\lambda}$

其中 $K$ 为总的类别数，它的作用也是保证先验概率的正规性。

特征/属性取值是连续值

有两种方法来估计属性的类条件概率，一是把每一个连续的属性离散化，然后用相应的离散区间来替换连续属性值；二是采用前述的高斯函数来估计类条件密度函数，

$p(x=v|c)=\frac{1}{\sqrt{2\pi \sigma_c^2}} e^{-\frac{(v-\mu_c)^2}{2 \sigma_c^2}}$

其中不同类别 $c$ 下 $\sigma_c$ 和 $\mu_c$ 会改变，这样生成的朴素贝叶斯模型就是高斯朴素贝叶斯模型。

朴素贝叶斯模型特点

目标		关键的几个问题	是否需要标准化	是否容许有缺失值
分类判别(因变量定性)	回归(因变量定量)	关键的几个问题	是否需要标准化	是否容许有缺失值
可以	不可以	（1）	不需要	容许
		（2）密度函数
		（3）先验概率

优点

与其他先进的训练模型（如，支持向量机）相比也有一定的竞争力
计算迅速
可以避免数据维数太高带来的麻烦，朴素贝叶斯将问题都转化为一维的
可扩展性强（可扩展性好指的是加入新数据后，只要对原模型做些许修改就可以继续使用）
所需训练集既可以是小批量的也可以是大批量的

缺点

由于现实中类别条件概率的独立性未必成立，所以预测不是很准确
对于具有大量特征的训练集不理想

朴素贝叶斯模型评估

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第3张图片

解释²：

Natural handling of data of “mixed” type：混合型数据处理能力。混合型数据指的是数据集的特征既有定性变量也有定量变量，朴素贝叶斯模型可以训练这样的数据集，但需注意的是输出必须是定性变量（即，只能做分类问题）；
Handling of missing values：缺失值处理能力。朴素贝叶斯模型可以训练包含缺失值的数据集，从前面的例子也可以看出，缺失值只会影响计数当中少几个计数，但是概率的估计不会受到影响；
Robustness to outliers in input space：异常值的稳健型。朴素贝叶斯模型会受异常值的影响，这是因为会影响类条件概率，但影响效果适中；
Insensitive to monotone transformations of inputs：对单调性变换不敏感；
Computational scalability：可扩展性。可扩展性好指的是加入新数据后，只要对原模型做些许修改就可以继续使用，朴素贝叶斯模型的可扩展性比较好；
Ability to deal with irrelevant inputs：处理无关解释变量的能力。朴素贝叶斯模型无法甄别无关变量，不能将无关变挑出来剔除，处理无关变量能力比较差；
Ability to extract linear combinations of features：获得特征的线性组合能力；
Interpretability：可解释性。朴素贝叶斯可解释性不强（对于这点，博主不太同意，这明明就是最好理解的嘛！从条件概率出发）；
Predictive power：预测能力。朴素贝叶斯预测能力中等。

手动计算的朴素贝叶斯分类器

实例：探讨各项因素对是否能进行高尔夫运动的影响。

例：图中是golf例子的训练集，我们只考虑"Outlook"和"Windy"这两个特征，利用Laplace光滑的贝叶斯估计来训练参数，预测事件"x=(Outlook=Overcast,Windy=FALSE)"类别为"yes"和"no"的概率。

解：我们首先做两张下面这样的表格：

Play(类别因变量)	Outlook(特征)			总计数
Play(类别因变量)	Overcast	Sunny	Rainy	总计数
no	0	3	2	5
yes	4	2	3	9

Play(类别因变量)	Windy(特征)		总计数
Play(类别因变量)	FALSE	TRUE	总计数
no	2	3	5
yes	6	3	9

解释一下这张表中数字的意思：比如第一张表中的“2”代表，类别因变量为“no”的样本里有2个样本在“Overlook”特征上取“FALSE”。其他数字的定义诸如此类。

记 $C_1=yes,C_2=no$ ，"Overlook"的三个取值： $l_1=Sunny,l_2=Overcast,l_3=Rainy$ ，"Windy"的三个取值： $l_1=FALSE,l_2=TRUE$ 。

我们的目的是预测事件"x=(Outlook=Overcast,Windy=FALSE)"类别，因此 $x^{(1)}=l_2=Overcast,x^{(2)}=l_1=FALSE$ 。由于Laplace光滑，因此 $\lambda=1$ ，总样本数 $n = 14$ 。

$j=1,x^{(1)}$ 代表"Overlook"特征的取值， $S_1=3$ ：

$\begin{aligned} \hat{P}(x^{(1)}=l_2|C_1)=&\ \frac{\sum_{i=1}^{14} I(x_i^{(1)}=l_2,y_i=C_1)+1}{\sum_{i=1}^{14} I(y_i=C_1)+S_1} \\ =&\ \frac{4+1}{9+3}=\ \frac{5}{12} \\ \hat{P}(x^{(1)}=l_2|C_2)=&\ \frac{\sum_{i=1}^{14} I(x_i^{(1)}=l_2,y_i=C_2)+1}{\sum_{i=1}^{14} I(y_i=C_2)+S_1} \\ =&\ \frac{0+1}{5+3}=\ \frac{1}{8} \\ \end{aligned}$

$j=2,x^{(2)}$ 代表"Windy"特征的取值， $S_2=2$ ：

$\begin{aligned} \hat{P}(x^{(2)}=l_1|C_1)=&\ \frac{\sum_{i=1}^{14} I(x_i^{(2)}=l_1,y_i=C_1)+1}{\sum_{i=1}^{14} I(y_i=C_1)+S_2} \\ =&\ \frac{6+1}{9+2}=\ \frac{7}{11} \\ \hat{P}(x^{(2)}=l_1|C_2)=&\ \frac{\sum_{i=1}^{14} I(x_i^{(2)}=l_1,y_i=C_2)+1}{\sum_{i=1}^{14} I(y_i=C_2)+S_2} \\ =&\ \frac{2+1}{5+2}=\ \frac{3}{7} \\ \end{aligned}$

计算先验概率的贝叶斯估计：

$\begin{aligned} \hat{P}(C_1)=&\ \frac{9+1}{14+2}=\ \frac{5}{8} \\ \hat{P}(C_2)=&\ \frac{5+1}{14+2} =\ \frac{3}{8} \end{aligned}$

因此，

$\begin{aligned} \hat{P}(C_1,x)=& \frac{5}{8} \times \frac{5}{12} \times \frac{7}{11} =\ 0.16572\\ \hat{P}(C_2,x)=& \frac{3}{8} \times \frac{1}{8} \times \frac{3}{7}=\ 0.02009 \end{aligned}$

最终，通过概率模型来求类别：

$\hat{y}=argmax_{k\in\{1,2\}} p(C_k)\prod_{i=1}^2 p(x^{(i)}|C_k)=C_1$

因此，事件"x=(Outlook=Overcast,Windy=FALSE)"类别为“yes”。

代码：R language

用代码核算手算题

现在用代码来核算一下前面那个手算的例子。

数据准备

setwd("/Users/(你的用户名)/Documents/dataforexercise/data")
# 设定当前的工作目录，重要！
golf <- read.csv("golf.csv",header = T)
golf

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第5张图片

训练集：只取Outlook和Windy这两个特征

train <- golf[,c(1,4,5)]
train

y_col <- 3 #因变量所在的列号
names(train)[y_col] <- 'y' #给因变量所在的列号命名为‘y’

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第6张图片

测试集

testx <- data.frame(Outlook='Overcast',Windy='false')
levels(testx[,1]) <- levels(train[,1]) # 要求测试集中因子的水平与训练集一致
levels(testx[,2]) <- levels(train[,2])
testx

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第7张图片

建模：NaiveBayes函数在klaR包里

if (!require(klaR)) {
    install.packages("klaR")
    library(klaR)
}

使用Laplace smoothing（NaiveBayes函数中参数fL=1）

NB.model <- NaiveBayes(y~.,data = train,fL = 1) #fL即贝叶斯估计中的lambda
NB.model

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第8张图片

$apriori 显示y的各类别的先验概率

$tables 按y的类别分群体，显示各群体在每一个自变量（特征/属性）上的分布。由于这里的自变量都是定性的，因此是分别显示各取值所占比例。需要注意的是，R中自动按照字母顺序来排列各取值（从而，no就排在yes前面）。

请思考，如果自变量是定量数据，将如何描述这个分布？（要思考一下下嗷！后面有答案）

$levels 显示y的类别

预测：predict函数是系统自带的stat包里的

pred.NB <- predict(NB.model,testx)
pred.NB

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第9张图片

$class 显示预测类别

$posterior 显示的预测为各类别的后验概率

klaR包中的NaiveBayes函数存在问题

这道题是前面那道手算题的代码，我们会发现，通过代码计算得的Laplace smoothing的贝叶斯先验/类条件概率的估计，和我们手算的结果都不同，且类条件概率不满足正则性（加起来总和0.2000000+0.6000000+0.8000000超过1）。

NB.model <- NaiveBayes(y~.,data = train,fL = 0) #fL=0，即 MLE
NB.model

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第10张图片

我们可以发现，单纯利用MLE的结果是正确的，且Laplace smoothing的贝叶斯先验概率估计值和MLE先验估计值相同。

修正

我们尝试使用e1071::naiveBayes函数，能够解类条件概率不能正则化的问题，但是先验概率仍然为MLE（不管laplace等于几）

if (!require(e1071)) {
    install.packages("e1071")
    library(e1071)
}

e1071::naiveBayes函数使用方法：

NB.model.e1071 <- naiveBayes(y~.,data = train,laplace=1)
NB.model.e1071

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第11张图片

例如，类别为“no”条件下Outlook取各值的条件概率之和0.1250000+0.3750000+0.5000000=1

pred.NB.e1071 <- predict(NB.model.e1701,testx)
pred.NB.e1071

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第12张图片

预测类别为“yes”。

自变量是定性的问题

导入数据

setwd("/Users/(你的用户名)/Documents/dataforexercise/data")

computer <- read.csv("computer.csv",header = T)
computer

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第13张图片

训练集和测试集划分

train <- computer
ycol <- 5
names(train)[ycol] <- 'y'

testx <- data.frame(age="youth",income="medium",student="yes",credit_rating="fair")
levels(testx[,1]) <- levels(train[,1]) # 要求测试集中因子的水平与训练集一致
levels(testx[,2]) <- levels(train[,2])
levels(testx[,3]) <- levels(train[,3])
levels(testx[,4]) <- levels(train[,4])
testx[1,1] <- "youth"
testx[1,2] <- "medium"
testx[1,3] <- "yes"
testx[1,4] <- "fair"
testx

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第14张图片

建模：极大似然估计

if(!require(e1071)){
    install.packages('e1071')
    library(e1071)
}

NB.model <- naiveBayes(y~., train)  
NB.model

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第15张图片

预测

pred.NB <- predict(NB.model,train[,-ycol])
pred.NB

评估

confusionMatrix函数在caret包中

if (!require(caret)) {
  install.packages("caret")
  library(caret)
}

eval.NB <- confusionMatrix(pred.NB,train[,ycol],positive = 'yes')
eval.NB

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第16张图片

附一张来自R软件里的所有概念的计算图（具体含义以后会再开一个博文来讲）：

eval.NB$overall

Accuracy 0.928571428571429
Kappa 0.837209302325581
AccuracyLower 0.661315510068179
AccuracyUpper 0.998193219340875
AccuracyNull 0.642857142857143
AccuracyPValue 0.0180712092415321
McnemarPValue 1

eval.NB$byClass

Sensitivity 1
Specificity 0.8
Pos Pred Value 0.9
Neg Pred Value 1
Precision 0.9
Recall 1
F1 0.947368421052632
Prevalence 0.642857142857143
Detection Rate 0.642857142857143
Detection Prevalence 0.714285714285714
Balanced Accuracy 0.9

建模：Laplace smoothing的贝叶斯估计

NB.model.laplace <- naiveBayes(y~.,data = train,laplace = 1)
NB.model.laplace

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第18张图片

预测

pred.NB.laplace <- predict(NB.model.laplace,train[,-ycol])
pred.NB.laplace

评估

eval.NB.laplace <- confusionMatrix(pred.NB.laplace,train[,ycol],positive = 'yes')
eval.NB.laplace

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第19张图片

eval.NB.laplace$overall

Accuracy 0.928571428571429
Kappa 0.837209302325581
AccuracyLower 0.661315510068179
AccuracyUpper 0.998193219340875
AccuracyNull 0.642857142857143
AccuracyPValue 0.0180712092415321
McnemarPValue 1

eval.NB.laplace$byClass

Sensitivity 1
Specificity 0.8
Pos Pred Value 0.9
Neg Pred Value 1
Precision 0.9
Recall 1
F1 0.947368421052632
Prevalence 0.642857142857143
Detection Rate 0.642857142857143
Detection Prevalence 0.714285714285714
Balanced Accuracy 0.9

自变量是定量的问题

导入数据

setwd("/Users/(你的用户名)/Documents/dataforexercise/data")

golf <- read.csv("golf.csv",header = T)
golf

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第20张图片

训练集和测试集的划分：只选择定量变量（此处不设训练集，比较训练集上预测结果和真实值的差异）

train <- golf
y_col <- 5
names(train)[y_col] <- 'y'

建模：高斯密度估计

if(!require(e1071)){
    install.packages('e1701')
    library(e1071)
}

NB.model <- naiveBayes(y ~ Temperature + Humidity, train)  
NB.model

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第21张图片

表格中给出的是Temperature和Humidity在各类下的均值和标准差：$tables中，[,1]是均值，[,2]是标准差（这就是上面思考题的答案！）

预测

pred.NB <- predict(NB.model,train[,2:3])
pred.NB

评估

方法一：gmodels包中的CrossTable函数

if(!require(gmodels)){
    install.packages('gmodels')
    library(gmodels)
}

CrossTable(train[,y_col], pred.NB,
           prop.chisq = FALSE, prop.t = FALSE, prop.r = FALSE,
           dnn = c('actual', 'predicted'))

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第22张图片

prop.r
如果为TRUE，输出结果则将包括行比例
prop.c
如果为TRUE，输出结果则将包括列比例
prop.t
如果为TRUE，输出结果则将包含表格比例
prop.chisq
如果为TRUE，输出结果则将包括每个单元的卡方贡献
上面四个值默认为TRUE

Cell Contents表示下面表格的单元格中，按顺序排下来分别是什么值。N代表同时满足行和列条件的个数，N/Col Total代表满足条件的个数在列中的占比。

方法二：table函数

table(train[,y_col],pred.NB)

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第23张图片

对比一下klaR::NaiveBayes函数的功效

if (!require(klaR)) {
  install.packages("klaR")
  library(klaR)
}

NB.model.klaR <- NaiveBayes(y ~ Temperature + Humidity, train)  
NB.model.klaR

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第24张图片

tables中给出的是Temperature和Humidity在各类下的均值和标准差：$tables中，[,1]是均值，[,2]是标准差。klaR包中的函数和e1071包中的函数作用效果相同。

建模：核密度估计

NB.model.kernel <- naiveBayes(y ~ Temperature + Humidity, train, usekernel = TRUE)  
NB.model.kernel

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第25张图片

根据上图结果，e1071::naiveBayes函数不能实现核密度估计，只能进行高斯密度估计。

NB.model.kernel.klaR <- NaiveBayes(y ~ Temperature + Humidity, train, usekernel = TRUE)  
NB.model.kernel.klaR

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第26张图片

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第27张图片

tables中给出的是Temperature和Humidity在各类下的分位数值及其对应的密度值：以$tables$Temperature$no为例，其下方显示的是y=no的人群Temperature密度函数的描述，x那一列是y=no的人群Temperature的五数概括（最小值、下四分位数、中位数、上四分位数、最大值），y那一列是相应x处的密度函数值。

预测

pred.NB.kernel.klaR <- predict(NB.model.kernel.klaR,train[,2:3])
pred.NB.kernel.klaR

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第28张图片

$class是预测类别，$posterior为预测为各个类别的概率，预测哪个类别的概率大，预测结果就为哪个类别。

评估

CrossTable(train[,y_col], pred.NB.kernel.klaR$class,
           prop.chisq = FALSE, prop.t = FALSE, prop.r = FALSE,
           dnn = c('actual', 'predicted'))

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第29张图片

table(train[, y_col], pred.NB.kernel.klaR$class)

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第30张图片

作图：密度函数

下面用plot函数画出不同变量的密度函数。

par(mfrow = c(1,2))
plot(NB.model.klaR,vars = 'Temperature')
# vars表明画哪个变量的密度函数，legendplot表示是否需要注释
# 高斯密度估计
plot(NB.model.kernel.klaR,vars = 'Temperature')
# 核密度估计
# 与直方图相似

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第31张图片

par(mfrow = c(1,2))
plot(NB.model.klaR,vars = 'Humidity',legendplot = TRUE)
plot(NB.model.kernel.klaR,vars = 'Humidity',legendplot = TRUE)

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第32张图片

交叉验证

setwd("/Users/(你的用户名)/Documents/dataforexercise/data")
golf <- read.csv('golf.csv', header = T)

train <- golf
coly <- 5 # y所在的列号
names(train)[coly] <- "y"
train

留一交叉验证：只使用原本样本中的一项来当作验证集，而剩余的则留下来当作训练资料。这个步骤一直持续到每个样本都被当作一次验证集。

留一交叉验证可以用来寻找最优参数usekernel和fL的参数组合。

if (!require(klaR)) {
  install.packages("klaR")
  library(klaR)
}

usekernel = T和fL = 0的组合

pred.NB.list <- factor(rep("no", nrow(train)), level = c("no", "yes"))
for (i in 1 : nrow(train)){
  NB.model <- NaiveBayes(y ~., train[-i,], usekernel = T, fL = 0)  
  pred.NB <- predict(NB.model, train[i, -coly])
  pred.NB.list[i] <- pred.NB$class
}

下面使用caret包中的confusionMatrix函数，评价模型效果

if (!require(caret)) {
  install.packages("caret")
  library(caret)
}

eval.NB.cv <- confusionMatrix(pred.NB.list, train[, coly], positive = "yes")
eval.NB.cv

机器学习2：朴素贝叶斯分类器Naïve Bayes Classifier（基于R language&Python）_第33张图片

用留一交叉验证跑遍usekernel = T/F和fL = 0/1的四个组合，然后就能根据kappa值/准确率来选择最优参数组合。

代码：Python

用代码核算手算题&建模：多项式贝叶斯

下载所需包

import os # chdir函数
import pandas as pd #read_csv，iloc，DataFrame函数
import numpy as np # array，reshape函数
from sklearn.preprocessing import OneHotEncoder # 独热编码
from sklearn.naive_bayes import MultinomialNB # 多项式朴素贝叶斯

改变路径

os.chdir函数用于改变当前工作目录到指定的路径；由于’‘有转义作用，r''表示’'内部的字符串默认不转义(仅输入原始字符串，常用于路径输入)

os.chdir(r"/Users/(你的用户名)/Documents/dataforexercise/data")

导入数据

pandas.read_csv函数用于读取 ‘.csv’ 文件，常用参数如下：

header：设置导入 DataFrame 的列名称，默认为 infer，注意它与下面介绍的names参数的微妙关系。

names：当names没被赋值时，header会变成第0行的内容，即选取数据文件的第一行作为列名；当 names 被赋值，header 没被赋值时，那么原来的header就会变成数据的第0行，列名会变成names；如果都赋值，就会实现两个参数的组合功能，即将 names 的值作为列名。

index_col：我们在读取文件之后，生成的索引默认是0 1 2 3…，可以set_index，但也可以在读取的时候就指定某个列为索引，index_col 就是用来指定某个列作为索引，index_col的值可以取列名。

dtype：可用通过dtype={"列名": 数据类型}来定义数据类型。

converters：可以在读取的时候对列数据进行变换，例如converters={"列名": lambda x: int(x) + 10}那该列所有数字会+10.

nrows：设置一次性读入的文件行数，它在读入大文件时很有用。

na_values：可以配置哪些值需要处理成 NaN，na_values={“name”: ["#"], “gender”: [“女”]}代表name列中的#作为缺失值，gender列中的女作为缺失值。

golf = pd.read_csv('golf.csv')
golf

划分训练集和测试集

首先，挑出我们要用的Outlook、Windy和因变量的列，构成我们用的usedata.

usedata = golf.iloc[0:,[0,3,4]]
usedata

训练集

x_train = usedata.iloc[0:,[0,1]]
y_train = usedata.iloc[0:,2]
x_train,y_train

测试集

pd.DataFrame函数可以创建DataFrame类型的数据集，构建它的方法有很多，最常见的一种就是传入一个由等长列表或numpy数组组成的字典，例如

data = {'STATE':['OHIO','NEVADA'],
        'YEAR':[2001,2002]}
frame = DataFrame(data)

reshape函数中的参数就是张量的形状，’-1’就是不考虑那个行/列数，端看其他一个列/行是多少，再把数据总量除以这个数，得到’-1’对应的行/列数。

x_test = pd.DataFrame(['Overcast', False])
x_test = np.array(x_test).reshape((1,-1))
x_test

独热编码

由于自变量是定性变量，所以考虑多项式朴素贝叶斯MultinomialNB，测试发现MultinomialNB不能直接处理定性数据，需做独热编码。

encoder.fit_transform(x_train)先将独热编码取1的矩阵（行号，列号）标记下来，再用toarray函数将之转化为独热编码矩阵。

encoder = OneHotEncoder() # 给独热编码函数重命名
x_train_onehot = pd.DataFrame(encoder.fit_transform(x_train).toarray())
x_train_onehot

x_test_onehot = encoder.transform(x_test)
x_test_onehot

建模：多项式贝叶斯

适合自变量离散的场合，MultinomialNB函数中alpha参数就是lambda，alpha = 1即拉普拉斯光滑。

MultinomialNB.fit(X,y)函数建模函数，X训练集自变量，y训练集因变量，sample_weight加权值。

mnb = MultinomialNB(alpha = 1)
MNBmodel = mnb.fit(x_train_onehot, y_train)

预测

预测类别

MNBmodel.predict(x_test_onehot)

预测类别概率

MNBmodel.predict_proba(x_test_onehot)

解释一下这个概率的由来：先验概率用的是MLE，类条件概率用的是laplace光滑的贝叶斯估计，计算出来预测类别为’no’的概率为0.0191326531，'yes’的概率为0.170454545，MultinomialNB.predict_proba函数会有将概率归一化这一步骤，预测类别为’no’的概率为 $\frac{0.0191326531}{0.0191326531+0.170454545}=0.10068519$ ，'yes’的概率为 $\frac{0.170454545}{0.0191326531+0.170454545}=0.89931481$ 。

Python中的朴素贝叶斯的laplce光滑是正确的。

建模：高斯贝叶斯

下载所需包

import os # chdir函数
import pandas as pd #read_csv，iloc，DataFrame函数
import numpy as np # array，reshape函数
from sklearn.preprocessing import OneHotEncoder # 独热编码
from sklearn.naive_bayes import GaussianNB # 多项式朴素贝叶斯

划分训练集和测试集

使用数据集

usedata = golf.iloc[0:,[1,2,4]]
usedata

训练集

x_train = usedata.iloc[0:,[0,1]]
y_train = usedata.iloc[0:,2]
x_train,y_train

测试集

x_test = pd.DataFrame([85, 85])
x_test = np.array(x_test).reshape((1,-1))
x_test

建模：高斯贝叶斯

gnb = GaussianNB()
GNBmodel = gnb.fit(x_train,y_train)

预测

GNBmodel.predict(x_test)

GNBmodel.predict_proba(x_test)

预测类别为’no’的概率为0.63248179, 预测类别为’yes’的概率为0.36751821。

建模：混合型自变量

下载所需包

import os # chdir函数
import pandas as pd #read_csv，iloc，DataFrame函数
import numpy as np # array，reshape函数
from sklearn.preprocessing import OneHotEncoder # 独热编码
from sklearn.naive_bayes import MultinomialNB,GaussianNB # 多项式朴素贝叶斯和朴素贝叶斯

改变路径

os.chdir(r'/Users/sunsimiao/Documents/dataforexercise/data/')

划分训练集和测试集

选择使用数据

golf = pd.read_csv('golf.csv')
golf

训练集：划分为定性变量训练集，定量变量训练集

x_train1 = golf.iloc[0:,[0,3]]
y_train1 = golf.iloc[0:,4]

x_train2 = golf.iloc[0:,[1,2]]
y_train2 = golf.iloc[0:,4]

测试集：划分为定性变量测试集，定量变量测试集

x_test1 = pd.DataFrame(['Overcast',False])
x_test1 = np.array(x_test1).reshape((1,-1))

x_test2 = pd.DataFrame([85, 85])
x_test2 = np.array(x_test2).reshape((1,-1))

下面对MultinomialNB和GaussianNB进行整合，只要把其中一个模型的各类先验概率设置为等概率，然后把两个模型的概率值相乘即可。

独热编码

encoder = OneHotEncoder()
x_train1_onehot = pd.DataFrame(encoder.fit_transform(x_train1).toarray())

x_test1_onehot = encoder.transform(x_test1)

建模

mnb = MultinomialNB(alpha=1)
MNBmodel = mnb.fit(x_train1_onehot,y_train1)

gnb = GaussianNB(priors=[0.5,0.5]) # 把其中一个模型的各类先验概率设置为等概率
GNBmodel = gnb.fit(x_train2,y_train2)

预测

MNBpred = MNBmodel.predict_proba(x_test1_onehot)

GNBpred = GNBmodel.predict_proba(x_test2)

ypred = MNBpred * GNBpred # 把两个模型的概率值相乘
ypred/ypred.sum()

结果：

array([[0.25750649, 0.74249351]])

说明&致谢

深深地怀疑朴素贝叶斯(Naïve Bayes)中的这个’Naive’是在吐槽这个算法太“天真”地假设类别之间的独立性，博主脑洞：那为什么不叫天真贝叶斯呢？

阅读至此的一定是好学的小哥哥小姐姐啦！一起加油学机器学习咯，欢迎也感谢各位小哥哥小姐姐到评论区指出文中问题。在此，特要感谢本人机器学习的授课老师Ms.L（貌美如花的实力派老师）提供的资料和教学。Come and Join Us Machine Learning！

接下来，博主计划分享KNN学习的读书笔记。

参考资料

李航. 统计学习方法, 2015, 清华大学出版社 ↩︎
The Elements of Statistical Learning ↩︎

你可能感兴趣的:(机器学习·所思所得)

脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
京东携手HarmonyOS SDK首发家电AR高精摆放功能
在电商行业的演进中，商品的呈现方式不断升级：从文字、图片到视频，再到如今逐渐兴起的3D与AR技术。作为XR应用探索的先行者，京东正站在这场体验革新的最前沿，不断突破商品展示的边界，致力于通过创新技术让消费者的选购过程更加直观、真实和高效。“3D技术能够提供更逼真的视觉呈现、更沉浸的交互体验，让消费者"所见即所得”，帮助品牌更好实现与用户的深入连接，“3D信息流"将成为下一代内容形态的重要载体。”-
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
C语言阶梯电费函数,用阶梯电价计算逻辑学习销售人员阶梯提成计算函数 weixin_39691968 C语言阶梯电费函数
在生活中有很多需要分段、阶梯式计算的情景，如阶梯电价、销售人员阶梯提成、个人所得税等。这些计算有一个共同点：需要分段计算，超过某个范围后需适用另外一个比例且该比例逐渐递增。本文以阶梯电价的计算为例，充分利用Excel函数公式来介绍这种计算方法，供大家学习参考。案例背景和数据介绍：如下图所示，A1单元格存储本月所用电量数(单元格实际输入的数据是253，通过自定义单元格格式显示成如图效果)，需根据阶梯
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/