陈灿 Cedric

python机器学习小记——基于朴素贝叶斯(Native Bayes,NB)模型的分类预测

【阿里天池云-龙珠计划】python机器学习小记

文章目录

【阿里天池云-龙珠计划】python机器学习小记

一、朴素贝叶斯(Naive Bayes)算法原理及应用介绍

二、算法实战——基于iris数据集的贝叶斯分类

三、模拟离散数据集–贝叶斯分类

四、朴素贝叶斯在自然语言处理中的应用

【写在前面】
不知不觉已经第二篇了，希望可以坚持下去总结一年多的积累
曾无数次遇到bug在CSDN找到了解答，这个系列的总结也算是回馈给有需要的广大读者
感谢群主提供的学习机会@AI蜗牛车，群KOL@老表
推荐一下群主的公众号：AI蜗牛车，文中对于文本分类相关内容很多整理自公众号的白话机器学习部分
再推荐下此系列的上一篇博文——基于逻辑回归的分类预测

python机器学习小记——基于逻辑回归模型的多分类场景预测实战

那么我们开始吧~~

1.朴素贝叶斯(Naive Bayes)算法原理及应用介绍

1.1. 朴素贝叶斯(Naive Bayes)的介绍

朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。基于贝叶斯公式计算得到，它是基于贝叶斯定义和特征条件独立假设的分类器方法。

之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。

其有着坚实的数学基础，以及稳定的分类效率，且NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。适用于垃圾邮件过滤、情感预测、推荐系统等常见分类预测场景。尤其值得一提的是，对于文本分类任务，尤其是对于英文等语言来说，分类效果很好。

优劣势:

优点：实现简单，数理基础坚实，分类效率稳定，所需参数少，对缺失值不敏感。而且在数据量很小的时候表现良好，数据量很大的时候也可以进行增量计算。由于朴素贝叶斯使用先验概率估计后验概率具有很好的模型的可解释性；
缺点：专用于解决分类问题，只接受数值型、离散型，或者0-1二元型的自变量；基于自变量独立分布的假设，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。为解决特征之间的相关性，我们还可以使用数据降维(PCA)的方法，去除特征相关性，再进行朴素贝叶斯计算。

1.2. 朴素贝叶斯(Naive Bayes)的算法原理

什么是条件概率，我们从一个摸球的例子来理解。我们有两个桶：灰色桶和绿色桶，一共有7个小球，4个蓝色3个紫色，分布如下图：

从这7个球中，随机选择1个球是紫色的概率p是多少？选择过程如下：

先选择桶
再从选择的桶中选择一个球

$\\ =p(选择灰桶) \cdot p(从灰桶中选择紫色) + p(选择绿桶) \cdot p(从绿桶中选择紫色) \\ =\frac{1}{2} \cdot \frac{2}{4} + \frac{1}{2} \cdot \frac{1}{3}$

上述我们选择小球的过程就是条件概率的过程，在选择桶的颜色的情况下是紫色的概率，另一种计算条件概率的方法是贝叶斯准则。

贝叶斯公式是英国数学家提出的一个数据公式:
$p(A|B)=\frac{p(A,B)}{p(B)}=\frac{p(B|A) \cdot p(A)}{\sum_{a \in ℱ_A}p(B|a) \cdot p(a)}$

p(A,B)：表示事件A和事件B同时发生的概率。

p(B)：表示事件B发生的概率，叫做先验概率；p(A)：表示事件A发生的概率。

p(A|B)：表示当事件B发生的条件下，事件A发生的概率叫做后验概率。

p(B|A)：表示当事件A发生的条件下，事件B发生的概率。

我们用一句话理解贝叶斯：世间很多事都存在某种联系，假设事件A和事件B。人们常常使用已经发生的某个事件去推断我们想要知道的之间的概率。
例如，医生在确诊的时候，会根据病人的舌苔、心跳等来判断病人得了什么病。对病人来说，只会关注得了什么病，医生会通道已经发生的事件来
确诊具体的情况。这里就用到了贝叶斯思想，A是已经发生的病人症状，在A发生的条件下是 $B_i$ 的概率。

朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立。

输入 $\in R^n$ 空间是n维向量集合，输出空间 $y=\{c_1,c_2,...,c_K\}$ . 所有的X和y都是对应空间上的随机变量. $P (X, Y)$ 是X和Y的联合概率分别. 训练数据集(由 $P (X, Y)$ 独立同分布产生):
$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

计算测试数据x的列表，我们需要依次计算 $P(Y=c_k|X=x)$ ，取概率最大的值，就是x对应的分类。

$P(Y=c_k|X=x)$ 我们一般这样解释，当给定 $(X = x)$ 的条件下， $Y=c_k$ 的概率，这就是条件概率. 这就简单了，我们只需要每个的x，计算其对应的 $c_k,k \in [1,2,...,K]$ 的概率，选择最大的概率作为这个x的类别进行了.

通过贝叶斯公式进行变形，得到预测的概率计算公式：

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x|Y=c_k)P(Y=c_k)}$

我们只需要计算以下两个概率即可，又由于朴素贝叶斯假设条件独立，我们可以单独计算每个特征的条件概率： $P(X^{(i)}=x^{(i)}|Y=c_k)$ 和类目 $c_k$ 的先验概率： $P(Y=c_k)$ 。为了更好的理解这个公式，看下图解释：

其中：
$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}, k=1,2,...,K$

当涉及到多个条件时，朴素贝叶斯有一个提前的假设，我们称之为条件独立性假设（或者简单假设：Naive）：公式如下
$\cdot P(B|Y)$
这个公式是朴素贝叶斯的基础假设，即各个条件概率是相互独立的，A不影响B，B不影响A。
而对这里来说，假设 $X = [x_1,x_2,...,x_n]$

$P(X=x|Y=c_k) \\ =P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)}|Y=c_k) \\ =\prod_{i=1}^{n} P(x_i | y)$

由此原式可以等价为：

$P(Y=c_k|X=x)=\frac{\prod_{i=1}^{n} P(x_i | Y=c_k)P(Y=c_k)}{\sum_{k}\prod_{i=1}^{n} P(x_i | Y=c_k)P(Y=c_k)}$

我们为了选择后验概率最大的结果，进行概率的比较，由于分母一致，这里直接去掉分母，得到最后的计算公式。

$max_{c_k}P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)$

python机器学习小记——基于朴素贝叶斯(Native Bayes,NB)模型的分类预测_第3张图片

1.3. 生活中问题的示例

我们来看一个实例，更好的理解贝叶斯的计算过程，根据天气和是否是周末预测一个人是否会出门。

index	$X_1:$ 天气的好坏	$X_2:$ 是否周末	$Y :$ 是否出门
1	好	是	出门
2	好	否	出门
3	好	是	不出门
4	好	否	出门
5	不好	是	出门
6	不好	否	不出门

根据上述数据，为了更好的理解计算过程，我们给出几个计算公式:

a. 当出门的条件下，X_1是天气不好的概率:
$p(X_1=不好|Y=出门) =\frac{p(X_1=不好,Y=出门)}{p(Y=出门)}=\frac{1}{4}$

b. 出门的概率
$p(Y=出门)=\frac{4}{6}$

c. X_1天气不好的概率、
$p(X_1=不好)=\frac{2}{6}$

d. 在X_1天气不好的情况下，出门的概率:
$p(Y=出门|X_1=不好)=\frac{p(X_1=不好|Y=出门) \cdot p(Y=出门)}{p(X=不好)} \\ =\frac{\frac{1}{4} \cdot \frac{4}{6}}{\frac{2}{6}}=\frac{1}{2}$

f. 在X_1天气不好的情况下，不出门的概率:
$p(Y=出门|X_1=不好)=1-p(Y=不出门|X_1=不好)=1-\frac{1}{2}=\frac{1}{2}$

1.3.朴素贝叶斯(Naive Bayes)的应用

朴素贝叶斯算法假设所有特征的出现相互独立互不影响，每一特征同等重要，又因为其简单，而且具有很好的可解释性一般。相对于其他精心设计的更复杂的分类算法，朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。朴素贝叶斯算法一般应用在文本分类，垃圾邮件的分类，信用评估，钓鱼网站检测等。

sklearn库提供了三个朴素贝叶斯分类算法：

高斯朴素贝叶斯（GaussianNB）：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度；
类目朴素贝叶斯（CategoricalNB）：专用于离散数据集；
多项式朴素贝叶斯（MultinomialNB）：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在一个单词出现的次数，或者是单词的 TF-IDF 值等。不支持负数，所以输入变量特征的时候，别用StandardScaler进行标准化数据，可以使用MinMaxScaler进行归一化。多项式朴素贝叶斯是以单词为粒度，会计算在某个文件中的具体次数，适用于文本分类；
伯努利朴素贝叶斯（BernoulliNB）：不支持负数，所以输入变量特征的时候，别用StandardScaler进行标准化数据，可以使用MinMaxScaler进行归一化。伯努利朴素贝叶斯是以文件为粒度，如果该单词在某文件中出现了即为 1，否则为 0。常见于文本分类场景。

2. 算法实战——基于iris数据集的贝叶斯分类

# 导入高斯朴素贝叶斯分类器
from sklearn.naive_bayes import GaussianNB
# sklearn内置的dataset支持直接返回自变量与因变量
X, y = datasets.load_iris(return_X_y=True)
# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

我们需要计算两个概率分别是：条件概率： $P(X^{(i)}=x^{(i)}|Y=c_k)$ 和类目 $c_k$ 的先验概率： $P(Y=c_k)$ 。

通过分析发现训练数据是数值类型的数据，这里假设每个特征服从高斯分布（正态分布），因此我们选择高斯朴素贝叶斯来进行分类计算。

高斯朴素贝叶斯假设每个特征都服从高斯分布，我们把一个随机变量X服从数学期望为μ，方差为 $σ^2$ 的数据分布称为高斯分布。对于每个特征我们一般使用平均值来估计μ和使用所有特征的方差估计 $σ^2$ 。
$P(X^{(i)}=x^{(i)}|Y=c_k) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x^{(i)} - \mu_{c_k})^2}{2\sigma^2_{c_k}}\right)$

2.1. 模型训练与预测

# 使用高斯朴素贝叶斯进行计算
clf = GaussianNB(var_smoothing=1e-8) # var_smoothing进行拉普拉斯平滑，方便有效的避免零概率问题
clf.fit(X_train, y_train)

# 评估
y_pred = clf.predict(X_test)
acc = np.sum(y_test == y_pred) / X_test.shape[0]  # 分类正确的除以整体数量
print("Test Acc : %.3f" % acc)   # 0.967

# 预测
y_proba = clf.predict_proba(X_test[:1])
print(clf.predict(X_test[:1]))
print("预计的概率值:", y_proba) # 软分类模型，可输出各种类别的置信概率
# [1.63542393e-232 2.18880483e-006 9.99997811e-001]

从上述例子中的预测结果中，我们可以看到类别2对应的后验概率值最大，所以我们认为类目2是最优的结果。

3. 模拟离散数据集–贝叶斯分类

3.1. 创建模拟离散数据

# 使用基于类目特征的朴素贝叶斯
from sklearn.naive_bayes import CategoricalNB

# 模拟数据
rng = np.random.RandomState(1)
# 随机生成600个100维的数据，每一维的特征都是[0, 4]之前的整数
X = rng.randint(5, size=(600, 100))

y = np.array([1, 2, 3, 4, 5, 6] * 100)
data = np.c_[X, y]

# X和y进行整体打散
random.shuffle(data)
X = data[:,:-1]
y = data[:, -1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

至此，所有的数据特征都是离散特征，我们引入基于离散特征的朴素贝叶斯分类器。

3.2. 模型训练&预测

# 当 alpha=1 时，使用的是 Laplace 平滑; 当 0
clf = CategoricalNB(alpha=1)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print("Test Acc : %.3f" % acc) # 0.683

# 随机数据测试，分析预测结果，贝叶斯会选择概率最大的预测结果
x = rng.randint(5, size=(1, 100))
print(clf.predict_proba(x))
print(clf.predict(x))
# [3.48859652e-04, 4.34747491e-04, 2.23077189e-03, 9.90226387e-01, 5.98248900e-03, 7.76745425e-04]
# 可见第四个类别概率最大

这里的测试数据的准确率没有任何意义，因为数据是随机生成的，不一定具有贝叶斯先验性，这里只是作为一个列子

alpha=1这个参数表示什么？

我们知道贝叶斯法一定要计算两个概率：条件概率： $P(X^{(i)}=x^{(i)}|Y=c_k)$ 和类目 $c_k$ 的先验概率： $P(Y=c_k)$ 。

对于离散特征：

$P(X^{(j)}=x^{(j)}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^j=a_{jl},y_i=c_k)+\alpha}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\alpha}$

我们可以看出就是对每一个变量的多加了一个频数alpha。当alphaλ=0时，就是极大似然估计。通常取值alpha=1，这就是拉普拉斯平滑(Laplace smoothing)，这有叫做贝叶斯估计，主要是因为如果使用极大似然估计，如果某个特征值在训练数据中没有出现，这时候会出现概率为0的情况，导致整个估计都为0，因为引入贝叶斯估计。

其中：

$S_j$ ：表示第j个特征的个数。

$x_i^j$ ：表示第i个样本的第j维元素。

$y_i$ ：第i个样本的label。

4. 朴素贝叶斯在自然语言处理中的应用

4.1. TD-IDF

sklearn 中我们直接使用 TfidfVectorizer 类，它可以帮我们计算单词 TF-IDF 向量的值。

TfidfVectorizer(stop_words=stop_words, token_pattern=token_pattern)
# 停用词 stop_words 是一个列表 List 类型。停用词就是在分类中没有用的词，这些词一般词频 TF 高，但是 IDF 很低，起不到分类的作用
# 过滤规则 token_pattern 是正则表达式

4.2. 文本分类

4.2.1. 准备阶段

4.2.1.1. 文档分词

在英文文档中，最常用的是 NTLK 包。NTLK 包中包含了英文的停用词 stop words、分词和标注方法。

import nltk
word_list = nltk.word_tokenize(text) #分词
nltk.pos_tag(word_list) #标注单词的词性

在中文文档中，最常用的是 jieba 包，jieba 包中包含了中文的停用词 stop words 和分词方法。

import jieba
word_list = jieba.cut (text) #中文分词

4.2.1.2. 去停用词

加载停用词表我们需要自己读取停用词表文件

stop_words = [line.strip().decode('utf-8') for line in io.open('stop_words.txt').readlines()]

4.2.1.3. 单词权重计算

直接创建 TfidfVectorizer 类，然后使用 fit_transform 方法进行拟合，得到 TF-IDF 特征空间 features，可以理解为选出来的分词就是特征。

# max_df 参数用来描述单词在文档中的最高出现率，一般很少设置 min_df，因为 min_df 通常都会很小。
tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5)
features = tf.fit_transform(train_contents)

4.2.2. 分类阶段

4.2.2.1. 通过训练集得到朴素贝叶斯分类器

将特征训练集的特征空间 train_features，以及训练集对应的分类 train_labels 传递给贝叶斯分类器 clf，它会自动生成一个符合特征空间和对应分类的分类器。

其中，alpha 为平滑参数，因为如果一个单词在训练样本中没有出现，这个单词的概率就会被计算为 0。但训练集样本只是整体的抽样情况，我们不能因为一个事件没有观察到，就认为整个事件的概率为 0。

当 alpha=1 时，使用的是 Laplace 平滑。Laplace 平滑就是采用加 1 的方式，来统计没有出现过的单词的概率。这样当训练样本很大的时候，加 1 得到的概率变化可以忽略不计，也同时避免了零概率的问题。
当 0

# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)

4.2.2.2. 将分类器应用于测试集，并与实际结果做对比

首先我们需要得到测试集的特征矩阵，用训练集的分词创建一个 TfidfVectorizer 类，使用同样的 stop_words 和 max_df，然后用这个 TfidfVectorizer 类对测试集的内容进行 fit_transform 拟合，得到测试集的特征矩阵 test_features。

test_tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5, vocabulary=train_vocabulary)
test_features=test_tf.fit_transform(test_contents)

用训练好的分类器对新数据做预测。方法是使用 predict 函数，传入测试集的特征矩阵 test_features，得到分类结果 predicted_labels，predict 函数做的工作就是求解所有后验概率并找出最大的那个。

4.2.2.3. 最终得到测试集的分类准确率

算准确率实际上是对分类模型的评估。我们可以调用 sklearn 中的 metrics 包，在 metrics 中提供了 accuracy_score 函数

from sklearn import metrics
print metrics.accuracy_score(test_labels, predicted_labels)

关于自然语言处理、关于朴素贝叶斯模型其实还有很多打法，比如半朴素贝叶斯算法通过考虑部分关联性适度改进变量非独立分布的限制。这部分我也还在学习中，暂不做展开~

欢迎一起交流讨论~~

END :happy:

references：
阿里云天池龙珠计划-机器学习训练营
【白话机器学习】算法理论+实战之朴素贝叶斯

Python元组的遍历難釋懷 python 前端 linux
一、前言在Python中，元组（tuple）是一种非常基础且常用的数据结构，它与列表类似，都是有序的序列，但不同的是，元组是不可变的（immutable），一旦创建就不能修改。虽然元组不能被修改，但它支持高效的遍历操作，非常适合用于存储不会变化的数据集合。本文将系统性地介绍Python中元组的多种遍历方式，包括基本遍历、索引访问、元素解包、结合函数等，并结合大量代码示例帮助你掌握这一重要技能。二、
Python集合生成式
一、前言在Python中，我们已经熟悉了列表生成式（ListComprehension），它为我们提供了一种简洁高效的方式来创建列表。而除了列表之外，Python还支持一种类似的语法结构来创建集合——集合生成式（SetComprehension）。集合生成式不仅可以帮助我们快速构造一个无序且不重复的集合，还能有效提升代码的可读性和执行效率。本文将带你全面了解：✅什么是集合生成式✅集合生成式的语法结
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
python入门之字典二十四桥_ python入门 python
文章目录一、字典定义二、字典插入三、字典删除四、字典修改五、字典查找六、字典遍历七、字典拆包一、字典定义#{}键值对各个键值对之间用逗号隔开#1.有数据的字典dict1={'name':'zmz','age':20,'gender':'boy'}print(dict1)#2.创建空字典dict2={}print(dict2)dict3=dict()print(dict3)二、字典插入dict1={
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
操作系统必备定义2.2 勤勉螺丝钉学习
2.2CPU调度CPU调度：是对CPU进行分配，即从就绪队列中按照一定的算法（公平高效的原则）选择一个进程，并将CPU分配给它运行，以实现进程并发的执行。CPU调度是多道程序操作系统的基础，是操作系统设计的核心问题。调度的层次：①高级调度（作业调度了）：按照某种规则，从外存上处于后备队列中的作业中挑选一个（或多个），给他（们）分配内存、I/O设备等必要的资源，并建立相应的进程，使他们获得竞争CPU
数据结构学习之栈楼田莉子数据结构学习笔记算法数据结构 c语言
本篇博客我们将深入学习数据结构中栈与队列相关的内容作者的个人gitee：楼田莉子(riko-lou-tian)-Gitee.com目录概念栈的实现初始化销毁入栈判空出栈获取栈顶元素栈的有效元素个数源代码与栈相关的算法题（力扣）有效的括号编辑概念栈是一种特殊的线性表，只允许在固定的一端进行插入删除元素的操作。进行数据插入和删除操作的一端叫栈顶，另一端叫栈底。遵循“后进先出”的原则。下图就是对栈后进先
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
AI Agent开发第81课-企业AI落地15大陷阱与破局之道 TGITCIC AI Agent开发大全人工智能 AI落地企业AI落地大模型落地企业大模型落地
1.技术至上：忽视业务融合1.1业务需求驱动的本质AI项目的核心价值在于解决业务痛点，而非技术炫技。某银行通过成熟的人脸识别技术将坏账率降低15%，其成功源于对业务场景的精准把握。技术选择必须基于业务需求的优先级排序，而非单纯追求算法复杂度。当零售企业用AI优化供应链时，其目标是提升库存周转率0.5个百分点，而非发表顶会论文。1.2技术与业务的错位某科技公司投入千万研发智能客服系统，最终因响应准确
Kafka 核心原理篇：深入理解分布式消息系统的内核机制真实的菜 kafka 分布式 kafka linq
Kafka核心原理篇：深入理解分布式消息系统的内核机制文章目录Kafka核心原理篇：深入理解分布式消息系统的内核机制消息存储与持久化机制日志分段存储策略️**分段文件结构****索引机制详解**高效的磁盘读写与数据压缩算法**零拷贝技术（Zero-Copy）****数据压缩策略****页缓存优化**数据过期与清理策略⏰**基于时间的清理****基于大小的清理**️**日志压缩（LogCompact
大模型-FlashAttention 算法分析清风lsq 大模型推理算法算法大模型推理 LLM flashattention
一、FlashAttention的概述FlashAttention是一种IO感知精确注意力算法。通过感知显存读取/写入，FlashAttention的运行速度比PyTorch标准Attention快了2-4倍，所需内存也仅是其5%-20%。随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
【pycharm专业版】【如何远程配置Python解释器】【SSH】资源存储库 python pycharm
Wejustlookedatconfiguringalocalinterpreter.Butwedon’talwayshavea“local”environment.Sometimes–andincreasinglyoften–ourenvironmentisoverthere.我们刚刚看了配置本地解释器。但我们并不总是有一个“本地”的环境。有时候–而且越来越多的时候–我们的环境就在那里。Let’
python线程同步锁_python的Lock锁，线程同步 weixin_39649660 python线程同步锁
一、Lock锁凡是存在共享资源争抢的地方都可以使用锁，从而保证只有一个使用者可以完全使用这个资源一旦线程获得锁，其他试图获取锁的线程将被阻塞acquire(blocking=True,timeout=-1):默认阻塞，阻塞可以设置超时时间，非阻塞时，timeout禁止设置，成功获取锁，返回True，否则返回Falsereleas():释放锁，可以从任何线程调用释放，已上锁的锁，会被重置为unloc
并发与并行：python多线程详解 m_merlon python 服务器 Python进阶教程 python
简介多进程和多线程都可以执行多个任务，线程是进程的一部分。线程的特点是线程之间可以共享内存和变量，资源消耗少，缺点是线程之间的同步和加锁比较麻烦。在cpython中，截止到3.12为止依然存在全局解释器锁（GIL）,不能发挥多核的优势，因此python多线程更适合IO密集型任务并发提高效率，CPU密集型任务推荐使用多进程并行解决。注：此说法仅适用于python（如：c++的多线程可以利用到多核并行
python多线程：生产者与消费者，高级锁定Condition、queue队列使用案例与注意事项网小鱼的学习笔记 Python python java 大数据
高级锁定这是python中的另一种中锁定，就像是它的名字一样是可以有条件的condition，首先程序使用acquire进入锁定状态，如果需要符合一定的条件才处理数据，此时可以调用wait，让自己进入睡眠状态，程序设计时候需要用notify通知其他线程，然后放弃锁定release此时其他再等待的线程因为受到通知notify，这时候被激活了，就开始运作。生产者与消费者的设计程序用producer方法
python协程与异步并发，同步与阻塞，异步与非阻塞，Python异步IO、协程与同步原语介绍，协程的优势和劣势网小鱼的学习笔记 Python python 服务器开发语言
协程与异步软件系统的并发使用异步IO，无非是我们提的软件系统的并发，这个软件系统，可以是网络爬虫，也可以是web服务等并发的方式有多种，多线程，多进程，异步IO等多线程和多进程更多应用于CPU密集型的场景，比如科学计算的事件都消耗在CPU上面，利用多核CPU来分担计算任务多线程和多进程之间的场景切换和通讯代价很高，不适合IO密集型的场景，而异步IO就是非常适合IO密集型的场景，例如网络爬虫和web
使用Python和FFmpeg实现RGB到YUV444的转换追逐程序梦想者 ffmpeg python 开发语言
使用Python和FFmpeg实现RGB到YUV444的转换如果你需要将RGB图像转换为YUV444格式的图像，那么本文将为你提供一个简单且可靠的方法。我们将使用Python和FFmpeg来完成这个任务。首先，让我们了解一下什么是RGB和YUV。RGB表示红、绿、蓝三种颜色的组合，是最常见的图像格式之一。另一方面，YUV是一种亮度-色度编码，用于视频压缩和传输，它将图像分成明亮度（Y）和色度（U和
如何利用ssh使得pycharm连接服务器的docker容器内部环境 SoulMatter docker 容器运维 pycharm ssh
如题，想要配置服务器的python编译器环境，来查看容器内部环境安装的包的情况。首先，需要确定容器的状态，使用dockerps查看，只有ports那一栏有内容才证明容器暴露了端口出来。如果没有暴露，就需要将容器打包成镜像，然后将镜像再启动一个容器才可以。步骤如下：如何打包镜像：(里面包括了将镜像从A服务器远程传输到B服务器后使用的方法，如果是在本服务器自己使用，那么忽略远程传输的步骤）#创建一个基
python多线程高级锁知识：Semaphore信号量、Barrier栅栏在线程中的使用、高级event事件网小鱼的学习笔记 Python python 开发语言
Semaphore信号量Semaphore信号量可以翻译为信号量，这个信号量代表了最多允许线程访问的数量，可以使用Semaphore(n)设定，n是信号数量，这是一个更高级的锁机制，Semaphore管理一个计数器，每次使用acquire计数器将会减一，表示可以允许线程访问的数量少了一个，使用release计数器加1，表示可允许线程访问的数量多了一个，只有占用信号量的线程数量超过信号量时候才会阻塞
python:assert和raise区别 Covirtue python
assert和raise是在错误处理方面的两个不同的用法。assert是一种断言语句，用于在代码中检查一个条件是否为True。如果条件为False，它会引发一个AssertionError异常。assert主要用于调试目的，以确保代码的正确性。当代码被优化时，assert语句可能会被自动忽略。例如：```pythonx=5assertx>0,"x必须大于0"```如果x不大于0，将引发Assert
Python读取红外图像 - 实现红外图像的读取和处理程序员杨弋 Python全栈工程师学习指南 python 计算机视觉 opencv
在许多工业、安防等领域中，红外图像无疑是一种不可或缺的重要资源，因此，能够快速、准确地读取和处理红外图像，对于工程师和科学家来说非常必要。Python作为一种强大的编程语言，提供了丰富的图像处理库，允许我们轻松地读取和处理红外图像，本文将介绍如何使用Python读取红外图像，并对其进行简单的处理。首先需要准备一个目标红外图像文件，这里我们以bmp格式的文件为例：importcv2img=cv2.i
python raise和assert的区别 40kuai
python中raise和assert的区别一、使用raise抛出异常python可以自动触发异常，raise（内置函数）的定义为显示的抛出异常，用户可以使用raise进行判断，显式的引发异常，raise执行后程序将不再向下执行。式例：#!/usr/bin/envpython#-*-coding:utf-8-*-__author__='40kuai'books_dict={'name':'pyth
python解析风云4B生成真彩云图小天丶1 气象数据处理 python 开发语言
文章目录概要话不多数开整小结概要真彩色云图需要根据通道Channel01,通道Channel02,通道Channel03进行通道融合处理,大致思路:三个通道对于RGB三个颜色管道，然后合并成一个三通道图像,其余云图在历史文档里有python解析风云4B,生成红外云图、可见光云图、水汽云图https://blog.csdn.net/qq_38197010/article/details/146549
java运行python脚本同时实现传参响应接收小天丶1 java python java 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、java部分示例二、python代码示例前言提示：这里可以添加本文要记录的大概内容：主要帮助从事java开发却涉及一些计算操作的时候发现没有python库更高效的解决方式提示：以下是本篇文章正文内容，下面案例可供参考一、java部分示例//调用Python脚本//pythonl路径pythonl路径Stringpyth
2025华为od机试真题B卷【停车场费用统计】Python实现 MISAYAONE OD机试华为od python 开发语言华为od机试 2025B卷
目录题目思路Code题目停车场统计当日总收费，包月的车不统计，不包月的车半个小时收一块钱，不满半小时不收钱，如果超过半小时，零头不满半小时按半小时算，每天11:30-13:30时间段不收钱，如果一辆车停车时间超过8小时后不收费。现提供停车场进出车辆的统计信息，需要你来计算停车场统计当日的总收费。输入描述第一行输入一个整数n表示今日进出停车场的包月的车辆数下一个行输入包月车的车牌号，以空格分割接下来
基于大模型的胆囊结石全流程预测与诊疗系统技术方案
目录一、系统架构设计1.1数据采集与预处理模块1.2大模型核心算法模块二、全流程系统流程图三、系统集成方案3.1模块交互流程3.2数据流示意图四、系统部署拓扑图五、核心模块实现细节5.1术前风险预测算法5.2术中监测算法5.3术后并发症预测模型六、关键技术验证方案6.1模型验证流程6.2临床试验设计框架七、典型应用场景流程7.1腹腔镜手术决策流程一、系统架构设计1.1数据采集与预处理模块#数据采集
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不