铖铖的花嫁

机器学习之朴素贝叶斯分类器原理详解、公式推导（手推）、面试问题、简单实例（python实现，sklearn调包）

1. 朴素贝叶斯原理

1.1. 特性

朴素贝叶斯是一种有监督学习算法，这种算法基于贝叶斯的一个朴素的假设——每对特征和样本数据都是独立同分布的。最终可以推出朴素贝叶斯分类器的判定准则：

$h_{nb}(x)=\mathop{arg\ max}\limits_{c\in \varUpsilon}\ P(c) \prod_{i=1}^dP(x_i\ | \ c)$

我们之前说朴素贝叶斯是一系列算法，这是因为基于不同的条件独立性假设，朴素贝叶斯的分类器会有所不同。

虽然朴素贝叶斯看起来很简单（实际上推起来也很简单），但是它们在现实中的运用还是很不错的，主要是它们仅仅只需要少量训练数据就能估计几个必要的参数，这非常重要。

下面说一下朴素贝叶斯的优缺点：

优点：

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。
对缺失数据不太敏感，算法也比较简单，常用于文本分类。
快。和SVM等复杂的方法相比，朴素贝叶斯分类器可以非常快，因为类条件特征分布的独立性意味着每个分布可以独立估计为一维分布，这有助于缓解维度数量过大带来的问题。

缺点：

理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。所以在使用sklearn等包的时候，predict_proba仅仅做参考就好了，一般都不太靠谱。
由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。
对输入数据的表达形式很敏感。

1.2. 思路

贝叶斯的主要思路就是数数，统计每个条件组合下各种结果的概率，并根据这个概率做出分类。

但是，单纯的贝叶斯在计算机计算的时候会出现计算规模过大的情况，这里就需要引入朴素条件，化简式子。

最终结果就是在计算时我们只需要统计单个条件下的结果，并据此计算得结果就好了，区别于先自由组合条件在统计结果。

2. 公式推导

朴素贝叶斯分类器的推导离不开概率论，这边顺便复习下概率论最基础的知识：

已知有一种疾病，在城市中的患病率为1%，在检查时有银兴阳性两种结果，在检查结果为阴性时有10%概率患病，在检查结果为阳性时有90%概率患病。

城市中有10000个人参与检查。

我们将这个问题带入到 0-1 评分下的脱单数据集中：

不难发现，直接使用贝叶斯公式时，我们遇到了麻烦。我们判断交往（R）的特征有5个，在计算时条件的结果有 $2^5$ 种组合方式。如果我们有50个特征，那需要计算 $2^{50}$ 种特征组合；如果特征还不是 0-1 变量，而是另一个脱单数据集那样的 0-10 评分数据，则需要计算 $11^{50}$ 种特征组合！甚至在连续数据下，这种方法是不可用的。

这个时候就体现出朴素贝叶斯下那个朴素的假设效果不朴素了。在此假设下，问题转化为：

需要注意的是，朴素贝叶斯在加入朴素条件后变换式子还能提高算法的可靠性。在样本量不够大的时候很可能出现 $P(\ A_0\ B_0\ C_0\ D_0\ E_0\ |\ R_1)$ 为 0 和 $P(\ A_0\ B_0\ C_0\ D_0\ E_0)$ 为 0 的情况，毕竟总有一类人的条件在相亲市场中不受欢迎，但是因为这是在小样本数据中的结果，并不能真实代表这个概率，直接判定 0 显然不可靠。
在朴素贝叶斯公式中， $P(\ A_0\ |\ R_1)$ 等条件累乘的结果显然大于等于 $P(\ A_0\ B_0\ C_0\ D_0\ E_0\ |\ R_1)$ ，这意味着变换后更不容易为0。
换一种说法， $P(\ A_0\ |\ R_1)$ 每个条件相较于 $P(\ A_0\ B_0\ C_0\ D_0\ E_0\ |\ R_1)$ 的可能性是更高的，他们每个不等于0的概率都比 $P(\ A_0\ B_0\ C_0\ D_0\ E_0\ |\ R_1)$ 大。
因此，在变换后，朴素贝叶斯公式更加稳定，在小样本数据中发挥更好。

为了模拟计算过程，我们回到 0-1 脱单数据集中：

然后对照着计算。

我们之前提过一嘴，这样的方法只是最简单的数量统计，面对连续型数据时，简单的数量统计势必会使算法陷入维度灾难中，此外简单的统计数量也不能体现样本数据的连续性。因此，我们需要一种方法处理连续型数据，当然如果这种方法对连续型数据有效，那对离散型数据也同样适用。

3. 简单实例

3.1. 数据集

脱单数据集2.0

我们这里根据身边朋友的相亲意向对如下脱单样本打标签，完成如下交往意向数据集。我们将这个数据集称为脱单数据集2.0。

样本	颜值（A）	身材（B）	性格（C）	收入（D）	学历（E）	交往（R）
1	6	4	7	7	8	1
2	10	10	2	4	2	0
3	7	9	6	8	6	1
4	8	2	10	2	6	0
5	6	6	1	9	4	0
6	3	9	5	7	6	0
7	9	7	3	4	4	0
8	8	5	6	7	6	1
9	4	1	6	8	10	0
10	6	6	7	6	7	1
11	7	4	9	5	2	0
12	1	5	9	10	6	0
13	6	7	7	5	8	1
14	6	5	6	8	6	1
15	8	7	7	6	10	1

lovedata_2.csv

颜值（A）,身材（B）,性格（C）,收入（D）,学历（E）,交往（R）
6,4,7,7,8,1
10,10,2,4,2,0
7,9,6,8,6,1
8,2,10,2,6,0
6,6,1,9,4,0
3,9,5,7,6,0
9,7,3,4,4,0
8,5,6,7,6,1
4,1,6,8,10,0
6,6,7,6,7,1
7,4,9,5,2,0
1,5,9,10,6,0
6,7,7,5,8,1
6,5,6,8,6,1
8,7,7,6,10,1

脱单数据集1.0

楼上的数据集不是0-1数据，不太适合说明问题，我们这里退化下交往意向数据集，将1-5的评分标记为0，6-10的评分标记为1，完成0-1交往意向数据集。暂时忽略重复数据，毕竟现实中也可能出现样本特性一样的情况。我们将这个数据集称为脱单数据集1.0。

样本	颜值（A）	身材（B）	性格（C）	收入（D）	学历（E）	交往（R）
1	1	0	1	1	1	1
2	1	1	0	0	0	0
3	1	1	1	1	1	1
4	1	0	1	0	1	0
5	1	1	0	1	0	0
6	0	1	0	1	1	0
7	1	1	0	0	0	0
8	1	0	1	1	1	1
9	0	0	1	1	1	0
10	1	1	1	1	1	1
11	1	0	1	0	0	0
12	0	0	1	1	1	0
13	1	1	1	0	1	1
14	1	0	1	1	1	1
15	1	1	1	1	1	1

lovedata_1.csv

颜值（A）,身材（B）,性格（C）,收入（D）,学历（E）,交往（R）
1,0,1,1,1,1
1,1,0,0,0,0
1,1,1,1,1,1
1,0,1,0,1,0
1,1,0,1,0,0
0,1,0,1,1,0
1,1,0,0,0,0
1,0,1,1,1,1
0,0,1,1,1,0
1,1,1,1,1,1
1,0,1,0,0,0
0,0,1,1,1,0
1,1,1,0,1,1
1,0,1,1,1,1
1,1,1,1,1,1

西瓜数据集

参考西瓜书上的数据，转化为整型变量。

watermelon.csv

编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1,0,0,0,0,0,0,0.697,0.46,1
2,1,0,1,0,0,0,0.774,0.376,1
3,1,0,0,0,0,0,0.634,0.264,1
4,0,0,1,0,0,0,0.608,0.318,1
5,2,0,0,0,0,0,0.556,0.215,1
6,0,1,0,0,1,1,0.403,0.237,1
7,1,1,0,1,1,1,0.481,0.149,1
8,1,1,0,0,1,0,0.437,0.211,1
9,1,1,1,1,1,0,0.666,0.091,0
10,0,2,2,0,2,1,0.243,0.267,0
11,2,2,2,2,2,0,0.245,0.057,0
12,2,0,0,2,2,1,0.343,0.099,0
13,0,1,0,1,0,0,0.639,0.161,0
14,2,1,1,1,0,0,0.657,0.198,0
15,1,1,0,0,1,1,0.36,0.37,0
16,2,0,0,2,2,0,0.593,0.042,0
17,0,0,1,1,1,0,0.719,0.103,0

3.2. python实现

def love1(filename, coiled=False):
    # 计算p(a|b)
    def calculate_frq_ab(data, label, coiled):
        # 存储各个label对应的概率
        label_p = {}
        # unique就series能用
        for label_value in label.unique():
            # 存储这个label值下，这个特征值组合的概率
            feature_p = {}
            # 筛选label后的数据
            data_filter = data.loc[label[label == label_value].index.values]
            # 每个feature一个个数过去
            for feature in data_filter.columns:
                feature_p[feature] = data_filter.value_counts(feature) / data_filter.shape[0]
            label_p[label_value] = feature_p
        return label_p
        # label = {
        #    label_value1: {feature1: df, feature2: df},
        #    label_value2: {feature1: df, feature2: df},
        # }


    # 计算p(a),p(b)
    def calculate_frq_a_b(data, label, coiled):
        p = {}
        p[label.name] = label.value_counts() / label.shape[0]
        for feature in data.columns:
            p[feature] = data.value_counts(feature) / data.shape[0]
        return p

    # 分类器,a为条件，b为label
    def clf(data, label, p_ab, p_a_b):
        # label = label.unique()
        ret = []
        for sample in data.T.iteritems():
            r = []
            for label_i in label:
                p_b_i = p_a_b[label.name][label_i]
                p_a_i = 1
                p_ab_i = 1
                for index, feature_name in enumerate(data.columns):
                    try:
                        p_a_i *= p_a_b[feature_name][sample[1][index]]
                        p_ab_i *= p_ab[label_i][feature_name][sample[1][index]]
                    except KeyError as e:
                        # 出现概率为0的情况
                        p_a_i = 0
                        p_ab_i = 1
                        break
                r.append(p_b_i * p_a_i)
                # / p_ab_i
            r = label[r.index(max(r))]
            ret.append(r)
        return ret

    data_train, data_test, label_train, label_test = get_data(filename)
    p_ab = calculate_frq_ab(data_train, label_train, coiled)
    p_a_b = calculate_frq_a_b(data_train, label_train, coiled)
    print("训练准确率为：")
    eveluate(clf(data_train, label_train, p_ab, p_a_b), label_train)
    print("测试准确率为：")
    eveluate(clf(data_test, label_train, p_ab, p_a_b), label_test)

3.3. sklearn实现

# 高斯朴素贝叶斯
def sk(files):
    while 1:
        for index, name in enumerate(files):
            print(index, ". ", name)
        print(len(files), ". 退出")
        try:
            choice = int(input())
            file = files[choice]
        except:
            return 0
        data_train, data_test, label_train, label_test = get_data(file)
        clf = GaussianNB()
        clf = clf.fit(data_train, label_train)
        predict = clf.predict(data_test)
        eveluate(predict, label_test)

3.4. 实验结果

一、脱单数据集1.0

二、脱单数据集2.0

三、西瓜数据集

四、sklearn

4. 几个注意点(面试问题)

朴素贝叶斯有几个注意点，可能会在面试中被提到，还是比较能体现被面试者对这个算法的理解的。当然我们也不一定就是为了面试，搞清楚这些问题对帮助我们理解这个算法还是很有好处的。其中部分答案是博主自己的理解，如果有问题麻烦路过的大佬评论区指正。

证明：条件独立性假设不成立时，朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器。
**答：**这篇论文给出了详细的解答《On the Optimality of the Simple Bayesian Classifier under Zero-One Loss》，我们浅浅尝试复述下。
实践中使用 $h_{nb}(x)=\mathop{arg\ max}\limits_{c\in \varUpsilon}\ P(c) \prod_{i=1}^dP(x_i\ | \ c)$ 决定分类类别时，如果数据维度很高，则会导致 $\prod_{i=1}^dP(x_i\ | \ c)$ 的结果非常接近0，从而导致下溢。试述防止下溢的方法。
答：这个问题其实西瓜书第153页有提及，方法跟很多的数学式子的思路相似，对原式取对数，将连乘转化为连加。 $h_{nb}(x)=\mathop{arg\ max}\limits_{c\in \varUpsilon}\ P(c) \prod_{i=1}^dP(x_i\ | \ c)$ 因此转化为 $h_{nb}(x)=\mathop{arg\ max}\limits_{\theta}\ log(P(c)) + \sum_{i=1}^dlog(P(x_i\ | \ c))$ 。
证明：二分类任务种两类数据满足高斯分布且方差相同时，线性判别分析产生贝叶斯最优分类器。
答：转其他博主答案

5. 运行（可直接食用）

import random
from sklearn import preprocessing
import numpy as np
from sklearn.naive_bayes import GaussianNB
import pandas as pd


def get_data(filename, to_one=False, train_size=0.5):
    data = pd.read_csv(filename).sample(frac=1, random_state=1129)
    labels = data[data.columns[-1]]
    data_shuffled = data[data.columns[:-1]]
    if to_one:
        data_shuffled = pd.DataFrame(preprocessing.scale(data_shuffled), columns=data.columns[:-1])
    # 划分训练集测试集
    # 更喜欢pandas的计算，这里就任性点全变成dataframe的了
    data_train = data_shuffled.head(int(data_shuffled.shape[0] * train_size)).reset_index(drop=True)
    label_train = labels.head(int(data_shuffled.shape[0] * train_size)).reset_index(drop=True)
    # .reset_index(drop=True)可重置index
    data_test = data_shuffled.tail(int(data_shuffled.shape[0] * (1 - train_size))).reset_index(drop=True)
    label_test = labels.tail(int(data_shuffled.shape[0] * (1 - train_size))).reset_index(drop=True)
    return data_train, data_test, label_train, label_test


def eveluate(predict, result):
    result = result.tolist()
    correct = 0
    for index, i in enumerate(predict):
        correct += (i == result[index])
    print("准确率为：", correct / len(predict) * 100, "%")


# love1.0
def love1(filename, coiled=False):
    # 计算p(a|b)
    def calculate_frq_ab(data, label, coiled):
        # 存储各个label对应的概率
        label_p = {}
        # unique就series能用
        for label_value in label.unique():
            # 存储这个label值下，这个特征值组合的概率
            feature_p = {}
            # 筛选label后的数据
            data_filter = data.loc[label[label == label_value].index.values]
            # 每个feature一个个数过去
            for feature in data_filter.columns:
                feature_p[feature] = data_filter.value_counts(feature) / data_filter.shape[0]
            label_p[label_value] = feature_p
        return label_p
        # label = {
        #    label_value1: {feature1: df, feature2: df},
        #    label_value2: {feature1: df, feature2: df},
        # }


    # 计算p(a),p(b)
    def calculate_frq_a_b(data, label, coiled):
        p = {}
        p[label.name] = label.value_counts() / label.shape[0]
        for feature in data.columns:
            p[feature] = data.value_counts(feature) / data.shape[0]
        return p

    # 分类器,a为条件，b为label
    def clf(data, label, p_ab, p_a_b):
        # label = label.unique()
        ret = []
        for sample in data.T.iteritems():
            r = []
            for label_i in label:
                p_b_i = p_a_b[label.name][label_i]
                p_a_i = 1
                p_ab_i = 1
                for index, feature_name in enumerate(data.columns):
                    try:
                        p_a_i *= p_a_b[feature_name][sample[1][index]]
                        p_ab_i *= p_ab[label_i][feature_name][sample[1][index]]
                    except KeyError as e:
                        # 出现概率为0的情况
                        p_a_i = 0
                        p_ab_i = 1
                        break
                r.append(p_b_i * p_a_i)
                # / p_ab_i
            r = label[r.index(max(r))]
            ret.append(r)
        return ret

    data_train, data_test, label_train, label_test = get_data(filename)
    p_ab = calculate_frq_ab(data_train, label_train, coiled)
    p_a_b = calculate_frq_a_b(data_train, label_train, coiled)
    print("训练准确率为：")
    eveluate(clf(data_train, label_train, p_ab, p_a_b), label_train)
    print("测试准确率为：")
    eveluate(clf(data_test, label_train, p_ab, p_a_b), label_test)


# 高斯朴素贝叶斯
def sk(files):
    while 1:
        for index, name in enumerate(files):
            print(index, ". ", name)
        print(len(files), ". 退出")
        try:
            choice = int(input())
            file = files[choice]
        except:
            return 0
        data_train, data_test, label_train, label_test = get_data(file)
        clf = GaussianNB()
        clf = clf.fit(data_train, label_train)
        predict = clf.predict(data_test)
        eveluate(predict, label_test)


if __name__ == '__main__':
    random.seed(1129)

    choice = 0
    while choice != 5:
        # # 因为有个label载columns里，所以有data.columns-1个w，偏置b还有一列
        # w = np.random.rand(data_shuffled.shape[1]).reshape(-1, 1)
        print("1. 恋爱1.0数据集\n2. 恋爱2.0数据集\n3. 西瓜数据集（手写）\n4. sklearn高斯朴素贝叶斯\n5. 退出")
        try:
            choice = int(input())
        except:
            break
        if choice == 1:
            print("恋爱1.0数据集手写求解中...")
            love1("lovedata_1.csv")
        elif choice == 2:
            print("恋爱2.0数据集手写求解中...")
            love1("lovedata_2.csv")
        elif choice == 3:
            print("西瓜数据集求解中...")
            love1("watermelon.csv")
        elif choice == 4:
            print('西瓜数据集sklearn yyds')
            sk(["lovedata_1.csv", "lovedata_2.csv", "watermelon.csv"])
        else:
            print("退出成功")
            choice = 6
            break

参考：
吴恩达《机器学习》
sklearn官网

AES加密解密CBC模式与ECB模式_aes cbc加解密全栈_XzJ python 开发语言
一、概要AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于信息安全领域。AES支持多种密钥长度，包括128比特、192比特和256比特。在AES加密和解密中，同一个密钥用于两个过程。下面是一个简单的Python实例，演示如何使用AES加密和解密文本。这里使用的是Python标准库中的cryptography模块，确保你已经安装该模块：pipinstallc
在 Python 中执行 BASH 命令——在同一进程中潮易 python bash chrome
在Python中执行BASH命令——在同一进程中在Python中执行BASH命令，可以使用`os.system()`或`subprocess`模块。以下是两种方法的详细步骤：方法一：使用`os.system()````pythonimportos#执行一个bash命令，例如显示当前目录下的所有文件command="ls"output=os.system(command)print("Command
Python 爬虫实战：全球公司财报数据抓取与财务健康分析西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，数据已成为企业决策、投资分析和市场研究的关键要素。公司财报数据作为企业经营状况的重要反映，对于投资者、分析师以及企业管理者来说具有极高的价值。通过获取和分析全球公司的财报数据，我们可以深入了解企业的财务健康状况，为投资决策提供有力支持。本文将详细介绍如何使用Python爬虫技术抓取全球公司财报数据，并进行财务健康分析。二、爬虫环境搭建在开始爬取数据之前，我们需要先搭建好P
Linux的权限巷子里的童年ya linux 运维服务器 centos
基本权限与归属读取：允许查看内容-readr写入：允许修改内容-writew可执行：允许运行和切换-excutex1、对于文本文件：r读取权限：cat、less、grep、head、tailw写入权限：vim、>、>>x可执行权限：Shell与Python\Go2、对于目录：r读取权限：ls命令查看目录内容w写入权限：能够创建、删除、修改等目录的内容x执行权限：能够cd切换到此目录下（进入此目录）
Python 学习笔记1 - 认识Python Scora_liu Python 学习笔记 python
一、什么是Python1989年圣诞节期间，荷兰数学和计算机科学研究学会的GuidovanRossum（吉多.范罗苏姆）决心开发一个新的解释程序，作为ABC语言的替代品。这门ABC语言的替代语言被取名为Python,命名来自Guido爱看的的电视剧MontyPython'sFlyingCircus（蟒蛇马戏团）。二、什么是Python（⭐⭐）Python是一门解释型语言。计算机不能识别任何除了机器
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python如何实现粒子效果如烟雾、火焰、雨滴等. openwin_top python编程示例系列二 python 开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在Panda3D中实现粒子效果主要依赖于其内置的粒子系统。这个系统允许开发者创建各种动态的视觉效果，如烟雾、火焰、雨滴等。下面我将详细介绍如何在Panda3D中添加一个简单的粒子效果。步骤1:准备粒
Python中的机制：全局解释锁和回收机制林十一npc Python语言 python 开发语言
Python中的机制：全局解释锁和回收机制一、全局解释锁GIL1.基础原理全局解释锁：是CPython中引入的一种机制，确保同一时刻保持一个线程执行Python的字节码。锁的粒度：GIL是全局唯一的锁，线程在执行Pyhton代码前必须要获取GIL,执行完毕后进行释放。线程切换：CPython解释器通过固定间隔（如python字节码指令或遇到I/O操作），释放GIL,触发线程切换。底层实现GIL的实
大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署晴天彩虹雨 AI 大模型 ai 语言模型 gpt 人工智能
本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re
python实现简易任务管理器 Roc-xb python 服务器 linux
本章教程，主要利用python实现一个简单的任务管理器，可以快速结束任务进程。目录一、实例代码二、效果演示一、实例代码#!/usr/bin/python#-*-coding:UTF-8-*-"""@author:Roc-xb"""#encoding:utf-8importsubprocessdefexecute_cmd(command):subprocess.run('chcp65001',she
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

样本	颜值（A）	身材（B）	性格（C）	收入（D）	学历（E）	交往（R）
1	6	4	7	7	8	1
2	10	10	2	4	2	0
3	7	9	6	8	6	1
4	8	2	10	2	6	0
5	6	6	1	9	4	0
6	3	9	5	7	6	0
7	9	7	3	4	4	0
8	8	5	6	7	6	1
9	4	1	6	8	10	0
10	6	6	7	6	7	1
11	7	4	9	5	2	0
12	1	5	9	10	6	0
13	6	7	7	5	8	1
14	6	5	6	8	6	1
15	8	7	7	6	10	1

样本	颜值（A）	身材（B）	性格（C）	收入（D）	学历（E）	交往（R）
1	1	0	1	1	1	1
2	1	1	0	0	0	0
3	1	1	1	1	1	1
4	1	0	1	0	1	0
5	1	1	0	1	0	0
6	0	1	0	1	1	0
7	1	1	0	0	0	0
8	1	0	1	1	1	1
9	0	0	1	1	1	0
10	1	1	1	1	1	1
11	1	0	1	0	0	0
12	0	0	1	1	1	0
13	1	1	1	0	1	1
14	1	0	1	1	1	1
15	1	1	1	1	1	1

样本	颜值（A）	身材（B）	性格（C）	收入（D）	学历（E）	交往（R）
1	6	4	7	7	8	1
2	10	10	2	4	2	0
3	7	9	6	8	6	1
4	8	2	10	2	6	0
5	6	6	1	9	4	0
6	3	9	5	7	6	0
7	9	7	3	4	4	0
8	8	5	6	7	6	1
9	4	1	6	8	10	0
10	6	6	7	6	7	1
11	7	4	9	5	2	0
12	1	5	9	10	6	0
13	6	7	7	5	8	1
14	6	5	6	8	6	1
15	8	7	7	6	10	1

样本	颜值（A）	身材（B）	性格（C）	收入（D）	学历（E）	交往（R）
1	1	0	1	1	1	1
2	1	1	0	0	0	0
3	1	1	1	1	1	1
4	1	0	1	0	1	0
5	1	1	0	1	0	0
6	0	1	0	1	1	0
7	1	1	0	0	0	0
8	1	0	1	1	1	1
9	0	0	1	1	1	0
10	1	1	1	1	1	1
11	1	0	1	0	0	0
12	0	0	1	1	1	0
13	1	1	1	0	1	1
14	1	0	1	1	1	1
15	1	1	1	1	1	1