木桷

朴素贝叶斯算法（Naive Bayes）

时间：2022/5/11

文章目录

朴素贝叶斯算法（Naive Bayes）
- 0.数据集分析
- 1.算法介绍
- - 1.1朴素贝叶斯
  - 1.2拉普拉斯平滑（ Laplacian smooth）
  - 1.3数值属性的计算
- 2.算法流程
- 3.算法实现完整代码

0.数据集分析

数值属性数据集依旧是采用鸢尾花iris数据集这里就不过多介绍，标称属性数据集采用weather.arff数据集。这个数据集如下，有五个属性组成，决策属性为最后一个是否出去玩。这个数据集全部由标称属性组成，且数据集大小较小，非常适合入门学习。

@relation weather.symbolic

@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,hot,high,FALSE,no
sunny,hot,high,TRUE,no
overcast,hot,high,FALSE,yes
rainy,mild,high,FALSE,yes
rainy,cool,normal,FALSE,yes
rainy,cool,normal,TRUE,no
overcast,cool,normal,TRUE,yes
sunny,mild,high,FALSE,no
sunny,cool,normal,FALSE,yes
rainy,mild,normal,FALSE,yes
sunny,mild,normal,TRUE,yes
overcast,mild,high,TRUE,yes
overcast,hot,normal,FALSE,yes
rainy,mild,high,TRUE,no

1.算法介绍

1.1朴素贝叶斯

朴素贝叶斯算法是基于贝叶斯定理进行预测分类的一种算法，贝叶斯定理如下：
$P(H|X)={P(X|H)P(H)\over P(X)} \tag{1}$
其中X是n个属性集的测量值，而H为某种假设。P（H|X）是后验概率(posterior probability)，或者说条件X下，H的后验概率,以weather数据集举例，后验概率为晴天出去玩的概率P(yes | sunny)。而P(H)为先验概率（prior probability），比如出去玩的概率P(yes)。先验概率考虑的因素要更少，或者说后验概率比先验概率基于更多的信息。先验概率P(H)独立于X。
那朴素贝叶斯算法如何利用贝叶斯定理进行预测分类呢？
从贝叶斯定理可得，令X=x₁∧x₂∧⋯∧x_m 表示一个条件的组合，outlook=sunny ∧ temperature=hot ∧ humidity=high^windy=false，对应一条数据。则D_i为是否出去玩的假设，i有两种即yes/no。则由（1）式可得：
$P(D_i|X)={P(X|D_i)P(D_i) \over P(X)} \tag{2}$
从已知数据X可计算两种假设的概率，概率最大的发生的可能性就越大，我们则认为该假设为事件的最大后验假设。由于P(X)对于所有的假设而言都是个常数，所以只需要计算 $P(X|D_i)P(D_i)$ 最大值即可。如果先验概率 $P(D_i)$ 是未知的，则假定所有的假设都是等概率的，以此最大化 $P（X|D_i）$ 。
为了减少 $P(X|D_i)$ 的计算开销，朴素贝叶斯算法做出类条件独立性的朴素假定。认为所有属性之间均相互独立。因此：
$P(X|D_i)=\prod_{j=1}^m {P(X_k|D_i)}=P(X_1|D_i)P(X_2|D_i)\ldots P(X_k|D_i) \tag{3}$
则（2）式变为：
$P(D_i|X)={P(D_i)\prod_{j=1}^m {P(X_k|D_i)} \over P(X)}\tag{4}$
使用对数将连乘转化成连加，得到最后的预测函数：
$D(X)=arg\,\max_{1\le i \le k}P(D_i|X)=arg\,\max_{1\le i \le k}P(D_i)\prod_{j=1}^m {P(X_k|D_i)}=arg\,\max_{1\le i \le k}(logP(D_i)+\sum_{j=1}^m{logP(X_i|D_i)})\tag{5}$

1.2拉普拉斯平滑（ Laplacian smooth）

在计算（3）式时如果出现一个属性的概率为0时则整个结果都为0了，这样计算便出问题了。为了避免这种0概率情况，法国数学家拉普拉斯便提出了一种平滑方法——拉普拉斯平滑。具体公式如下
$P^L(x_j|D_i)={{nP(X_jD_i)+1}\over {nP(D_i)+v_j}}\tag{6}$
其中n是对象的数量， $v_j$ 是属性的可能取值数。这样通过分子的加一，便解决的数据的0概率情况。

1.3数值属性的计算

对于数值型数据，不能使用P（humidity=87），因为湿度恰好等于87的概率过小，小概率事件在大量随机测试中发生概率趋近于0。但P（80 首先根据数据及分布假设，求得概率密度函数p(humidity=87)。然后直接使用p代替(5)式中的P。通常概率分布可以选择高斯分布，其概率密度函数如下：
$p(x)={1\over \sqrt{2\pi}\sigma}exp(-{(s-\mu)^2\over 2\sigma^2})\tag{7}$
代入（5）式得
$D(X)=arg\,\max_{1\le i \le k}(logP(D_i)+\sum_{j=1}^m{-log\sigma_{ij}-{(x_j-\mu _{ij}^2)\over 2\sigma_{ij}^2}})\tag{8}$

2.算法流程

模型构建

读入数据
计算决策属性的概率分布 $P(D_i)$ ，同时计算经过拉普拉斯平滑后的概率 $P^L(D_i)$
计算条件属性经过拉普拉斯平滑后的条件概率 $P^L(X_i|D_i)$
通过前两步已经形成模型，则可以用于预测数据。
预测数据
读入一条数据；
根据数据对应的每个属性的取值，选取 $P^L(X_i|D_i)$
根据公式计算 $P(D_i|X)$
选择概率最大的作为最大后验假设。则返回该假设作为预测标签

3.算法实现完整代码

/**
 * MyNaiveBayes.java
 *
 * @author zjy
 * @date 2022/5/10
 * @Description:
 * @version V1.0
 */
package swpu.zjy.ML.NB;

import weka.core.Instance;
import weka.core.Instances;

import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.Arrays;

public class MyNaiveBayes {

    /**
     * 内部类，用于存储高斯分布中的期望mu和方差sigma
     * 用以对数组型数据集进行Naive Bayes分类
     */
    private class GaussianParamters {
        double mu;
        double sigma;

        public GaussianParamters(double mu, double sigma) {
            this.mu = mu;
            this.sigma = sigma;
        }

        @Override
        public String toString() {
            return "GaussianParamters{" +
                    "mu=" + mu +
                    ", sigma=" + sigma +
                    '}';
        }
    }

    //标称属性
    public static final int NOMINAL = 0;
    //数值属性
    public static final int NUMERICAL = 1;
    //数据属性类别
    private int dataType = NOMINAL;


    //数据集实体
    Instances dataset;

    //决策属性取值个数
    int numClasses;

    //数据集数据个数
    int numInstances;

    //数据的条件属性个数
    int numConditions;

    //预测标签 length = numInstance
    int predicts[];

    //决策属性概率分布 length = numClasses
    double[] classDistribution;

    //决策属性经过拉普拉斯平滑后的概率分布 length = numClasses
    double[] classDistributionLaplacian;
    /**
     * 条件属性个数，用以计算P(xi|Di)
     * 第一维是决策属性 length = numClasses
     * 第二维是条件属性 length = numConditions
     * 第三维是条件属性取值出现次数 length = 该条件属性可取值个数
     */
    double[][][] conditionalCounts;
    /**
     * 条件属性经过拉普拉斯平滑后的概率，各维度长度同上
     * 第三维是条件属性取值出现的概率
     */
    double[][][] conditionalLaplacianOdds;
    /**
     * 存放高斯分布参数 用以预测数值型数据
     * 第一维是决策属性 length = numClasses
     * 第二维是条件属性 length = numConditions
     */
    GaussianParamters[][] gaussianParameters;

    /**
     * 构造方法，根据传入数据集文件路径，初始化数据集实体及相关参数
     *
     * @param dataSetFileName 数据集文件路径
     */
    public MyNaiveBayes(String dataSetFileName) {
        try {
            FileReader fileReader = new FileReader(dataSetFileName);
            dataset = new Instances(fileReader);
            fileReader.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        dataset.setClassIndex(dataset.numAttributes() - 1);
        //初始化数据集参数
        numClasses = dataset.numClasses();
        numConditions = dataset.numAttributes() - 1;
        numInstances = dataset.numInstances();
    }

    /**
     * 设置数据集数据类型
     *
     * @param dataType 数据类型
     */
    public void setDataType(int dataType) {
        this.dataType = dataType;
    }

    /**
     * 计算决策属性的概率分布和经过拉普拉斯平滑后的概率分布
     */
    public void calculateClassDistribution() {
        //step1.初始化向量
        classDistribution = new double[numClasses];
        classDistributionLaplacian = new double[numClasses];

        //step2.统计决策属性出现次数
        double[] tempCnt = new double[numClasses];
        int tempType;
        for (int i = 0; i < numInstances; i++) {
            tempType = (int) dataset.instance(i).classValue();
            tempCnt[tempType]++;
        }
        //step3.计算决策属性概率分布及拉普拉斯平滑后的概率
        for (int i = 0; i < numClasses; i++) {
            classDistribution[i] = tempCnt[i] / numInstances;
            classDistributionLaplacian[i] = (tempCnt[i] + 1) / (numInstances + numClasses);
        }

        System.out.println("Class distribution: " + Arrays.toString(classDistribution));
        System.out.println("Class distribution Laplacian: " + Arrays.toString(classDistributionLaplacian));

    }

    /**
     * 计算条件属性的概率分布即P(xi|Di)
     */
    public void calculateConditionalOdds() {
        //step1.初始化向量，最后一维暂留
        conditionalCounts = new double[numClasses][numConditions][];
        conditionalLaplacianOdds = new double[numClasses][numConditions][];

        //step2.根据每一个条件属性的取值个树初始最后一维
        int tempCnt;
        for (int i = 0; i < numClasses; i++) {
            for (int j = 0; j < numConditions; j++) {
                tempCnt = dataset.attribute(j).numValues();
                conditionalCounts[i][j] = new double[tempCnt];
                conditionalLaplacianOdds[i][j] = new double[tempCnt];
            }
        }

        //step3.统计训练集中的条件属性对应取值出现次数
        int[] tempClassCount = new int[numClasses];
        int tempClass, tempValue;
        for (int i = 0; i < numInstances; i++) {
            tempClass = (int) dataset.instance(i).classValue();
            tempClassCount[tempClass]++;
            for (int j = 0; j < numConditions; j++) {
                tempValue = (int) dataset.instance(i).value(j);
                conditionalCounts[tempClass][j][tempValue]++;
            }
        }
        //step4.计算条件属性拉普拉斯平滑后的概率
        for (int i = 0; i < numClasses; i++) {
            for (int j = 0; j < numConditions; j++) {
                int tempNumvalue = dataset.attribute(j).numValues();
                for (int k = 0; k < tempNumvalue; k++) {
                    conditionalLaplacianOdds[i][j][k] = (conditionalCounts[i][j][k] + 1) / (tempClassCount[i] + tempNumvalue);
                }
            }
        }
        System.out.println("Conditional probabilities: " + Arrays.deepToString(conditionalCounts));
    }

    /**
     * 计算数值型数据的高斯分布参数mu与sigma
     */
    public void calculateGausssianParameters() {
        gaussianParameters = new GaussianParamters[numClasses][numConditions];

        double[] tempValuesArray = new double[numInstances];
        int tempNumValues = 0;
        double tempSum = 0;

        for (int i = 0; i < numClasses; i++) {
            for (int j = 0; j < numConditions; j++) {
                tempSum = 0;

                //求和+统计个数
                tempNumValues = 0;
                for (int k = 0; k < numInstances; k++) {
                    if ((int) dataset.instance(k).classValue() != i) {
                        continue;
                    }

                    tempValuesArray[tempNumValues] = dataset.instance(k).value(j);
                    tempSum += tempValuesArray[tempNumValues];
                    tempNumValues++;
                }
                //求期望
                double tempMu = tempSum / tempNumValues;
                //求方差
                double tempSigma = 0;
                for (int k = 0; k < tempNumValues; k++) {
                    tempSigma += (tempValuesArray[k] - tempMu) * (tempValuesArray[k] - tempMu);
                }
                tempSigma /= tempNumValues;
                tempSigma = Math.sqrt(tempSigma);
                gaussianParameters[i][j] = new GaussianParamters(tempMu, tempSigma);
            }
        }
        System.out.println(Arrays.deepToString(gaussianParameters));
    }

    /**
     * 对标称属性的数据进行分类
     *
     * @param instance 数据元组
     * @return 预测标签
     */
    public int classifyNominal(Instance instance) {
        //记录最大概率
        double tempMaxOdds = -Double.MAX_VALUE;
        //记录标签
        int classIndex = 0;
        for (int i = 0; i < numClasses; i++) {
            //Pl(Di)
            double tempClassfiyOdds = Math.log(classDistributionLaplacian[i]);
            for (int j = 0; j < numConditions; j++) {
                int tempConditionValue = (int) instance.value(j);
                //sum(Pl(xi|Di))
                tempClassfiyOdds += Math.log(conditionalLaplacianOdds[i][j][tempConditionValue]);
            }
            if (tempClassfiyOdds > tempMaxOdds) {

                tempMaxOdds = tempClassfiyOdds;
                classIndex = i;
            }
        }
        return classIndex;
    }

    /**
     * 对数值属性数据进行分类，原理同标称属性分类一致，差别在于使用概率密度p代替概率P
     *
     * @param instance 数据元组
     * @return 预测标签
     */
    public int classifyNumerical(Instance instance) {
        // Find the biggest one
        double tempBiggest = -10000;
        int resultBestIndex = 0;

        for (int i = 0; i < numClasses; i++) {
            double tempClassProbabilityLaplacian = Math.log(classDistributionLaplacian[i]);
            double tempPseudoProbability = tempClassProbabilityLaplacian;

            //计算概率
            for (int j = 0; j < numConditions; j++) {
                double tempAttributeValue = instance.value(j);
                double tempSigma = gaussianParameters[i][j].sigma;
                double tempMu = gaussianParameters[i][j].mu;

                tempPseudoProbability += -Math.log(tempSigma) - (tempAttributeValue - tempMu)
                        * (tempAttributeValue - tempMu) / (2 * tempSigma * tempSigma);
            }

            if (tempBiggest < tempPseudoProbability) {
                tempBiggest = tempPseudoProbability;
                resultBestIndex = i;
            }
        }

        return resultBestIndex;
    }

    /**
     * 对一个数据进行分类，根据数据类型选择不同方法
     *
     * @param paraInstance 待预测的数据元组
     * @return 预测标签
     */
    public int classify(Instance paraInstance) {
        if (dataType == NOMINAL) {
            return classifyNominal(paraInstance);
        } else if (dataType == NUMERICAL) {
            return classifyNumerical(paraInstance);
        }

        return -1;
    }

    /**
     * 对数据集所有数据进行分类
     */
    public void classify() {
        predicts = new int[numInstances];
        for (int i = 0; i < numInstances; i++) {
            predicts[i] = classify(dataset.instance(i));
        }
    }

    /**
     * 统计准确率
     *
     * @return 准确率
     */
    public double computeAccuracy() {
        double tempCorrect = 0;
        for (int i = 0; i < numInstances; i++) {
            if (predicts[i] == (int) dataset.instance(i).classValue()) {
                tempCorrect++;
            }
        }
        double resultAccuracy = tempCorrect / numInstances;
        return resultAccuracy;
    }

    /**
     * 标称属性数据分类测试
     */
    public static void testNominal() {
        System.out.println("Hello, Naive Bayes. I only want to test the nominal data.");
        String tempFilename = "E:\\DataSet\\weather.arff";

        MyNaiveBayes tempLearner = new MyNaiveBayes(tempFilename);
        tempLearner.setDataType(NOMINAL);
        tempLearner.calculateClassDistribution();
        tempLearner.calculateConditionalOdds();
        tempLearner.classify();

        System.out.println("The accuracy is: " + tempLearner.computeAccuracy());
    }

    /**
     * 数值属性数据分类测试
     */
    public static void testNumerical() {
        System.out.println(
                "Hello, Naive Bayes. I only want to test the numerical data with Gaussian assumption.");

        String tempFilename = "E:\\JAVA项目\\mytest\\src\\main\\java\\swpu\\zjy\\ML\\DataSet\\iris.arff";

        MyNaiveBayes tempLearner = new MyNaiveBayes(tempFilename);
        tempLearner.setDataType(NUMERICAL);
        tempLearner.calculateClassDistribution();
        tempLearner.calculateGausssianParameters();
        tempLearner.classify();

        System.out.println("The accuracy is: " + tempLearner.computeAccuracy());
    }

    public static void main(String[] args) {
//        testNominal();

        testNumerical();

    }


}

Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

朴素贝叶斯算法（Naive Bayes）

朴素贝叶斯算法（Naive Bayes）

文章目录

0.数据集分析

1.算法介绍

1.1朴素贝叶斯

1.2拉普拉斯平滑（ Laplacian smooth）

1.3数值属性的计算

2.算法流程

3.算法实现完整代码

你可能感兴趣的:(机器学习,概率论,数据挖掘)