意念回复

朴素贝叶斯（Naive Bayes）

1 相关统计学概念

1.1 贝叶斯定理

1.2 条件独立

1.2.1 证明

1.2.2 示例

1.2.3 应用

1.3 先验概率与后验概率

1.4 先验概率（Prior probability）

1.5 条件概率（Conditional probability）

1.6 全概率公式

1.7 后验概率（Posterior probability）

2 朴素贝叶斯法的学习与分类

2.1 基本方法

2.2 后验概率最大化的含义

3 朴素贝叶斯的参数估计

3.1 极大似然估计

3.2 学习与分类算法

3.3 贝叶斯估计

3.4 当属性为连续型时

4 朴素贝叶斯算法分析

5 python实现

本文基于以下的例子：

在夏季，某公园男性穿凉鞋的概率为 1/2 ，女性穿凉鞋的概率为 2/3 ，并且该公园中男女比例通常为 2:1 ，问题：若你在公园中随机遇到一个穿凉鞋的人，请问他的性别为男性或女性的概率分别为多少？

1 相关统计学概念

1.1 贝叶斯定理

贝叶斯定理就是概率论中的条件概率，即P(B|A)=P(AB)/P(A) 变形可得

这就是著名的“贝叶斯定理”。

1.2 条件独立

给定第三个事件 X, Y, Z，如果，则称X和Y是条件独立事件，符号表示为。

若X，Y关于事件Z条件独立，则有以下一些理解：

（1）事件 Z 的发生，使本来可能不独立的事件A和事件B变得独立起来；

（2）事件Z 的出现或发生，解开了X 和 Y 的依赖关系。

若 X，Y关于事件Z条件独立，则P(X|Y,Z)=P(X|Z)

1.2.1 证明

若 X，Y关于事件Z条件独立，则P(X|Y,Z)=P(X|Z)

1.2.2 示例

给定三个事件X,Y,Z：

X：明天下雨；
Y：今天的地面是湿的；
Z：今天是否下雨；

Z事件的成立，对X和Y均有影响，然而，在Z事件成立的前提下，今天的地面情况对明天是否下雨没有影响。即，在已知Z的前提下，X和Y是相互独立的，即X和Y是条件独立的。

1.2.3 应用

图模型可视化地表示变量间地相互影响，并且它有一个优点：利用条件独立性可以将大量变量上的推断分解成一组涉及少量变量的局部计算。

在图模型中，条件独立有以下三种典型情况：

（1）头到尾连接

三个事件可以顺序连接，如。若给定Y，则X与Z是独立的：知道Y就知道Z的一切；知道X的状态并不能为Z增加附加知识，记作。一般说，Y阻塞(block) 了从X到Z的路径，换句话说，Y分开了X和Z，意指如果删掉Y，则就不存在X和Z之间的路径。在这种情况下，联合概率写作：

典型地，X是Y的原因，Y是Z的原因。

（2）尾到尾连接

X可能是两个节点Y和Z的父节点，联合密度可以写作：

通常，Y和Z是通过X依赖的，给定X，则它们变成独立的

当X的值已知时，它阻塞了Y和Z之间的路径，换言之，X分开了Y和Z。

（3）头到头连接

在头到头连接中，有两个父节点X和Y连接到单个节点Z，则联合密度记作：

X和Y是独立的：

当知道Z时，X和Y变成依赖的。这种情况与阻塞或分开的概念不同。当观察不到Z时，X和Y之间的路径被阻塞；当Z(或者它的任意后代)被观测到时，X和Y便不再是阻塞的、独立的。

1.3 先验概率与后验概率

https://www.cnblogs.com/yemanxiaozu/p/7680761.html

https://www.jianshu.com/p/f9d56aeab75e

https://www.cnblogs.com/eniac1946/p/8532753.html

事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。先验概率与后验概率有不可分割的联系，后验概率的计算要以先验概率为基础。

先验概率的计算比较简单，没有使用贝叶斯公式；而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。

1.4 先验概率（Prior probability）

先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式（后面会讲）。
我们使用以上例子来解释一下什么是先验概率。根据以上例子我们设定：假设某公园中一个人是男性为事件 Y=ymen，是女性则是 Y=ywomen ；一个人穿凉鞋为事件 X=x1 ，未穿凉鞋为事件 X=x0。而一个人的性别与是否穿凉鞋这两个事件之间是相互独立的。
于是我们可以看到该例子中存在四个先验概率：

P(X=x1)
P(X=x0)
P(Y=ymen)
P(Y=ywomen)

其中 P(Y=ymen)与P(Y=ywomen)可以根据例子中“该公园中男女比例通常为 2:1 ” 这一以往经验求得：P(Y=ymen)=2/3，以及 P(Y=ywomen)=1/3 。而先验概率 P(X=x1)与P(X=x0) 并不能直接得出，需要根据全概率公式来求解。在学习全概率公式之前，我们先了解一下条件概率。

1.5 条件概率（Conditional probability）

条件概率是指在事件 Y=y 已经发生的条件下，事件 X=x 发生的概率。条件概率可表示为： P(X=x|Y=y) 。而条件概率计算公式为：

P(X=x|Y=y) = P(X=x,Y=y) P(Y=y)

其中 P(X=x,Y=y) 是联合概率，也就是两个事件共同发生的概率。而 P(Y=y) 以及 P(X=x) 是先验概率。

我们用例子来说明一下就是： “某公园男性穿凉鞋的概率为 1/2 ”，也就是说“是男性的前提下，穿凉鞋的概率是 1/2 ”，此概率为条件概率，即 P(X=x1|Y=ymen) = 1/2 。同理 “女性穿凉鞋的概率为 2/3” 为条件概率 P(X=x1|Y=ywomen) = 2/3 。

1.6 全概率公式

全概率公式是指：如果事件 Y=y1,Y=y2,...,Y=yn 可构成一个完备事件组，即它们两两互不相容，其和为全集。则对于事件 X=x 有：

因此对于上面的例子，我们可以根据全概率公式求得：

也就是说不考虑性别的情况下，公园中穿脱鞋的概率为 5/9 ，不穿拖鞋的概率为 4/9 。

1.7 后验概率（Posterior probability）

后验概率是指，某事件 X=x 已经发生，那么该事件是因为事件 Y=y 的而发生的概率。也就是上例中所需要求解的“在知道一个人穿拖鞋的前提下，这个人是男性的概率或者是女性的概率是多少”。后验概率形式化便是：

P(Y=ymen|X=x1)。

后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式，用先验概率和似然函数计算出来。

贝叶斯公式如下：

其中为所求后验概率，为条件概率，为先验概率，为全概率公式。

而朴素贝叶斯算法正是利用以上信息求解后验概率，并依据后验概率的值来进行分类。

使用上面的例子来进行理解，后验概率为：

也就是说，在知道一个人穿拖鞋的前提下，这个人是男性的概率是 3/5 ，是女性的概率是 2/5 。如果问题是“判断该人是男性还是女性”，此问题就是一个分类问题。由于依据贝叶斯公式计算的后验概率是男性的概率大于是女性的概率，即由于，那么我们就可以将其分类为男性（实际在使用朴素贝叶斯进行分类时，不需要求解分母 P(X=x1)）。
到此，我们已经使用例子来讲解了使用朴素贝叶斯进行分类的基本步骤以及简单的原理了。接下来我们将对朴素贝叶斯的原理进行详细地探讨。

2 朴素贝叶斯法的学习与分类

2.1 基本方法

朴素贝叶斯法（Naive Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 x ，利用贝叶斯定理求出后验概率最大的输出 y 。朴素贝叶斯是基于概率论的分类算法。

（1）对于样本集：

其中 m 表示有 m 个样本， n 表示有 n 个特征。表示样本类别，取值为。

（2）先验概率：

（3）条件概率：

朴素贝叶斯法对条件概率分布作了条件独立性假设，因此：

（4）则后验概率为：

（5）将条件概率公式带入得：

上式为朴素贝叶斯分类的基本公式。

（6）于是，朴素贝叶斯分类器可表示为：

（7）由于分母对所有的 Ck 都是相同的，所以：

2.2 后验概率最大化的含义

3 朴素贝叶斯的参数估计

3.1 极大似然估计

似然与极大似然估计：https://blog.csdn.net/weixin_39910711/article/details/89647799

3.2 学习与分类算法

（摘自李航《统计学习方法》）

3.3 贝叶斯估计

3.4 当属性为连续型时

4 朴素贝叶斯算法分析

优点：
（1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
（2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。
（3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。
缺点：
（1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
（2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
（3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。
（4）对输入数据的表达形式很敏感。

5 python实现

# -*- coding: utf-8 -*-

import numpy as np
from sklearn.model_selection import train_test_split
from collections import Counter


class NavieBayes:

    def fit(self, feature, datatarget):
        data_num = np.shape(feature)[0]  # 样本数量
        datatarget = list(datatarget)  # 将标签列表化
        feature_num = np.shape(feature[0])[0]  # 特征数量
        target_label = list(set(datatarget))  # 类别种类
        target_dic = {}  # 标签种类及其概率
        total_dic = {}
        feature_label_type = []
        for i in range(feature_num):
            feature_label = np.unique(feature[:, i])
            feature_label_type.append(feature_label)  # 各个特征的可能的取值
        # print(feature_label_type)
        for each_target in target_label:
            feature_dic = []  # 各个特征的条件概率
            target_count = datatarget.count(each_target)
            tarfet_prob = (target_count + 1) / (data_num + len(target_label))
            # 返回每个标签对应的个数和概率，例如{'否': [4, 0.36363636363636365], '是': [7,
            # 0.6363636363636364]}
            target_dic[each_target] = [target_count, tarfet_prob]
            target_index = [i for i, x in enumerate(
                datatarget) if x == each_target]  # 计算target取值为“是”或者“否”时的索引
            feature_data = feature[target_index]
            # print(each_target)
            # print(feature_data)
            for i in range(feature_num):
                feature_each_label = feature_data[:, i]
                feature_each_count = Counter(feature_each_label)
                feature_each_keys = np.array(list(feature_each_count.keys()))
                for key in feature_each_count.keys():
                    feature_each_count[key] = (
                        feature_each_count[key] + 1) / (target_count + len(feature_label_type[i]))
                # 存在于feature_label_type[i]中，但不存在于feature_each_keys中的特征取值
                feature_diff = np.setdiff1d(
                    feature_label_type[i], feature_each_keys)
                # 计算不存在于feature_each_keys中的特征所取值的对应概率
                if len(feature_diff) != 0:
                    for diff in feature_diff:
                        feature_each_count[diff] = 1 / (target_count + len(
                            feature_label_type[i]))
                feature_dic.append(feature_each_count)
            total_dic[each_target] = feature_dic
        return total_dic, target_dic, feature_label_type

    def predict(self, feature_test, total_dic, target_d, feature_type):
        max_prob = 0
        feature_test = list(feature_test)
        feature_num = len(feature_test)  # 特征数量
        target_result = ""
        for each_target in total_dic.keys():
            prob = target_d[each_target][1]  # y = target 所对应的概率
            for i in range(feature_num):
                # 将测试集中的数据依次匹配total_dic对应的概率
                if feature_test[i] in total_dic[each_target][i].keys():
                    prob = total_dic[each_target][i][feature_test[i]] * prob
                else:
                    print(
                        "{0} is not exist in total_dic".format(
                            feature_test[i]))
                    total_dic[each_target][i][feature_test[i]] = 1 / \
                        (target_d[each_target][0] + len(feature_type[i]))
                    prob = total_dic[each_target][i][feature_test[i]] * prob
            # print(each_target, prob)
            if prob > max_prob:
                max_prob = prob
                target_result = each_target
        # print('max_prob', max_prob, target_result)
        return target_result


def evalution(predict, test):
    tp = 0
    tn = 0
    fp = 0
    fn = 0
    for i in range(len(test)):
        if predict[i] == '是' and test[i] == '是':
            tp += 1
        elif predict[i] == '否' and test[i] == '否':
            tn += 1
        elif predict[i] == '是' and test[i] == '否':
            fp += 1
        elif predict[i] == '否' and test[i] == '是':
            fn += 1
    if tp + tn + fp + fn:
        accuracy = (tp + tn) / (tp + tn + fp + fn)
    else:
        accuracy = 0
    if tp + fn:
        recall = tp / (tp + fn)
    else:
        recall = 0
    if tp + fp:
        precision = tp / (tp + fp)
    else:
        precision = 0
    return accuracy, recall, precision


if __name__ == "__main__":
    # 读取文件中的数据
    with open('watermelon', 'r', encoding='utf-8') as f:
        data_all = []
        for line in f.readlines():
            each_line = line.strip().split(',')
            data_all.append(each_line)
    data_all = np.array(data_all)
    label = data_all[0, : -1]
    dataset = data_all[1:, :]
    data = dataset[:, :-1]
    target = dataset[:, -1]
    # print(label)
    # print(data)
    train_feature, test_feature, train_target, test_target = train_test_split(
        data, target, test_size=0.3)
    nb = NavieBayes()
    prob_dict, target_dic, feature_label_type = nb.fit(
        train_feature, train_target)
    predict_result = []
    print('prob_dict', prob_dict)
    print('total_dic', target_dic)
    for test_line in test_feature:
        class_label = nb.predict(
            test_line,
            prob_dict,
            target_dic,
            feature_label_type)
        predict_result.append(class_label)
    print("predict_result: ", predict_result)
    print("test_target:    ", list(test_target))
    accuracy, recall, precision = evalution(predict_result, test_target)
    print(
        "accuracy：{:.4f}；recall：{:.4f}；precision：{:.4f}".format(
            accuracy,
            recall,
            precision))

https://www.zhihu.com/question/43481146

https://blog.csdn.net/lanchunhui/article/details/53696550

https://blog.csdn.net/u010435005/article/details/80323936

https://blog.csdn.net/zhang20072844/article/details/51794278

https://www.cnblogs.com/lliuye/p/9178090.html

梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

朴素贝叶斯（Naive Bayes）

1 相关统计学概念

1.1 贝叶斯定理

1.2 条件独立

1.2.1 证明

1.2.2 示例

1.2.3 应用

1.3 先验概率与后验概率

1.4 先验概率（Prior probability）

1.5 条件概率（Conditional probability）

1.6 全概率公式

1.7 后验概率（Posterior probability）

2 朴素贝叶斯法的学习与分类

2.1 基本方法

2.2 后验概率最大化的含义

3 朴素贝叶斯的参数估计

3.1 极大似然估计

3.2 学习与分类算法

3.3 贝叶斯估计

3.4 当属性为连续型时

4 朴素贝叶斯算法分析

5 python实现

你可能感兴趣的:(机器学习,机器学习算法)