鲨鱼儿

贝叶斯分类器、EM算法、GMM

一、贝叶斯分类器基础

0、叶斯定理可表述为：
后验概率 = (似然性*先验概率)/标准化常量
后验概率与先验概率和相似度的乘积成正比。

另外，P(B|A)/P(B)也有时被称作标准似然度（standardised likelihood），贝叶斯定理可表述为：
后验概率 = 标准似然度*先验概率
--------------------- 
作者：kongkongqixi 
原文：https://blog.csdn.net/kongkongqixi/article/details/82866365

1. 贝叶斯算法是什么？贝叶斯算法基本原理是什么？构建原理是什么？
2. 为什么要求贝叶斯算法是朴素贝叶斯？
3. 贝叶斯分类器中的平滑系数是什么？有什么作用
4. 贝叶斯分类器的理论推导式？
5. 贝叶斯分类器的损失函数是什么？
6. 贝叶斯算法的调优策略？
7. 你觉得贝叶斯算法有什么局限性吗？那你觉得这个局限性怎么解决？优缺点
8. 过拟合和欠拟合的解决方案？
9. 贝叶斯分类器有哪些应用场景？
10.朴素贝叶斯、MAP、MLE、EM 的关系？

1. 贝叶斯算法是什么？贝叶斯算法基本原理是什么？构建原理是什么？
    贝叶斯分类器是一种根据贝叶斯公式，在假设特征属性之间相互独立的条件下，由先验概率p(x|y)求最大后验概率（p(y|x)），
    最大后验概率率所对应的y值即为预测值。贝叶斯分类器是最大后验概率算法MAP的一种应用。
2. 为什么要求贝叶斯算法是朴素贝叶斯？
    朴素贝叶斯分类器指的是训练集特征属性之间是相互独立的，为了使得贝叶斯公式分子的联合概率可以用单个特征属性概率的乘积
    来表示。
3. 贝叶斯分类器中的平滑系数是什么？有什么作用
    我们都知道朴素贝叶斯使用单个特征属性的条件概率的乘积 == 特征属性联合的条件概率，由于在单个特征属性条件概率中会出
    现 0 的情况，这会导致整个特征属性联合条件概率 == 0，这显然是不合法的问题，因此我们在计算单个特征的条件概率时会在
    分子分母上加上一个较小的值，防止出现=0的情况，平滑系数多出现在多项式朴素贝叶斯的模型中。
4. 贝叶斯分类器的理论推导式？
    下文
5. 贝叶斯分类器的损失函数是什么？
    贝叶斯没有类似其他模型的损失函数，详情下文
6. 贝叶斯算法的调优策略？
    ① 处理特征时，为了满足朴素的特性，需要将相关性特征去掉（例如 PCA降维后特征会相互独立）
    ② 构建贝叶斯网络一定程度上会缓解特征之间相互依赖的问题
7. 你觉得贝叶斯算法有什么局限性吗？那你觉得这个局限性怎么解决？优缺点
    优点：
        ① 贝叶斯分类器模型速度很快，因为他没有损失函数，不需要训练模型，仅仅是贝叶斯公式的乘法运算（实际上内部会转化为
          加法运算）
        ② 对于文本多分类问题很有效，而且模型的复杂度不会有大幅度的提升
        ③ 对于类别型特征，在特征相互独立的条件下，效果十分好
    缺点：
        ① 贝叶斯分类要求特征属性之间越独立越好（PCA降维独立特征），实际数据往往不满足（也就是说NB很适合短文本）
        ② 对于连续性数值变量特征，贝叶斯分类器太要求它要符合正态分布
8. 过拟合和欠拟合的解决方案？

9. 贝叶斯分类器有哪些应用场景？
    ① 垃圾识别 ② 文本分类 ③ 情感分析（一般可以转换为文本分类） ④ 多分类实施预测（因为速度很快）
    ⑤ 推荐系统（朴素贝叶斯与协同过滤是一对好搭档，详情见书籍）
10.朴素贝叶斯、MAP、MLE、EM 的关系？
   朴素贝叶斯：MAP（最大后验概率）的一种应用
   MAP：最大后验概率，是一种特殊的MLE（极大似然估计，先验概率p(y)不同），即 先验概率p(y) * 似然函数（p(x|y),y是带
        预测参数）
   MLE：极大似然估计
   EM：y值是一个未知变量，即EM算法常用作聚类，虚拟出一个先验概率P(z) * 似然函数，然后不断更新迭代模型参数θ。

1、用到的概率公式

二、朴素贝叶斯分类器

1、朴素的概念：

上文

2、朴素贝叶斯公式的推导

贝叶斯公式的通式

朴素贝叶斯公式

朴素贝叶斯算法流程

朴素贝叶斯计算图解

3、朴素贝叶斯条件概率求解方式

1、高斯朴素贝叶斯

2、伯努利朴素贝叶斯

3、多项式朴素贝叶斯

注意：多项式朴素贝叶斯需要加入平滑系数
目的：平滑的主要作用是可以克服条件概率为0的问题，因为某一个特征属性有可能只有在某一个类别中存在，其他类别为特征属性值
    为零，即计算其他类别时条件概率为零，会导致整个特征属性条件概率为零，从而造成预测错误。

多项式朴素贝叶斯案例理解

未做平滑系数求解：

做平滑系数求解：

4、贝叶斯分类器训练过程与预测过程？

贝叶斯分类器训练过程与预测过程？
    贝叶斯分类器与前面学习的很多算法不同，他没有很明显的模型参数，也不需要多次迭代不断减少损失函数，也没有类似其他模型的训
    练过程，仅仅使用统计学的贝叶斯公式由测试集的所有单独特征先验概率的乘积来求最大后验概率的算法。

贝叶斯分类器预测过程

三、贝叶斯网络

1、原因：存在着特征属性之间存在着依赖关系
2、概念：贝叶斯网络(Bayesian Network)，又称有向无环图模型(directed acyclic graphical model, DAG)
3、优缺点：
    优点：考虑到了朴素贝叶斯无法解决特征属性存在着依赖关系的问题
    缺点：贝叶斯网络依赖关系较难获取。
4、贝叶斯网络 与 朴素贝叶斯 计算的区别？
    1、朴素贝叶斯 计算条件联合概率 p(x1,x2..xn | yi) = p(x1|yi) * ... * p(xn|yi) 
    2、贝叶斯网络 计算条件联合概率 p(x1,x2..xn | yi)要利用全概率公式计算，其他均一样。

1、贝叶斯网络概率计算

最简单的一个贝叶斯网络

全连接贝叶斯网络

“正常”贝叶斯网络

2、贝叶斯网络判定条件独立

（1）贝叶斯网络判定条件独立-01

注意点：
    ① 当C给定的情况下，a、b相互独立的。
    ② 当C不给定时，a、b相互依赖。

（2）贝叶斯网络判定条件独立-02

注意点：
    ① 当C给定的情况下，a、b相互独立的。
    ② 当C不给定时，a、b相互依赖。

（3）贝叶斯网络判定条件独立-03

注意点：
    ① 当C不给定的情况下，a、b相互独立的。
    ② 当C给定时，a、b相互依赖。

四、EM算法

1、最大似然估计(MLE)

2、最大后验概率估计(MAP) ------- 贝叶斯估计

3、KMeans算法（无监督聚类）

pass

4、EM算法

1、EM算法的作用：
    是一种求出含有未知量（不可观测确只是存在）混合模型的最优参数的一种算法，也就是说它是一种求解思想，不是一个模型。
2、EM使用场景：
    无监督学习数据没有y值（y值作为隐藏变量），因此EM算法通常用作无监督模型最优参数求解。代表GMM
3、EM算法与极大似然估计MLE的区别？
    ① 模型没有未知参量时，用MLE或者MAP
    ② 模型有未知参量时，用EM



3、EM算法过程：类似于KMeans循环迭代更新，每次都是期望最大（期望每个蔟的似然函数最大）。

（1）EM算法基础

1、EM算法是一种迭代类型的算法，是一种在概率模型中寻找参数最大似然估计或者最大 后验估计的算法，其中概率模型依赖于无
    法观测的隐藏变量。 
2、• EM算法流程： 
        • 初始化分布参数/模型参数 
        • 重复下列两个操作直到收敛： 
            • E步骤：估计隐藏变量的概率分布期望函数； 
            • M步骤：根据期望函数重新估计分布参数。

（2）EM算法执行步骤

（3）EM算法、极大似然估计、贝叶斯估计

1、贝叶斯估计：最大后验概率（MAP）估计，它是一种标签先验不是处处相等的极大似然估计，通常用来做文本分类问题，即监督学习。
2、极大似然估计：MLE，它是一种特殊的MAP算法，它是有监督的算法。
3、EM算法：它是一种无监督的聚类算法；思想与KMeans迭代思想相同，
          它与MAP、MLE不同的是：① EM算法需要迭代不段更新 ② EM算法模型含有未知参量。

5、GMM 高斯混合模型

1、GMM的基本思想：
    任何形态都可以用多个不同权重系数的高斯函数叠加而成。
    而GMM作为聚类算法时，假设了多蔟数据均符合高斯分布。它是一种基于最大概率的算法。

2、GMM：多个高斯分布（一元或多元，一个高斯分布相当于一个蔟）线性叠加而成的模型。   ---------- 无监督聚类算法，高斯
    模型的个数 = 聚类蔟的个数。
3、GMM模型中因为有未知参量，所以它需要使用EM算法来求解模型最优参数。
4、GMM模型的优缺点：
    优点：
        ① 多维情况下，高斯混合模型在计算均值和方差使用了协方差矩阵，应用了不同维度之间相互约束的关系，在各类尺寸不同、
          聚类之间有相关关系时，GMM比K-means聚类更加适合。
        ② GMM 基于概率密度函数进行学习，所以除了聚类以外，还常用于密度检测
        ③ KMeans是硬聚类，要么属于这个蔟，要么属于哪个蔟；EM算法是软聚类，一个样本预测时会计算它属于每一个蔟的概率，只
          是取一个最大的蔟概率而已
    缺点：
        ① 在蔟与蔟差异较小的分类效果较差。
        ② 假设了蔟数据符合高斯分布
        ③ 蔟个数只能靠猜
        ④ 结果受初始值影响。
5、GMM使用场景？
    ① 假设数据多蔟符合高斯分布 聚类
    ② 密度检测

（1）混合高斯模型的概率密度

（2）GMM更新的参数公式

五、sklearn API

1、贝叶斯分类器API

库地址：sklearn.naive_bayes: Naive Bayes

（1）Gaussian Naive Bayes -------高斯朴素贝叶斯

from sklearn.naive_bayes import GaussianNB

class sklearn.naive_bayes.GaussianNB(priors=None)
'''
       priors=None     ------- 自定义先验概率，默认即可 
'''

参数

属性与方法

（2）multinomial ------ 多项式朴素贝叶斯

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
'''
        alpha=1.0         --------- 多项式朴素贝叶斯的平滑系数，默认即可
        fit_prior=True    --------- 是否训练先验概率，默认即可
        class_prior=None  --------- 类的先验概率。如果指定，则不根据数据调整先验；默认即可        
'''

属性

方法

与高斯贝叶斯相同

（3）Bernoulli -------- 伯努利朴素贝叶斯

class sklearn.naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)

参数

属性

与多项式贝叶斯用法相同

方法

与高斯贝叶斯用法相同

（4）TF-IDF sklearn API

CountVectorizer 类 负责将文档集合转化为词频矩阵，TfidfTransformer 类负责将词频矩阵转化为归一化TF或TF-IDF表示

CountVectorizer 类

1、将文本数据转换为向量的形式（词袋法） 要求给定的数据中单词是以空格隔开的。
2、API默认至少统计长度为2的单词的词袋法（类似：的 我 是 ... 不会统计）
===============================================================================
参数：
    stop_words = [...]  指定那些单词不能用作特征属性，传入参数是一个列表。

TfidfTransformer 类

实例：

TfidfVectorizer类

可以帮助我们完成向量化，TF-IDF和标准化三步。当然，还可以帮我们处理停用词

2、GMM、EM算法API

sklearn.mixture: Gaussian Mixture Models

class sklearn.mixture.GaussianMixture(n_components=1, covariance_type='full', tol=0.001, 
    reg_covar=1e-06, max_iter=100, n_init=1, init_params='kmeans', weights_init=None, 
    means_init=None, precisions_init=None, random_state=None, warm_start=False, verbose=0, 
    verbose_interval=10)



class sklearn.mixture.BayesianGaussianMixture(n_components=1, covariance_type='full', 
    tol=0.001, reg_covar=1e-06, max_iter=100, n_init=1, init_params='kmeans', 
    weight_concentration_prior_type='dirichlet_process', weight_concentration_prior=None, 
    mean_precision_prior=None, mean_prior=None, degrees_of_freedom_prior=None, 
    covariance_prior=None, random_state=None, warm_start=False, verbose=0, 
    verbose_interval=10)

你可能感兴趣的:(AI_机器学习)

SoK: A Critical Evaluation of Efficient Website Fingerprinting Defenses
2023攻击和防御模型防御评估准确度、精确度和召回率：使用准确率来评估攻击模型在多类别封闭世界设置中的性能，但在二进制开放世界设置中使用精确率和召回率防御策略：（1）增加虚拟流量、（2）增加流量延迟、（3）将流量从一个流移到另一个流固定速率发送流量F，随机抽样以添加填充R，修改流量以产生与目标流量样本或模式的碰撞C，将流量分成多个流S，使用对抗性扰动来欺骗机器学习模型AF：（1）（2）BuFLO,
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025 年最强 RPA 软件盘点天竺鼠不该去劝架人工智能
RPA（机器人流程自动化）软件成为了企业提升效率、降低成本的重要工具。以下是2025年一些顶尖的RPA软件盘点。国外RPA软件UiPath地位：全球RPA市场的领军者。功能特性：全能型平台，覆盖流程发现、自动化设计到机器人管理全生命周期。拥有易用的低代码设计器，便于快速上手；强大的AI集成，可实现机器学习和文档理解；能与ERP、CRM等系统无缝集成。适用场景：适用于金融、零售、制造业等需要处理复杂
《机器学习数学基础》补充资料：什么是随机变量 CS创新实验室机器学习数学基础机器学习人工智能数学概率
卓永鸿提供本文介绍什么是随机变量及为什么要发展此种概念。我们先来看这个问题：一个边长为aaa的正三角形，CCC为其外接圆，外接圆半径为RRR。若在圆内随机作一弦，则弦长lll大于aaa的概率为何？法1：随机半径法先拉出一条圆半径，然后随机在半径上取一点，再画出通过此点并垂直半径的弦。易知当弦心距小于R/2R/2R/2时，弦长lll大于aaa，故概率为1/21/21/2。法2：随机端点法在圆周上随机
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
c++基于BP神经网络的手写数字识别鱼弦机器学习设计类系统开发语言人工智能
鱼弦：CSDN内容合伙人、CSDN新星导师、全栈领域创作新星创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于BP（Backpropagation）神经网络的手写数字识别是一种常见的机器学习应用。下面我将为您提供原理的详细解释、使用场景的解释以及一些相关的文献材料链接。原理详细解释
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
用户实体行为分析与数据异常访问联防方案 KKKlucifer 时序数据库
一、用户实体行为分析（UEBA）技术概述1.1定义与概念用户实体行为分析（UEBA）是一种高级网络安全方法，它利用机器学习和行为分析技术，对用户、设备、应用程序等实体在网络环境中的行为进行深入分析，以检测出异常行为和潜在的安全威胁。UEBA的核心在于通过建立行为基线，识别出偏离正常行为模式的活动，从而发现那些传统安全工具难以检测到的高级、隐藏和内部威胁。1.2工作原理UEBA系统通过收集来自多个数
java opencv 数字识别算法_[机器学习]基于OpenCV实现最简单的数字识别后期小雨 java opencv 数字识别算法
本文将基于OpenCV实现简单的数字识别。这里以游戏AngryBirds为例，通过以下几个主要步骤对其中右上角的分数部分进行自动识别。1.学习分类器根据训练样本，选取模型训练产生数字分类器。这里的样本可以是通用的数字样本库(如NIST等)，也可以是针对应用场景而制作的专门训练样本。前者优在泛化性，后者强在准确率，当然常用做法是将这两者结合，即在通用数字库基础上做修改。另外这里由于模式并不复杂，计算
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
机器学习-- 聚类 SunsPlanter 机器学习机器学习聚类人工智能
什么是聚类？Clustering可以简单地说，对有标注的数据分类，就是逻辑回归（属于有监督分类），对无标注的数据分类，就是聚类（属于无监督分类）聚类是一种无监督学习技术，其目标是根据样本之间的相似性将未标记的数据分组。比如，在一个假设的患者研究中，研究人员正在评估一项新的治疗方案。在试验期间，患者每周会报告自身症状的频率以及严重程度。研究人员可以使用聚类分析将对治疗反应相似的患者归为同一类。图1展
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
educoder机器学习 --- 神经网络木右加木 educoder 机器学习神经网络
第1关：神经网络基本概念１、Ｃ第2关：激活函数#encoding=utf8defrelu(x):'''x:负无穷到正无穷的实数'''#*********Begin*********#ifx<=0:return0else:returnx#*********End*********#第3关：反向传播算法#encoding=utf8importosimportpandasaspdfromsklearn.
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
【机器学习&深度学习】本地部署 vs API调用：关键看显存！一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、本地部署VSAPI调用1.模型运行方式2.性能与速度3.成本4.隐私与安全5.何时选择哪种方式？二、为什么推荐本地部署？1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能7️⃣离线可用（重要！）三、适合本地部署的情况四、本地部署条件4.1模
深度学习 vs 传统机器学习：哪个更适合你的项目？ AI大模型应用之禅深度学习机器学习人工智能 ai
深度学习vs传统机器学习：哪个更适合你的项目？关键词：深度学习、传统机器学习、特征工程、数据量、计算资源、项目选择、算法对比摘要：本文将用"炒菜"和"拼图"等生活案例，从核心原理、适用场景、资源需求等维度对比深度学习与传统机器学习。通过具体代码示例和真实项目场景分析，帮助开发者和企业决策者快速判断：你的项目该选深度学习还是传统机器学习？背景介绍目的和范围随着AI技术普及，"该用深度学习还是传统机器
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
常见机器学习算法与应用场景计算机软件程序设计知识科普机器学习算法人工智能
当然可以。下面是对常见机器学习算法的全面详细阐述，包括每种算法的基本原理、特点以及典型应用场景。1.监督学习（SupervisedLearning）1.1线性回归（LinearRegression）原理：通过拟合一条直线来表示输入和输出之间的关系，适用于预测连续值输出。特点：简单易懂，计算速度快，但只能捕捉线性关系。应用场景：房价预测股票价格预测销售额预测1.2逻辑回归（LogisticRegre
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他