提莫君

机器学习（十）分类算法之朴素贝叶斯(Naive Bayes)算法

贝叶斯定理

首先我们来了解一下贝叶斯定理：
贝叶斯定理是用来做什么的？简单说，概率预测：某个条件下，一件事发生的概率是多大？
了解一下公式
事件B发生的条件下，事件A发生的概率为：
这里写图片描述

同理可得，事件A发生的条件下，事件B发生的概率为：

很容易推导得到：

假设若P(A)≠0，那么就可以得到用来预测概率的贝叶斯定理了：

这个定理显然是可以推导到多个条件的，比如在2个条件的情况下：
朴素贝叶斯定义：
我们之所以称之为朴素，是因为我们做了一个简单的假设，即类中特定特征的存在与任何其他特征的存在无关，这意味着每个特征彼此独立。
通过以上定理和“朴素”的假定，我们知道：
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)

经典案例

信某宗教的人是恐怖分子的概率是多少？
假设 100% 的恐怖分子都相信某宗教，而某人相信某宗教，并不代表此人 100% 是恐怖分子，还需要考虑先验概率，假设全球有 7万恐怖分子（全球人口 70亿），假设全球有 1/3 的人口相信某宗教，那么这个人是恐怖分子的概率是多少？
解：
我们要求解的是这个概率： P（恐怖分子|信某教）
套用公式，得到：
```
P（恐怖分子|信某教）
= P（信某教|恐怖分子） P（恐怖分子） / P（信某教）
= 100% * （7万人/70亿人） / （1/3）
= 0.003%
```
也即十万分之三的概率。
延展开去，从数学理论上讲，民主党不针对某个信教人群是对的，但是题目中设定 100% 的恐怖分子信某教，这个假设就比较…
检测呈阳性的雇员吸毒概率是多少？
假设一个常规的检测结果的敏感度与可靠度均为 99% ，即吸毒者每次检测呈阳性（+）的概率为 99% 。而不吸毒者每次检测呈阴性（-）的概率为 99% 。假设某公司对全体雇员进行吸毒检测，已知 0.5% 的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高？
解：
我们要求解的是这个概率： P（吸毒|检测呈阳性的雇员）
套用公式，得到：
```
P（吸毒|检测呈阳性雇员）
= P（检测呈阳性雇员|吸毒） P（吸毒） / P（检测呈阳性雇员）
= 99% * 0.5% / [P（检测呈阳性雇员∩吸毒） + P（检测呈阳性∩不吸毒）]
= 99% * 0.5% / [P（检测呈阳性雇员|吸毒） * P（吸毒） + P（检测呈阳性|不吸毒） * P（不吸毒）]
= 99% * 0.5% / [99% * 0.5% + 1% * 99.5%]
= 0.3322
```
也就是说，尽管吸毒检测的准确率高达 99% ，但贝叶斯定理告诉我们：如果某人检测呈阳性，其吸毒的概率只有大约 33% ，不吸毒的可能性比较大。
不过也要注意，检测的准确率高低，十分影响结果的概率，如果检测精度达到 99.9% ，那么检测呈阳性的雇员吸毒的概率就上升到了 83.39% 。
垃圾邮件的过滤
这是 Paul Graham 在《黑客与画家》中提到的办法。这个问题其实可以倒推，我们要求解的是这个概率： P（垃圾邮件|检测到某种特征） 。
这个某种特征可以是 关键词，可以是时间，可以是频次，可以是 邮件附件类型 …包括以上各种特征混合的特征等等。
我们先用最简单的关键词来做推测，根据我个人的经验，一个中国式垃圾邮件很可能会包含两个字：发票。好，那么我们要求解的一封邮件是不是垃圾邮件的概率就变成 P（垃圾邮件|检测到“发票”关键词），根据贝叶斯定理
```
P（垃圾邮件|检测到“发票”关键词）
= P（检测到“发票”关键词|垃圾邮件） / P（检测到“发票”关键词）
```
好，这里遇到了一个问题，我们怎么知道垃圾邮件里出现发票关键词的概率？
怎么知道在所有邮件里出现发票关键词的概率？理论上，除非我们统计所有邮件，否则我们是得不出的。这时候，就得做个妥协，在工程上做个近似，我们自己找到一定数量的真实邮件，并分为两组，一组正常邮件，一组垃圾邮件，然后进行计算，看发票这个词，在垃圾邮件中出现的概率是多少，在正常邮件里出现的概率是多少。
显然，这里的训练数量大一些的话，计算得到的概率会更逼近真实值。 Paul Graham 使用的邮件规模，是正常邮件和垃圾邮件各 4000封。如果某个词只出现在垃圾邮件中， Paul Graham 就假定，它在正常邮件的出现频率是 1% ，反之亦然，这样做是为了避免概率为 0 。随着邮件数量的增加，计算结果会自动调整。
这样的话，将公式继续分解为如下：
```
P（垃圾邮件|检测到“发票”关键词）

= P（检测到“发票”关键词|垃圾邮件） / P（检测到“发票”关键词）

= P（检测到“发票”关键词|垃圾邮件） / [P（检测到“发票”关键词∩垃圾邮件） + P（检测到“发票”关键词∩正常邮件）]

= P（检测到“发票”关键词|垃圾邮件） / [P（检测到“发票”关键词|垃圾邮件） / P（垃圾邮件） + P（检测到“发票”关键词|正常邮件） / P（正常邮件）]
```
就又可以根据训练模型得到的概率，进行初始值计算了。此后，可以通过大量用户将垃圾邮件标注为正常邮件，正常邮件挪到垃圾邮件的动作，进行反复训练纠正，直至逼近一个合理值了。
不过这里还涉及到一个问题，就是单个关键词的概率（单个条件）无论如何再高，这封邮件仍然有可能不是垃圾邮件，所以在此处应用贝叶斯定理时，我们显然要用到多个条件，也就是计算这个概率：
P（垃圾邮件|检测到“A”关键词，检测到“B”关键词，检测到"C"，…）
Paul Graham 的做法是，选出邮件中 P（垃圾邮件|检测到“X”关键词）最高的 15个词，计算它们的联合概率。（如果关键词是第一次出现，Paul Graham 就假定这个值等于 0.4 ，也即认为是negative normal）。

朴素贝叶斯分类方法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）

和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

验证每一个类别中，样本特征的分布情况；根据新样本中特征的分布情况预测属于每一个类别的概率，输出概率最大的类别，我们就认为该样本属于这个类别

案例：

假设有一个数据集，由两类组成（简化问题），对于每个样本的分类，我们都已经知晓。数据分布如下图（图取自MLiA）：

现在出现一个新的点new_point (x,y)，其分类未知。我们可以用p1(x,y)表示数据点(x,y)属于红色一类的概率，同时也可以用p2(x,y)表示数据点(x,y)属于蓝色一类的概率。那要把new_point归在红、蓝哪一类呢？
我们提出这样的规则：
如果p1(x,y) > p2(x,y)，则(x,y)为红色一类。
如果p1(x,y) 换人类的语言来描述这一规则：选择概率高的一类作为新点的分类。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。用条件概率的方式定义这一贝叶斯分类准则：如果p(red|x,y) > p(blue|x,y), 则(x,y)属于红色一类。如果p(red|x,y) < p(blue|x,y), 则(x,y)属于蓝色一类。也就是说，在出现一个需要分类的新点时，我们只需要计算这个点的 max(p(c1 | x,y),p(c2 | x,y),p(c3 | x,y)…p(cn| x,y))。其对于的最大概率标签，就是这个新点的分类啦。那么问题来了，对于分类i 如何求解p(ci| x,y)？没错，就是贝叶斯公式：

 
  概率基础 
  
  
  概率(Probability)定义 
   
   概率定义为一件事情发生的可能性 
     
     扔出一个硬币，结果头像朝上 
    
  
   P(X) : 取值在[0, 1] 
   
  女神是否喜欢计算案例 
  在讲这两个概率之前我们通过一个例子，来计算一些结果：
 
 
 计算结果为： 
  P(喜欢) = 4/7
P(程序员, 匀称) = 1/7
P(程序员|喜欢) = 2/4 = 1/2
P(程序员, 超重|喜欢) = 1/4
 
  思考题：在小明是产品经理并且体重超重的情况下，如何计算小明被女神喜欢的概率？ 
  即P(喜欢|产品, 超重) = ？
 
  联合概率、条件概率与相互独立 
   
   联合概率：包含多个条件，且所有条件同时成立的概率 
     
     记作：P(A,B) 
    
  
   条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率 
     
     记作：P(A|B) 
    
  
   相互独立：如果P(A, B) = P(A)P(B)，则称事件A与事件B相互独立。
 
 如果职业和体型是相互独立的，p（职业，体型）=p（职业）* p（体型） 
   
  贝叶斯公式 
  公式
 
 简单推理：
  
  
  计算案例 
  那么思考题就可以套用贝叶斯公式这样来解决：
 P(喜欢|产品, 超重) = P(产品, 超重|喜欢)P(喜欢)/P(产品, 超重)
 上式中，P(产品, 超重|喜欢)和P(产品, 超重)的结果均为0，导致无法计算结果。这是因为我们的样本量太少了，不具有代表性，本来现实生活中，肯定是存在职业是产品经理并且体重超重的人的，P(产品, 超重)不可能为0；而且事件“职业是产品经理”和事件“体重超重”通常被认为是相互独立的事件，但是，根据我们有限的7个样本计算“P(产品, 超重) = P(产品)P(超重)”不成立。 
  而朴素贝叶斯可以帮助我们解决这个问题。 
  朴素贝叶斯，简单理解，就是假定了特征与特征之间相互独立的贝叶斯公式。 
  也就是说，朴素贝叶斯，之所以朴素，就在于假定了特征与特征相互独立。 
  所以，思考题如果按照朴素贝叶斯的思路来解决，就可以是 
  P(产品, 超重) = P(产品) * P(超重) = 2/7 * 3/7 = 6/49
p(产品, 超重|喜欢) = P(产品|喜欢) * P(超重|喜欢) = 1/2 * 1/4 = 1/8
P(喜欢|产品, 超重) = P(产品, 超重|喜欢)P(喜欢)/P(产品, 超重) = 1/8 * 4/7 / 6/49 = 7/12
 
  那么这个公式如果应用在文章分类的场景当中，我们可以这样看：
 
 公式分为三个部分： 
   
   P©：每个文档类别的概率(某文档类别数／总文档数量) 
   P(W│C)：给定类别下特征（被预测文档中出现的词）的概率 
     
     计算方法：P(F1│C)=Ni/N （训练文档中去计算） 
       
       Ni为该F1词在C类别所有文档中出现的次数 
       N为所属类别C下的文档所有词出现的次数和 
      
  
    
  
   P(F1,F2,…) 预测文档中每个词的概率
 如果计算两个类别概率比较：所以我们只要比较前面的大小就可以，得出谁的概率大 
   
  文章分类计算 
   
   
   计算结果 
   
  P(C|Chinese, Chinese, Chinese, Tokyo, Japan) --> P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C) = P(Chinese|C)^3 * P(Tokyo|C) * P(Japan|C) * P(C)
P(Chinese|C) = 5/8
P(Tokyo|C) = 0
P(Japan|C) = 0
 
   
  API 
  在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
 这里我们使用MultinomialNB就是先验为多项式分布的朴素贝叶斯 
   
   sklearn.naive_bayes.MultinomialNB(alpha = 1.0) 
     
     朴素贝叶斯分类 
     alpha：拉普拉斯平滑系数 
    
  
   
  案例：20类新闻分类 
   
  步骤分析 
   
   进行数据集的分割 
   TFIDF进行的特征抽取 
     
     将文章字符串进行单词抽取 
    
  
   朴素贝叶斯预测 
   
  代码 
   
   进行数据集的分割 
   
  import sklearn.datasets
from sklearn.model_selection import train_test_split        #数据集切分
from sklearn.feature_extraction.text import TfidfVectorizer #文本转换器
from sklearn.naive_bayes import MultinomialNB               #朴素贝叶斯算法
# 获取新闻的数据，20个类别
news = sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')
# 进行数据集分割
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.3)
 
   
   TFIDF进行的特征抽取 
   将文章字符串进行单词抽取 
   
  # 对于文本数据，进行特征抽取
tf = TfidfVectorizer()

x_train = tf.fit_transform(x_train)
# 这里打印出来的列表是：训练集当中的所有不同词的组成的一个列表
print(tf.get_feature_names())

# 不能调用fit_transform
x_test = tf.transform(x_test)
 
   
   朴素贝叶斯预测 
   
  # estimator估计器流程
mlb = MultinomialNB(alpha=1.0)

mlb.fit(x_train, y_train)

# 进行预测
y_predict = mlb.predict(x_test)

print("预测每篇文章的类别：", y_predict[:100])
print("真实类别为：", y_test[:100])

print("预测准确率为：", mlb.score(x_test, y_test))
 
  
 
  
  朴素贝叶斯算法总结 
   
   优点： 
     
     朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。 
     对缺失数据不太敏感，算法也比较简单，常用于文本分类。 
     分类准确度高，速度快 
    
  
   缺点： 
     
     由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好

数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
【MySQL】实战篇—数据库设计与实现：根据需求设计数据库架构 AI人H哥会Java MySQL sql mysql 数据库
在设计数据库架构时，开发者需要遵循一系列步骤，以确保数据库能够高效、可靠地满足系统需求。以下是设计数据库架构的理论知识和步骤说明。1.需求分析需求分析是数据库设计的第一步，旨在理解系统的功能需求和数据需求。通过与利益相关者（如用户、开发人员和业务分析师）进行沟通，明确系统需要存储和管理的数据类型。步骤说明识别业务需求：确定系统的主要功能，例如用户管理、订单处理、库存管理等。收集数据需求：明确每个功
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
【架构设计】前置知识 GIS程序媛—椰子架构设计架构设计
架构设计是软件开发的进阶技能，需要结合理论知识和实践经验。以下是掌握架构设计所需的前置知识及其重要性，以及学习路径建议：一、基础编程能力1.编程语言与核心概念掌握至少一门主流语言（如Java、Python、C#、Go等），理解其语法、特性及生态。核心概念：面向对象（OOP）、函数式编程（FP）、并发/异步、内存管理等。示例：通过Java理解接口、多态、设计模式。通过Go学习并发模型（Gorouti
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

机器学习（十）分类算法之朴素贝叶斯(Naive Bayes)算法

贝叶斯定理

经典案例

朴素贝叶斯分类方法

案例：

概率基础

概率(Probability)定义

联合概率、条件概率与相互独立

贝叶斯公式

计算案例

文章分类计算

API

案例：20类新闻分类

步骤分析

代码

朴素贝叶斯算法总结

你可能感兴趣的:(机器学习理论知识)