iFlyAI

最全面的贝叶斯机器学习入门教程

在我深入探讨该主题之前，这儿有一个问题–机器学习的全部内容是什么，为什么它突然成为流行语？从根本上说，机器学习是“预测的艺术”。这一切都是基于过去来预测未来。成为流行语的原因实际上与数据，技术，计算能力或任何这些东西无关。这只是关于人类的心理！是的，我们人类总是对未来充满好奇，不是吗？而且，这是数据的时代，我们可以做出以数据为依据的良好预测，这是机器学习的本质。预测的有效性基于两个因素：预测的准确性和进行的时间。您也许可以以99％的准确度预测降雨，但是如果您只能在下毛毛雨之前就知道，那就没有用了！另一方面，如果您要预测未来一周会下雨，但是您的预测得以实现的机会仅为10％，嗯，那也不好！

因此，预测的技巧就是在时间和准确性之间达到最佳平衡。通常，正确地进行早期预测需要大量的直觉，因为早期预测没有特权，即“历史数据”。早期的预测实际上不是数据驱动的。想象一下一种情况，您试图预测下一周是否会下雨，并获得与过去两年中实际“雨天”之前7天的天气状况有关的信息。现在有了您身边的这些数据，如果您要做出预测并且正确地做出了70％的预测，那么突然会发生什么变化？是的，这是历史数据。您将尝试评估上一次出了什么问题，考虑影响天气状况的关键因素，并尝试在下一次给出更好的预测。这种方法称为贝叶斯方法，其中，如果提供其他信息，则过去的概率可以逆转。我们将在接下来的部分中详细介绍这一点。
在此之前，推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

概率论-随机性 vs.可能性

重要的不仅是过去发生的事情，而且将来还会重复发生的可能性也很重要。概率论全是关于随机性与可能性的关系（我希望以上内容是直观的，只是在开玩笑！）。它基本上量化了事件在随机空间中发生的可能性。例如，如果我掷硬币并期望“正面”，则有50％或1⁄2的机会，只要“掷硬币的行为”是公正的（公正的或无偏差的硬币获得正面或反面的可能性相同）。这种公平的假设归因于随机性，满足期望的机会是概率。

让我们再举一个掷骰子的经典例子。如果我掷骰子并期望得到“ 4”，几率是多少？它通过（预期结果/结果总数）的1/6进行量化，即在总共6个可能结果中，我们期望数字4的一个特定结果。样本空间包含或保存所有可能的事件。概率总是以百分比或0到1之间的数字来量化。概率可以是离散变量，也可以是连续变量。

上面的示例如下图。

参考文件：https://www.mathsisfun.com

概率所在-参考：mathisfun

那么数学是什么？ –贝叶斯定理

在讨论贝叶斯定理之前，我们需要了解一些（更多！）概率的基本概念。首先，在上述示例中，我们计算硬币出现正面而骰子出现4的概率。这称为联合概率。还有两种其他类型的概率。一种叫做条件概率，在骰子出现4的基础上硬币出现正面的概率。最后，如果您想要特定结果的概率，即仅硬币或仅骰子的概率，我们称其为边际概率。

现在，贝叶斯定理（以托马斯·贝叶斯牧师1702-1761命名）就是基于此定理的。让我们看看是如何的：

对于两个事件A和B，如果已知给定A的B条件概率和B的概率，则可以计算给定A的B的条件概率。

以下是解释贝叶斯规则的一种简单方法。任务是识别新观察到的点的颜色。

绿色点的数量是红色点的两倍，因此有理由相信，待预测的点（尚未观察到颜色）是绿色的可能性是红色的两倍。在贝叶斯分析中，此信息称为先验概率。先验概率基于先前的经验，在本例中为绿色和红色点的百分比，通常用于在实际观察到结果前预测结果。
由于总共有60个对象，其中40个是绿色和20个是红色，因此两个类别的先验概率可以写为：

绿色的先验概率= 绿色对象总数/总的对象数目= 40/60
红色的先验概率= 红色对象总数/总的对象数目= 20/60

在确定了先验概率之后，就可以对新对象X进行分类了（下图中的白色圆圈）。由于点聚集在一起，因此可以合理地假设X附近的绿色（或红色）点越多，则新对象属于该特定颜色的可能性就越大。为了度量这种可能性，在X周围画了一个圆，该圆包含与点的类别标签无关的多个点（它们将被优先考虑）。然后，我们计算圆圈中每个类别的点数。由此我们计算出可能性：

从上图中可以清楚地看到，X是绿色的可能性小于X是红色的可能性，因为该圆圈包含1个绿色对象和3个红色对象。

尽管先验概率表明X可能属于绿色（绿色的数量是红色的两倍），但可能性表明并非如此； X更可能是红色（附近的红色点比绿色多）。在贝叶斯分析中，通过结合两个信息源，即先验概率和似然度，使用贝叶斯定律形成后验概率，从而产生最终分类。

绿色的后验概率= 绿色的先验概率×绿色的概率= 40/60×1/4=1/6

红色的后验概率= 红色的先验概率×红色的似然度= 20/60×3/4=1/4

最后，由于X是红色的后验概率更大，因此将其分类为红色。

贝叶斯主义- 可能性隧道尽头的希望之光！

贝叶斯定理不仅限于基于条件概率的定理。贝叶斯定理的大多数例子都是基于临床测试的（下面的图片给出了很好的解释，所以尝试一个不同的例子！）

memecenter.com

以银行欺诈/贷款违约为例。想象一下，您是一家银行的基金经理，并且对某个客户的信用度表示怀疑，该客户从银行那里借了很多钱。现在您想知道客户是否会拖欠这笔贷款。因此，作为本金检查，您可以查看客户的信用评分，以了解违约概率（PD）。您会看到客户的PD为0.99。因此，您得出结论，客户有99％的可能性拖欠贷款，哇，您感到震惊！放松……这还不是故事的结局，因为您需要从贝叶斯视角来看！

现在，如果仔细观察，在当前情况下拖欠贷款的可能性与绿色突出显示的问题密切相关。是的，他之前有多少次违约，违约的频率是多少？这也是该空间中要收集的最重要的数据。

假设客户拥有良好的跟踪记录，并且由于某种原因，您的银行系统对他而言显示出很高的PD。客户的背景调查显示，他拖欠贷款的可能性只有0.1％，即千分之一的机会。因此，如果您减少数字，实际上将获得9％的违约机会！！哇，那还不错！

但是，只要没有足够的数据作为支持，“贝叶斯”就存在偏差。现在，试想一下，随着客户端上收集的更多数据，绿色的数量是否增加。然后出现违约的可能性自然增加了，不是吗？

因此，原则上，贝叶斯“陷阱”就是这样！所有闪光的不都是金子。提出三个基本问题以获得正确的观点：

1.黄金多久闪一次光？

2.如果有闪光，那么金属变成黄金的机会是什么？

3.尽管金属是黄金，仍然没有出现闪闪发光的机会？

希望你掌握了它！如果您提供更多历史数据，则预测将发生变化！

机器学习–朴素贝叶斯分类器

这是一种基于贝叶斯定理的分类技术，假设预测变量之间具有独立性。

简而言之，朴素贝叶斯分类器假定类中某个特征的存在与任何其他特征的存在无关。是的，这真的很朴素。

该算法首先创建所有类别的频率表（类似于先验概率），然后创建似然表。最后，计算后验概率。

让我们看一下问题描述：

鸢尾花数据集由三种花的物理参数组成：Versicolor，Setosa和Virginica。数据集包含的数字参数是“萼片宽度”，“萼片长度”，“花瓣宽度”和“花瓣长度”。利用这些数据，我们将基于这些参数预测花朵的类别。数据由描述各个特征尺寸的连续数值组成。即使这些特征相互依赖或取决于其他特征的存在，朴素贝叶斯分类器也会考虑所有这些特征，以独立地促成花朵属于特定物种的概率。

对关键变量进行了大量的探索性数据分析，下面显示了这样的输出。该图显示，在所有变量中，花瓣长度是关键的区别因素，重叠最小。

朴素假设

现在，分类器将假定花瓣长度是该分类的独立且同等贡献的特征，并按如下所示构建分类器。

注意：通过分配概率来确定分类，例如，分类器将向自己提出一个问题-如果花瓣长度为5cm，则该物种为杂色的概率是多少？根据上面显示的图，但是对于一条紫色线落在绿色区域（如下所示）的情况，分类正确的可能性很高（> 90％）。因此，分类器做出决定。

朴素贝叶斯模型易于构建，对中小型数据集特别有用（本文中使用的模型就是证明！）。除了简单之外，朴素的贝叶斯（Naive Bayes）还胜过非常复杂的分类方法。为此，该分类器用于各种关键领域，例如疾病诊断，情感分析和构建电子邮件垃圾邮件分类器。

让我们为著名的Iris数据集分类问题建立一个朴素的贝叶斯分类器。只需单击以下按钮，即可在FloydHub上轻松运行此代码。

https://floydhub.com/run?template=https://github.com/sixteenpython/Naive-Bayes
步骤1：读取机器学习模型的库
from sklearn.metrics import confusion_matrixfrom sklearn.metrics import classification_reportfrom sklearn.model_selection import train_test_split
步骤2：将数据分为因变量和自变量
X = iris.iloc[:, :-1].values
y = iris.iloc[:, -1].values
步骤3：将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)
步骤4：构建分类器并测试输出。
Naive Bayesfrom sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
Summary of the predictions made by the classifierprint(classification_report(y_test, y_pred))print(confusion_matrix(y_test, y_pred))# Accuracy scorefrom sklearn.metrics import accuracy_scoreprint(‘accuracy is’,accuracy_score(y_pred,y_test))
运行上面的代码片段将为您提供分类器的输出。此链接中提供了完整的详细信息。

优点

需要更快的预测时。在多类预测中也很有效

如果朴素的假设成立，则分类器的性能优于Logistic回归等其他模型，并且您需要的训练数据也更少。

缺点

在“零频率”的情况下，如果在训练集中未观察到分类变量，则分类器将无法以“零”概率的假设进行预测。

朴素贝叶斯的另一个局限性是独立预测变量的假设。在现实生活中，我们几乎不可能获得一组完全独立的预测变量。

超越朴素贝叶斯

内在的数学-回归与分类

分类问题的基本思想是分类的。它根据定义的标准对变量进行“分类”并预测分类。如果您对分类不感兴趣，但对估计感兴趣，即您不希望类别是“好”还是“坏”，而是想知道特定的数字，那么问题就是回归问题。最常用的回归技术是线性回归（到达最佳拟合线）。现在，要将其转换为分类问题，我们需要将所有可能性分类为两类（二进制分类），这就是逻辑回归，。由于估计值现在根据二进制变量（0到1，其中零和一个为概率）进行分类，因此称为逻辑回归。现在，就到了朴素贝叶斯，因为它尝试根据向量或数字进行分类。（方法类似于逻辑回归）

逻辑回归的扩展的一点数学方法，如下所述。

上面显示的是从线性回归到逻辑回归的过渡。由于概率不能为负，因此左侧的图无效。现在，如右图所示，S型函数用作我们的分类器，并根据概率进行分类（类似于NB分类器）。问题是用绿色圈出的区域。由于本文前面提到的两个问题（朴素假设和零频率），“零”的类概率在正常的NB分类器中将产生错误的结果。

朴素贝叶斯（NB）的变体通常用于提高基准性能，具体取决于模型的变体，使用的功能以及任务或数据集。一个很好的例子是文本分类问题，该问题主要用于垃圾邮件分类器以及许多其他领域。这些问题属于NLP（自然语言处理）的范畴。任何文本分类算法所遵循的基本步骤如下：

根据词准备term文档矩阵/表。这被称为词的“词袋”或“向量化”。例如，如果您的收件箱被与“房屋贷款/汽车贷款/个人贷款”相关的电子邮件轰炸，则分类器会将“贷款”一词标记为分类的关键指标。在大多数情况下，每个单词都会分配一个数字。

将句子/单词转换为token。每个token都可以是单词或标点符号。此过程称为tokenization。

因此，现在您有了token矩阵和向量，必须使用它们运行分类器。

Source: kdnuggets.com

通常，朴素贝叶斯最适合中小型数据集。另一方面，文本分类问题通常具有较大的数据集。因此，有必要查看NB分类器的变体以了解我们如何处理此问题。

例如如果电影必须根据某些关键情感词语从IMDB评论中归类为“好”或“差” ，“无聊”等，它将对这些单词进行带有否定意义的向量处理，并将电影归类为“不好”。在二进制逻辑中，它假定所有“负面声音”词都将分配给数字0，并且电影将被分类为“不好”。因此，如果样本评论中出现“ 0”的可能性更大，那么电影被分类为“不好”的可能性就很高。

现在想像一下，如果评论中没有这些词，那会将一部电影分类为“好”吗？不一定？这就是变体出现的原因。这是通过引入常量“修剪”向量化过程的时候。代替分类器将向量范围指定为（0，1），它将降低误分类的概率，变得更明智，并将向量分配为（0.2，0.8），其中引入的常数为0.2。接下来介绍一种称为NB-SVM算法的新组合。这实际上是具有Naive Bayes特征的SVM（支持向量机）。它创建了一个简单的模型变体，SVM是以NB的log-count比率“ r”作为特征值。对数形式是对NB进行线性化的尝试。因此，在NB-SVM中，SVM的原始向量形式的特征，通过点积被转化为一个标量。（要详细了解此变体的更多信息，请访问fast.ai的MOOC）。这样，我们将略微调整先验概率以适应这种更现实的情况。即使没找到表示否定意义的词块，分类器会在分类之前会采用点积，这样分类就更准确了。该常量表示“即使未找到否定词，电影的分为“不好”的可能性”。

朴素贝叶斯分类器的流行变体

朴素贝叶斯的传统版本是高斯NB，它最适合连续数据类型。高斯NB的基本假设是特征遵循正态分布。本节中讨论的其他变体最适合用于文本分类问题，因为数据特征是离散的。 BernoulliNB是朴素贝叶斯（Naive Bayes）版本，类似于词袋模型，特征转化为二进制向量。

MultinomialNB是BernoulliNB的非二进制版本。顾名思义，多项式的意思是“many counts”。

此外，ComplementNB实现了Complement Naive Bayes（CNB）算法。 CNB是标准多项式朴素贝叶斯（MNB）算法的改编，特别适合于不平衡数据集。 CNB的发明人表明，CNB的参数估计比MNB的参数估计更稳定。此外，CNB在文本分类任务上通常胜过MNB（通常有相当大的优势）。以下是这些分类器上的测试模拟结果与相应代码的比较。

推论如下：

Iris数据集的特征在很大程度上是连续的，即分类是基于花瓣维度完成的，因此GaussianNB的准确性最高。此外，由于数据集很小，因此具有100％的准确性！

二进制向量化对于这种类型的分类是不相关的。因此，BernoulliNB的准确性得分非常低！

MultinomialNB试图通过离散化特征的假设进行分类。但是，他们的数据集本身只有150个特征组合。因此即使将每一个维度都看作是一个独特的离散特征，也能够获得不错的准确性得分。最后，ComplementNB在这种情况下也非常相关，只是用于比较目的。

只需单击下面的按钮，即可轻松运行此代码。

https://floydhub.com/run?template=https://github.com/sixteenpython/Naive-Bayes

from sklearn.naivebayes import MultinomialNB
classifier = MultinomialNB()classifier.fit(Xtrain, ytrain)
ypred = classifier.predict(X_test)
Summary of the predictions made by the classifierprint(classification_report(y_test, y_pred))print(confusion_matrix(y_test, y_pred))# Accuracy scorefrom sklearn.metrics import accuracy_scoreprint(‘accuracy is’,accuracy_score(y_pred,y_test))# Bernoulli Naive Bayesfrom sklearn.naive_bayes import BernoulliNB
classifier = BernoulliNB()classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
Summary of the predictions made by the classifierprint(classification_report(y_test, y_pred))print(confusion_matrix(y_test, y_pred))# Accuracy scorefrom sklearn.metrics import accuracy_scoreprint(‘accuracy is’,accuracy_score(y_pred,y_test))# Complement Naive Bayesfrom sklearn.naive_bayes import ComplementNB
classifier = ComplementNB()classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
Summary of the predictions made by the classifierprint(classification_report(y_test, y_pred))print(confusion_matrix(y_test, y_pred))# Accuracy scorefrom sklearn.metrics import accuracy_scoreprint(‘accuracy is’,accuracy_score(y_pred,y_test))from sklearn.metrics import accuracy_score, log_loss
classifiers = [
GaussianNB(),
MultinomialNB(),
BernoulliNB(),
ComplementNB(),
]
Logging for Visual Comparisonlog_cols=[“Classifier”, “Accuracy”, “Log Loss”]log = pd.DataFrame(columns=log_cols)
for clf in classifiers:
clf.fit(X_train, y_train)
name = clf.__class.__name
print(“=”*30)
print(name)

print('****Results****')
train_predictions = clf.predict(X_test)
acc = accuracy_score(y_test, train_predictions)
print("Accuracy: {:.4%}".format(acc))
log_entry = pd.DataFrame([[name, acc*100, ll]], columns=log_cols)

总结
我希望这是对Naive分类器算一个不错的介绍，强烈建议您使用本文提供的资源来构建自己的分类器。本文将使您对分类器有一个很好的了解，您可以通过应用新知识来构建分类器。如果您已经做到这一点，祝贺您，那么您就真正成为了朴素贝叶斯的英雄。您不再“Naive”！

References

James.G., Witten.D, Hastie.T.,Tibshirani.R.,(2017) An Introduction to Statistical Learning , with Applications in R . 2nd Edition. Springer

Veritasium – YouTube channel

fast.ai (Intro to Machine Learning - MOOC)

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可，转载请附上原文出处链接和本声明。
本文链接地址：https://www.flyai.com/article/598

更多精彩内容请访问FlyAI-AI竞赛服务平台；为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台；每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

挑战者，都在FlyAI！！！

数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
Java短信模块开发-腾讯云短信服务 Hbb123654 腾讯云 java
1、提前配置1、已有腾讯云账号和服务器2、开通短信服务，创建签名和模板并通过审核，如：国内短信快速入门3、需要先购买国内短信套餐包。4、在访问管理控制台>API密钥管理页面获取SecretID和SecretKey。5、安装最新版本的Maven依赖com.tencentcloudapitencentcloud-sdk-java3.1.10002、Java代码逻辑实例1、短信工具类方法/***Tenc
入门到入土，Java学习 day17(Lambda表达式，集合进阶) 慕容魏 java 学习 python
publicstaticStringtoString(数组)把数组拼接成一个字符串publicstaticintbinarySearch(数组，查找的元素)二分查找法找元素publicstaticint[]copyOf(原数组，新数组长度)拷贝数组长度小就拷贝几个，长度一样完全拷贝，长度大后面补默认值publicstaticint[]copyOfRange(原数组，起始索引，结束索引)拷贝数组（指
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
C程序员驯服Common Lisp - 入门 - [语言探索]<转载> acool555 lisp 语言 c 编程 documentation fortran
版权声明：转载时请以超链接形式标明文章原始出处和作者信息及本声明http://bigwhite.blogbus.com/logs/158733479.html毫无疑问，CommonLisp是一门庞大且复杂的语言，学习曲线并不平坦。对于一个从未接触过函数式语言、交互式语言以及动态类型语言的C程序员来说，学习CommonLisp显然是一个很大的挑战。也许有人会问："C语言已经无所不能了，为何还要学习C
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
（十一）人工智能 - Python 教程 - Python元组星星学霸人工智能 -Python系列教程 python 搜索引擎开发语言
更多系列教程，每天更新更多教程关注：xxxueba.com星星学霸1元组（Tuple）元组是有序且不可更改的集合。在Python中，元组是用圆括号编写的。实例创建元组：thistuple=("apple","banana","cherry")print(thistuple)("apple","banana","cherry")2访问元组元素可以通过引用方括号内的索引号来访问元组元素：实例打印元组中
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
嵌入式软件工程师为什么要撰写博客？——开启技术进阶与职业发展的双重大门 Electron-er 软件需求嵌入式硬件架构单片机人工智能
目录一、技术沉淀：构建嵌入式知识复利系统知识沉淀的三层架构二、职业发展：量化个人技术品牌价值职业价值评估模型三、社区贡献：推动嵌入式技术生态演进知识传播的涟漪效应四、写作方法论：打造专业级技术博客内容开发五步法可视化增强技术五、数据验证：博客投资回报率分析六、实践指南：从入门到专家的路径规划博客运营路线图关键成功要素结语一、技术沉淀：构建嵌入式知识复利系统在嵌入式开发领域，寄存器操作、RTOS调度
2025版最新如何参加护网行动？零基础入门到精通，收藏这篇就够了！程序媛西米网络安全 web安全网络安全 HVV 护网行动网络安全计算机
1.什么是护网行动护网行动是以公安部牵头的，用以评估企事业单位的网络安全的活动。具体实践中，公安部会组织攻防两方，进攻方会在一个月内对防守方发动网络攻击，检测出防守方（企事业单位）存在的安全漏洞。通过与进攻方的对抗，企事业单位网络、系统以及设备等的安全能力会大大提高。“护网行动”是国家应对网络安全问题所做的重要布局之一。“护网行动”从2016年开始，随着我国对网络安全的重视，涉及单位不断扩大，越来
CES Asia2025新机制引关注，科技创新奖申报火热赛逸展张胜科技
随着2025第七届亚洲消费电子技术贸易展（赛逸展）“展位即门票”机制的推出，科技创新奖的申报工作也正式拉开帷幕。截至目前，已有数十家企业提交了申报材料，涵盖人工智能、物联网、智能硬件等多个热门领域。据了解，CESAsia2025科技创新奖旨在表彰在科技研发和产品创新方面取得卓越成就的企业。此次申报面向所有预订展位的参展企业，评审过程将由行业专家、院士，协会，学者和媒体代表共同参与，确保评选结果的公
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
所有网站都必须做域名备案吗？域名域名申请备案
在互联网的蓬勃发展进程中，网站如雨后春笋般涌现。然而，并非所有网站在上线前都需经历相同流程，其中网站域名备案这一关键环节，在特定情况下才成为必然要求。一、国内网站必须要做网站域名备案？从法规层面来看，我国有着明确且严格的规定。依据相关互联网管理法规，在境内提供非经营性互联网信息服务，必须办理备案。这一规定为绝大多数个人网站以及众多企业宣传展示类网站划定了清晰的准入门槛。举例而言，个人搭建的兴趣博客
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
python任务调度平台界面_分布式任务调度平台XXL-JOB weixin_39572764 python任务调度平台界面
以前带我的人说过，最好的学习就是看官方文档，个人也有4个T的学习视频，但是会发现讲的都是入门，有的也比较浅。官方文档比较官方，也比较权威，打开xxl-job的官网，写的贼详细，有些人喜欢收博客，不喜欢看官网，因此就直接复制过来了，过段时间会参考文档，自己来一遍。一、简介1.1概述XXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司
micropython入门指南电子版_MicroPython入门指南 EchiTie
Python是一种脚本语言，是一款非常容易使用的脚本语言，语法简介、使用简单、功能强大、容易扩展。有非常多的库可以使用。网络功能和计算功能也很强。方便的和其他语言配合使用。完全开源，受到原来越多的开发者青睐。不过由于受到硬件成本、运行性能、开发习惯等原因。没有在通用嵌入式方面得到太多应用。所以microPython应运而生。MicroPython可以在多种嵌入式硬件平台上运行,目前已经有STM32
Go语言入门基础详解老胖闲聊 go golang 开发语言后端
一、语言历史背景Go语言由Google工程师RobertGriesemer、RobPike和KenThompson于2007年设计，2009年正式开源。设计目标：兼具Python的开发效率与C的执行性能内置并发支持（goroutine/channel）简洁的类型系统现代化的包管理跨平台编译能力//经典HelloWorld示例packagemain//声明包名import"fmt"//导入标准库fu
Java 方法引用（Method Reference）从入门到精通秋‍. JAVA 开发语言 java 方法引用
方法引用概述方法引用（MethodReference）是Java8引入的一种简洁的Lambda表达式写法。它允许我们直接引用已有的方法，而不必重复实现Lambda代码，使代码更加简洁、可读性更强。方法引用的基本语法如下：类名::静态方法名对象名::实例方法名类名::实例方法名类名::new//构造方法引用主要类型引用静态方法引用特定对象的实例方法//需要形参和返回值类型一样引用某个类的任意对象的实
linux课程总结 mightySheldor linux课程
linux世界很大，我想去学学。从第一周到现在，每周的博客分享对我的帮助很大。不仅将自己学到的东西写下来加深了印象，同时也方便自己和别人日后查阅。虽然只是入门讲解，但是希望能对像笔者一样的菜鸟有帮助。一、每周bolg汇总下面是对每周blog的一个导航和概述。第一周：浅谈计算机是如何工作的通过这个简单的c程序，大致分析了计算机的工作情况，主要是栈的调用。冯诺依曼机指出程序与数据一样存贮，按程序编排的
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载拓端研究室百度人工智能
原文链接：https://tecdat.cn/?p=40348在当今快速发展的商业环境中，采购和供应链管理领域正经历着深刻变革，人工智能（AI）技术的融入成为推动这一变革的关键力量。本报告汇总解读聚焦于AI在采购和供应链管理中的应用，深入剖析其发展现状、面临挑战与潜在机遇。通过对大量数据的分析，揭示AI技术在实际应用中的具体表现，如不同行业的采用比例、应用场景等。本报告汇总洞察基于文末135份供应
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
【Agent实战】发票信息识别提取专家（AI +OCR技术结合ChatGPT4o能力+结构化prompt（CoT、One-shot等）+Knowledge - RAG+API工具Agent项目实践）姚瑞南大模型落地探索及agent搭建 RAG技术应用探索 prompt实战应用案例人工智能 ocr prompt AIGC chatgpt gpt agi
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录1.项目背景2.项目目标定性：定量：3.发票核心字段概述4.关键举措5.Workflow设计思路及编排5.1整体设计思路5.2流程搭建及解读流程解读：代码节点：解析agent数据
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
你所不知道的关于AI的27个冷知识——AI的军事应用贫苦游商 transformer 人工智能自动化算法 gpt
AI的军事应用亲爱的朋友们，今天我们要踏入一个既神秘又令人激动的领域——人工智能（AI）在军事中的应用。想象一下，一个由智能机器人和无人机组成的军队，能够进行精准打击和复杂的战略部署，这一切听起来像是科幻电影中的场景，但在现实中已经逐渐成为可能。让我们一起探索AI在军事中的奇妙应用以及它所带来的挑战。智能无人机：空中的无形战士首先，让我们飞向天空，看看那些令人惊叹的智能无人机。这些无人机不仅能进行
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。