普修罗双战士

人工智能福利站，初识人工智能，机器学习，第二课

作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。
多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。
欢迎点赞✍评论⭐收藏

人工智能领域知识

链接	专栏
人工智能专业知识学习一	机器学习专栏
人工智能专业知识学习二	机器学习专栏

文章目录

初识人工智能(机器学习)
- 一、机器学习(2)
- - 11. 什么是特征选择和特征提取？
  - 12. 解释一下正则化。
  - 13. 什么是ROC曲线和AUC？
  - 14. 什么是混淆矩阵？如何计算精确度、召回率和F1分数？
  - 15. 什么是互信息？
  - 16. 什么是主成分分析（PCA）？
  - 17. 什么是支持向量机（SVM）？
  - 18. 什么是决策树？它是如何工作的？
  - 19. 什么是随机森林？
  - 20. 什么是朴素贝叶斯？它是如何工作的？

初识人工智能(机器学习)

一、机器学习(2)

11. 什么是特征选择和特征提取？

特征选择（Feature Selection）和特征提取（Feature Extraction）是在机器学习和数据分析中常用的方法，用于减少特征维度、提取有用信息和改善模型性能。

1.特征选择（Feature Selection）：特征选择是从原始数据集中选择最具有预测能力的特征子集的过程。通过特征选择，可以减少特征维度，提高模型的简洁性和解释性，并降低训练和预测的计算成本。常见的特征选择方法包括：

过滤法（Filter）：通过统计指标、相关性或信息论方法来评估特征的重要性，然后选择最相关的特征。
封装法（Wrapper）：在模型的训练过程中，通过评估模型的性能来选择特征子集。
嵌入法（Embedded）：在模型训练过程中，通过正则化或学习算法自动选择最重要的特征。

2.特征提取（Feature Extraction）：特征提取是将原始特征转换为新的、更具有表达能力的特征表示的过程。通过特征提取，可以发现数据中的潜在结构和相关性，减少冗余信息，并提高模型的泛化能力。常见的特征提取方法包括：

主成分分析（PCA）：通过线性变换将原始特征映射到一个更低维度的空间，保留最重要的特征和方差。
独立成分分析（ICA）：通过寻找最大独立性的低阶投影，对原始特征进行独立分解。
字典学习（Dictionary Learning）：根据数据特点，学习一组稀疏的基向量来表示原始特征，从而提取有用的信息。

特征选择和特征提取都是为了提高模型的性能和效率，但它们的方法和目的略有不同。特征选择关注于从原始特征中选择具有较高预测能力的特征，而特征提取则是在保留原始特征信息的基础上，通过转换或降维等方法提取更有表达能力的特征。这两种方法可以单独应用，也可以结合使用，以获得更好的结果。具体选择哪种方法取决于数据的性质和问题的需求。

12. 解释一下正则化。

正则化（Regularization）是一种用于控制模型复杂度的技术，通过在模型的损失函数中引入额外的惩罚项来避免过拟合问题。

在机器学习中，模型的复杂度往往与模型的参数数量和取值范围有关。当模型过于复杂时，它可能会过度拟合训练数据，对于噪声和细小变化过于敏感，导致在新数据上的预测性能下降。

为了解决过拟合问题，正则化通过在损失函数中引入一个正则化项，来约束模型的参数，降低模型的复杂度。常见的正则化方式有 L1 正则化和 L2 正则化：

L1 正则化：L1 正则化将模型的正则化项设置为参数的绝对值之和的乘以一个正则化系数。它的效果是使得部分参数变为零，从而达到特征选择的效果。L1 正则化可以使得模型更加稀疏，即只有少数重要的特征对模型的预测起到贡献。
L2 正则化：L2 正则化将模型的正则化项设置为参数的平方之和的乘以一个正则化系数。与 L1 正则化不同，L2 正则化会对所有参数进行惩罚。L2 正则化优化的是模型的平方和，并且对于大的参数值施加更重的惩罚，因此可以控制模型参数的平滑程度。

正则化可以通过在优化算法中将正则化项加到损失函数中来实现。正则化的影响力由正则化系数调整，较大的正则化系数将对模型的参数施加更强的限制。

通过适当的正则化，可以提高模型的泛化能力，减少过拟合的风险。然而，过大的正则化系数也可能导致欠拟合问题。因此，在应用正则化时，需要选择合适的正则化系数，进行调参来获得最佳的模型性能。

13. 什么是ROC曲线和AUC？

ROC 曲线（Receiver Operating Characteristic curve）是一种用于评估二分类模型性能的工具，它显示了在不同分类阈值下真阳性率（True Positive Rate，也称为召回率）和假阳性率（False Positive Rate）之间的关系。

ROC 曲线的横轴是假阳性率（FPR），定义为实际为负样本但被错误地预测为正样本的比例。纵轴是真阳性率（TPR），定义为实际为正样本且被正确地预测为正样本的比例，即召回率。

ROC 曲线的形状、位置和面积可以提供模型在不同分类阈值下的性能信息。更接近左上角的曲线表示模型具有更好的分类能力。一个理想的模型将会经过左上角（0, 1）的点，这代表着没有假阳性的同时实现了完美的真阳性。

AUC（Area Under the ROC Curve）是 ROC 曲线下的面积，用来衡量模型在所有分类阈值下的平均性能。AUC 的取值范围在 0 到 1 之间，其中 0.5 表示模型的性能与随机猜测相当，而 1 表示模型完美地分类样本。通常来说，AUC 越大，模型的性能越好。

ROC 曲线和 AUC 提供了一种综合性的性能评估，尤其适用于不同模型之间的比较。在实际应用中，可以根据具体需求选择合适的分类阈值，根据 ROC 曲线和 AUC 来确定模型的最佳性能和阈值选择策略。

需要注意的是，ROC 曲线和 AUC 在有些情况下可能会存在一些局限性，特别是在处理数据不平衡、丢失重要信息或特定问题领域的场景中。因此，结合其他评估指标和领域知识，对模型进行全面的评估和比较是很重要的。

14. 什么是混淆矩阵？如何计算精确度、召回率和F1分数？

混淆矩阵（Confusion Matrix），也称为误差矩阵，是用于衡量二分类模型在测试数据上预测结果的性能的一种表格形式的矩阵。它将预测结果与真实类标进行比较，展示了模型的分类准确性。

混淆矩阵的四个重要指标包括：

真正例（True Positive，TP）：表示模型正确地预测为正类的样本数量。
假正例（False Positive，FP）：表示模型错误地预测为正类的样本数量。
假反例（False Negative，FN）：表示模型错误地预测为负类的样本数量。
真反例（True Negative，TN）：表示模型正确地预测为负类的样本数量。

基于混淆矩阵，可以计算以下指标：

精确度（Precision）：表示模型预测为正类的样本中，真正为正类的比例，计算公式为 TP / (TP + FP)。精确度衡量了模型的预测正样本的准确率。
召回率（Recall）或真阳性率（True Positive Rate，TPR）：表示模型正确预测为正类的样本在所有正类样本中的比例，计算公式为 TP / (TP + FN)。召回率衡量了模型对于正样本的识别能力。
F1 分数：为精确度和召回率的调和平均值，综合考虑了两者的权衡。计算公式为 2 * (精确度 * 召回率) / (精确度 + 召回率)。F1 分数可用作衡量模型在精确度和召回率之间的平衡情况，如果模型在精确度和召回率中均有高得分，则 F1 分数也会较高。

这些指标提供了关于分类模型性能的不同方面的信息。精确度和召回率在不同业务场景中可能有不同的重要性，因此根据实际需求可以选择适合的评估指标或调整分类阈值。

需要注意的是，混淆矩阵和上述指标是用于二分类模型的评估。对于多分类问题，可以对每个类别分别计算混淆矩阵和指标，或使用宏平均或微平均等方法得到整体的评估结果。

15. 什么是互信息？

互信息（Mutual Information）是一种用来度量两个变量之间相关性的非负值指标。它量化了两个变量之间的相互依赖程度或关联强度。

互信息的定义基于信息论的概念。给定两个随机变量 X 和 Y，它们的互信息表示 Y 的观察结果给予了关于 X 的观察结果多少额外的信息，或者反过来亦然，可以表示为 I(X; Y)。

互信息的计算可以通过联合概率分布和边缘概率分布来完成。具体公式如下：

I(X; Y) = Σ Σ P(x, y) * log(P(x, y) / (P(x) * P(y)))

其中，P(x, y) 是 X 和 Y 同时发生的联合概率，P(x) 和 P(y) 分别是 X 和 Y 的边缘概率。

互信息的值范围是非负的，值越高表示两个变量之间的相关性越强。当互信息等于零时，表示两个变量是独立的。

互信息常被应用于特征选择和特征相关性分析。在特征选择中，可以使用互信息衡量每个特征与目标变量之间的相关性，从而选择具有较高互信息的特征作为有用的特征。在特征相关性分析中，互信息可以帮助了解两个特征之间的关联程度，有助于理解数据的内在结构和相互影响关系。

需要注意的是，互信息对于变量之间的非线性关系和高维数据可能存在一定的限制。在某些情况下，可能需要结合其他的统计方法或考虑更复杂的模型来进一步分析和描述变量之间的关系。

16. 什么是主成分分析（PCA）？

主成分分析（Principal Component Analysis，PCA）是一种常用的无监督学习算法，用于降低高维数据的维度并找到最具代表性的特征。

PCA 主要通过线性变换将原始数据投影到新的坐标系上，新坐标系中的每个维度被称为主成分。这些主成分是原始数据中方差最大的方向，按照方差的降序排列。通过保留前k个主成分，可以将高维数据降低为低维数据，同时尽可能保留原始数据的重要信息。

PCA 的主要步骤如下：

数据标准化：将原始数据进行标准化处理，使得每个特征的均值为0，方差为1，以消除特征之间的量纲差异。
计算协方差矩阵：计算标准化后的数据的协方差矩阵，用于衡量数据中各个特征之间的相关性。
特征值分解：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。
特征值排序：按照特征值的大小降序排列，选择前k个特征值对应的特征向量作为主成分。
数据投影：将原始数据投影到选取的主成分上，得到降维后的数据。

通过使用 PCA，我们可以实现以下目标：

数据降维：通过选择较低维度的主成分，可以减少存储和计算成本，同时减少冗余信息和噪音。
特征提取：通过选择最具代表性的主成分，可以提取出原始数据中最重要的特征，有助于理解数据的内在结构和关联关系。
数据可视化：通过将数据降低为2或3维，可以将高维数据可视化为二维或三维图形，以便于观察和分析。

使用 PCA 需要注意一些要点，包括选择适当的主成分数量、数据的线性相关性、数据的分布等，同时 PCA 对非线性和高度相关的数据可能效果不佳，此时可能需要考虑其他降维方法。

17. 什么是支持向量机（SVM）？

支持向量机（Support Vector Machine，SVM）是一种常用的机器学习算法，用于分类和回归任务。

SVM 的目标是通过找到一个最优的超平面（二维为直线，三维为平面，更高维为超平面），将不同类别的样本分隔开。在二分类任务中，SVM 根据训练样本的特征向量构建超平面，并希望使得两个不同类别的样本分别位于超平面的两侧，并且使得离超平面最近的样本点到超平面的距离最大化。这些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。

SVM 的主要特点包括：

非线性分类能力：SVM 可以通过使用核函数（kernel function）将样本映射到更高维度的空间中，从而处理非线性分类问题。
最大化间隔：SVM 的优化目标是找到一个最大化支持向量到超平面距离的超平面，以实现更好的泛化性能，这被称为最大间隔分类器（maximum margin classifier）。
控制过拟合：通过设置正则化参数（即惩罚因子）和核函数的参数等，可以控制 SVM 的复杂度，从而减少过拟合的风险。
处理少量样本：由于 SVM 只依赖于支持向量，因此它可以有效地处理具有较少样本的数据集。

除了用于分类任务外，SVM 还可以用于回归任务，称为支持向量回归（Support Vector Regression，SVR）。SVR 的目标是找到一个最优的超平面，使得大部分样本点在超平面的 ε 范围内，并最大化离超平面的样本点个数。

靠近超平面的数据点被称为边界样本，它们对构造合适的决策边界起到关键作用。SVM 主要的挑战之一是选择合适的核函数和参数，以及处理高维和大规模数据的效率。选择合适的核函数和参数可以显著影响 SVM 的性能和泛化能力。

18. 什么是决策树？它是如何工作的？

决策树（Decision Tree）是一种常用的监督学习算法，用于分类和回归任务。它通过构建一个树状结构模型来进行决策，每个内部节点表示一个特征或属性，叶节点表示类别或值。

决策树的工作原理如下：

特征选择：从训练数据集中选择最佳的特征作为根节点。特征选择的标准可以有多种，常用的有信息增益、基尼系数和方差等。
分裂节点：将训练样本根据根节点的特征值划分到不同的子节点中。每个子节点都代表一个分支，根据样本在特征上的取值将其分配到对应的子节点中。
递归构建：对于每个子节点，重复步骤1和步骤2，直到满足终止条件，如达到最大深度、样本数量小于预定阈值或节点纯度达到一定程度。
树剪枝：通过剪枝操作，避免过度拟合。剪枝可以通过预剪枝（在构建过程中进行剪枝）和后剪枝（在构建完成后进行剪枝）来实现。
预测：将测试样本从根节点开始，根据特征值逐步沿着决策树的路径向下，直到叶节点，根据叶节点的类别或值进行预测。

决策树的优点包括：

可读性强：决策树模型易于理解和解释，可以通过图形化的方式直观地展示决策过程。
特征选择：决策树可以自动选择重要特征，其特征选择过程可以用于特征工程和特征分析。
处理混合数据：决策树可以处理包含分类和数值型特征、缺失值等多种类型的数据。
不需依赖领域知识：相比其他算法，决策树算法不需要依赖领域知识和统计先验知识。

然而，决策树也存在一些缺点：

过拟合风险：决策树容易过拟合训练数据，并在新数据上表现不佳。可以通过剪枝、设置最大深度和最小样本数等手段减少过拟合。
不稳定性：决策树对于数据的微小变化可能会产生较大的变化，易受噪音和样本扰动的影响。
数据不平衡问题：在处理不平衡数据时，决策树可能倾向于选择具有更多样本的类别。

为了克服决策树的局限性，还有一些改进的决策树算法，如随机森林（Random Forest）和梯度提升决策树（Gradient Boosted Decision Trees）等。这些算法通过集成多个决策树来提高模型的性能和鲁棒性。

19. 什么是随机森林？

随机森林（Random Forest）是一种集成学习（Ensemble Learning）算法，基于决策树构建而成。它结合了多个决策树的预测来做出最终的决策，并且在构建每个决策树时采用了随机性。

随机森林的基本原理是：

随机采样：从原始训练集中进行随机有放回抽样（Bootstrap）得到多个不同的训练子集。
随机特征选择：对于每个训练子集，从所有特征中随机选择一部分特征用于树的构建。
决策树构建：对于每个训练子集和选定的特征，构建一个决策树。特征选择过程通常通过信息增益、基尼系数等进行。
预测集成：对于新的样本，通过对每个决策树的预测结果进行投票（分类问题）或平均（回归问题）来得到最终的预测结果。

随机森林的优点包括：

高鲁棒性：通过集成多个决策树的预测结果，减少了单个决策树的过拟合风险，提高了模型的鲁棒性和泛化能力。
处理高维数据：随机森林可以处理具有大量特征的高维数据，自动选择重要特征，并可以进行变量重要性排序。
处理不平衡数据：随机森林通过随机采样均衡了数据集，同时由于每个决策树是独立构建的，可以分别对不同类别样本进行处理。
可伸缩性：随机森林可以并行训练和预测，适用于大规模数据集和高性能计算环境。

随机森林的一些扩展和改进包括：

Extremely Randomized Trees：构建决策树时进一步增加随机性，将特征的划分阈值随机选择。
梯度提升随机森林（Gradient Boosted Random Forests）：将梯度提升算法与随机森林结合，进一步提高预测性能。

总结来说，随机森林是一种强大的机器学习算法，通过集成多个决策树的预测结果，充分利用了数据集中的信息，同时减少了决策树的过拟合风险。它适用于分类和回归问题，可以应用于各种领域的数据分析和预测任务。

20. 什么是朴素贝叶斯？它是如何工作的？

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的简单且常用的分类算法。它假设特征之间相互独立，即"朴素"的假设。

朴素贝叶斯的工作过程如下：

数据准备：首先，需要准备一个带有类别标签的训练数据集，以及待预测的测试样本。
特征选择：从训练数据集中选择要作为预测因子的特征。朴素贝叶斯算法通常用于处理文本分类问题，特征可以是词语、句子或其他文本相关的属性。
计算类别的先验概率：对于每个类别，计算其在训练数据集中出现的频率，得到类别的先验概率。
计算特征的条件概率：对于每个特征与每个类别的组合，计算在该类别下该特征出现的概率，得到特征的条件概率。朴素贝叶斯假设特征之间相互独立，因此可以将特征的条件概率拆分为各个特征的单独概率。
预测类别：对于待预测的测试样本，对每个类别计算其后验概率。后验概率是指在给定特征条件下某个类别出现的概率，由贝叶斯定理计算得到。选择具有最高后验概率的类别作为预测结果。

朴素贝叶斯的优点包括：

简单高效：朴素贝叶斯算法具有简单的假设和快速的训练速度。
适用于高维数据：由于特征之间假设相互独立，它可以很好地处理大量的特征。
对小规模数据有效：朴素贝叶斯算法在小规模数据集上也能表现出良好的性能。

然而，朴素贝叶斯也具有一些限制：

强独立性假设：由于朴素贝叶斯假设特征之间相互独立，这在某些情况下可能不符合实际情况，导致预测结果不准确。
对缺失数据敏感：朴素贝叶斯算法无法处理包含缺失数据的情况，需要进行额外的处理。
零概率问题：当某个特征在训练集中没有出现时，朴素贝叶斯会估计其概率为零，这可能导致预测结果不准确。

尽管朴素贝叶斯算法在现实应用中可能存在一些限制，但它仍然是一个简单而有效的分类算法，广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

人工智能导论--第1章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
请根据教材内容，完成进行下面的作业任务。必须包含有教材的具体内容，不能是生成式AI系统的生成内容。参考教材1.1节的内容介绍，谈谈你对“智能”的认识。思维能力是智能的重要特征之一，结合教材1.1.2节内容，从思维的定义、分类及其特点等角度，阐述思维的含义。参考教材1.1.3节的内容介绍，名词解析“人工智能”。参考教材1.2节的内容介绍，介绍人工智能的发展简史。参考教材1.3节的内容介绍，人工智能作
Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
老玩童：互联网智慧助老平台——科技赋能银发族，开启智慧养老新生活 IT源码大师科技生活
详细描述：1.引言随着全球老龄化社会的加速到来，老年人的生活质量和社会参与度成为社会关注的焦点。传统的养老服务模式往往存在资源不足、服务单一、效率低下等问题，难以满足老年人日益增长的多样化需求。基于互联网技术的智慧助老平台“老玩童”，通过整合物联网、大数据、人工智能等先进技术，构建了一个全方位、智能化、个性化的助老服务体系，为老年人及其家庭提供了全新的解决方案。本文将深入探讨这一平台的核心理念、技
什么是ROS2 听风胖耗子机器人
ROS是机器人操作系统的简称，它本身并不是一个操作系统，而是可以安装在现在已有的操作系统（Linux、Windows、Mac）上的一组用于构建机器人应用程序的软件库和工具集。ROS包括两个版本ROS1和ROS2，ROS1是在2007年由斯坦福大学人工智能实验室与机器人技术公司WillowGarage为了个人机器人项目的合作而开发的，2008年后由WillowGarage来进行推动，目前由开源机器人
从零开始大模型开发与微调：汉字拼音数据集处理 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：汉字拼音数据集处理1.背景介绍1.1问题的由来在人工智能领域，自然语言处理（NLP）是一项基础且重要的研究方向。随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModel，LLM）在NLP领域取得了显著的成果。然而，LLM的训练与微调过程往往需要海量的文本数据，而这些数据通常以自然语言形式存在，难以直接用于模型训练。因此，如何从自然语言数据中提取结构
本地部署LLM工具大比拼：谁才是你的智能之选？ Python_金钱豹 microsoft ocr 人工智能 cnn transformer 分类
在人工智能的浪潮中，本地部署LLM工具为我们开启了个性化智能交互的新大门。今天，就带大家深入对比几款热门的本地部署LLM工具：ollama、Llamafile、jan、LLaMa.cpp、GPT4All、LMStudio，从多个关键角度剖析它们的特点与优势，助你挑选出最契合自身需求的智能伙伴。一、安装使用便捷性大排名1.ollama：轻松上手的智能先锋ollama的安装便捷性堪称一流。只需一条简单
python cv2 matchtemplate_机器学习进阶-图像金字塔与轮廓检测-模板匹配（单目标匹配和多目标匹配）1.cv2.matchTemplate(进行模板匹配) 2.cv2.minMa... weixin_39621044 python cv2 matchtemplate
1.cv2.matchTemplate(src,template,method)#用于进行模板匹配参数说明：src目标图像，template模板，method使用什么指标做模板的匹配度指标2.min_val,max_val,min_loc,max_loc=cv2.minMaxLoc(ret)#找出矩阵中最大值和最小值，即其对应的(x,y)的位置参数说明：min_val，max_val,min_lo
机器学习进阶-图像金字塔与轮廓检测-图像金字塔(拉普拉斯金字塔) weixin_33908217 人工智能 python
拉普拉斯金字塔:使用原始图片-pyrUp(pyrDown(Gi))，获得的结果有一点像边缘轮廓的提取上图的意思：1.进行低通滤波2.进行样本的下采样3.进行样本的上采样4.原始图片-经过上面三步后的图片代码：第一步：读入图片第二步：进行样本的下采样第三步：进行样本的上采样第四步：原始图片-变化后的图片importcv2importnumpyasnpimg=cv2.imread('AM.png')#
一张图看懂AI技术架构！开发、训练、部署全链路深度解析！和老莫一起学AI 人工智能数据挖掘学习 llama ai 大模型程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
Forbes：2025年人工智能发展前瞻人工智能学家人工智能百度
来源：科技世代千高原克雷格·S·史密斯CraigS.Smith2025年1月7日技术发展速度飞快，转眼间，星辰延伸成星线，我们今天所处的位置与几天前相去甚远。越来越难以预测明天我们会身在何处。有一点是明确的：我们正在进入通用人工智能(AGI)领域，超级人工智能(ASI)现在似乎触手可及。无论如何定义，AGI不会突然出现；它会不断发展，我们已经看到了它逐渐展开的迹象。AGI的曙光AGI一直以来都是我
数字化转型导师坚鹏：AI大模型DEEPSEEK重构人工智能格局的里程碑银行数字化转型导师坚鹏人工智能重构 DEEPSEEK AI
数字化转型导师坚鹏：AI大模型DEEPSEEK重构人工智能格局的里程碑在人工智能领域迅猛发展的浪潮中，每一次重大技术突破都犹如一颗投入平静湖面的巨石，激起千层浪。DEEPSEEK的发布，无疑是近期人工智能领域最受瞩目的事件之一。凭借其独特的技术优势和创新理念，DEEPSEEK迅速在全球人工智能舞台上崭露头角，对现有的人工智能格局产生了多维度、深层次的影响。一、技术突破：从"追赶者"到"规则制定者"
决策树ID3算法小波LFZZB 算法决策树机器学习数据挖掘 sklearn
决策树决策树概念决策树，一种基于规则的机器学习方法，主要用于分类和回归，常用作机器学习中的预测模型。树形结构图，树中每个节点表示某个对象，每个分叉路径代表的某个可能的属性值，每个叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。它通过递归地划分数据空间并在每个分区内拟合一个简单的预测模型来工作。选择分区是为了在每个细分中最大化目标变量的同质性。决策树特点1.树形结构决策树由根节点、内部节点
监督学习、无监督学习和强化学习的特点和应用场景 BugNest AI 学习 ai 机器学习人工智能
在机器学习中，监督学习、无监督学习和强化学习是三种核心的学习范式，它们各自具有独特的特点和应用场景。以下是对这三种学习方法的详细对比和总结：监督学习（SupervisedLearning）特点：数据标注：训练数据包含明确的输入特征和对应的标签（目标输出）。学习方式：模型通过学习输入特征和标签之间的关系来进行训练，这种关系通常表现为一个映射函数。预测能力：一旦训练完成，模型能够对新的、未见过的输入数
AI在虚拟试衣中的应用：革新在线购物体验 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI在虚拟试衣中的应用：革新在线购物体验关键词：虚拟试衣,增强现实,在线购物,深度学习,图像识别,人工智能,用户交互1.背景介绍1.1问题由来随着电子商务的迅猛发展，在线购物已经成为人们日常生活的一部分。然而，由于无法亲身试穿，在线购物体验在满足用户个性化需求方面仍存在诸多不足。传统的网页图片展示和文字描述难以真实传达衣物的质地、颜色和尺寸。因此，虚拟试衣技术应运而生，成为电商平台上提升用户体验的
柳暗花明又一村：Seq2Seq编码器解码器架构 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
Seq2Seq,编码器-解码器,自然语言处理,机器翻译,文本生成,循环神经网络,长短期记忆网络1.背景介绍在人工智能领域，自然语言处理(NLP)始终是研究的热点之一。从机器翻译到文本摘要，从对话系统到问答机器人，Seq2Seq编码器-解码器架构在众多NLP任务中展现出强大的能力。传统的机器翻译方法通常依赖于统计模型和规则引擎，难以捕捉语言的复杂性和语义关系。随着深度学习的兴起，Seq2Seq架构为
python（scikit-learn）实现k均值聚类算法嘿哈哈哈哈哈哈机器学习聚类 python 算法机器学习人工智能
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltx=np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans=KMeans(n_
《C++ 赋能 K-Means 聚类算法：开启智能数据分类之旅》 c++c#
在当今数字化浪潮汹涌澎湃的时代，人工智能无疑是引领科技变革的核心驱动力之一。而在人工智能的广袤天地中，数据分类与聚类作为挖掘数据内在价值、揭示数据潜在规律的关键技术手段，正发挥着前所未有的重要作用。K-Means聚类算法，作为数据聚类领域的经典之作，以其简洁高效的特性而备受瞩目。当我们将目光聚焦于C++这一强大而高效的编程语言时，会发现它与K-Means聚类算法的结合犹如天作之合，能够为数据处理与
《解锁AI黑科技：数据分类聚类与可视化》程序猿阿伟人工智能科技分类
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
Scikit-Learn K均值聚类对许 #Python #人工智能与机器学习 scikit-learn 聚类机器学习
Scikit-LearnK均值聚类1、K均值聚类1.1、K均值聚类及原理1.2、K均值聚类的优缺点1.3、聚类与分类的区别2、Scikit-LearnK均值聚类2.1、Scikit-LearnK均值聚类API2.2、K均值聚类初体验（寻找最佳K）2.3、K均值聚类案例1、K均值聚类K-均值（K-Means）是一种聚类算法，属于无监督学习。K-Means在机器学习知识结构中的位置如下：1.1、K均值
数据挖掘常用算法优缺点分析天波烟客00 数据挖掘数据挖掘机器学习
领取机器学习视频教程：http://www.admin444.com/P-c8129a48常用的机器学习、数据挖掘方法有分类，回归，聚类，推荐，图像识别等。在实际应用中，一般都是采用启发式学习方式来实验。偏差&方差偏差：描述的是预测值（估计值）的期望与真实值之间的差距，偏差越大，越偏离真实数据。偏差bias其实是模型太简单而带来的估计不准确的部分---欠拟合方差：描述的是预测值的变化范围、离散程度
AI大模型基于LLM的Agent架构图解 AI产品经理人工智能深度学习语言模型学习
Agent定义Agent是什么？Agent是一种能够自主决策、采取行动以达到某种目标的实体。AIAgent的确定义：基于人工智能（尤其是大模型）技术，能够感知和理解环境，并采取行动以完成目标的智能实体。Agent能干什么？AIAgent主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标，智能化程度和行业贴合度会更明显。典型案例有什么？智能核保应用，如果解决方案搭载AIAgent能力，
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Scikit-learn提供了哪些机器学习算法以及如何使用Scikit-learn进行模型训练和评估 Java资深爱好者机器学习 scikit-learn 算法
Scikit-learn库的使用一、Scikit-learn提供的机器学习算法Scikit-learn（通常简称为sklearn）是一个广泛使用的Python机器学习库，它提供了多种用于数据挖掘和数据分析的算法。Scikit-learn支持的机器学习算法可以大致分为以下几类：分类算法：支持向量机（SVM）随机森林（RandomForest）逻辑回归（LogisticRegression）朴素贝叶斯
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
DeepSeek Janus-Pro：多模态AI模型的突破与创新大模型之路大模型（LLM）Deepseek deepseekr1 deepseek LLM 强化学习
近年来，人工智能领域取得了显著的进展，尤其是在多模态模型（MultimodalModels）方面。多模态模型能够同时处理和理解文本、图像等多种类型的数据，极大地扩展了AI的应用场景。DeepSeek(DeepSeek-V3深度剖析：下一代AI模型的全面解读)公司最新发布的Janus-Pro模型，正是在这一领域的一次重大突破。本文将深入探讨Janus-Pro的技术特点、创新之处以及其在多模态任务中的
因果关系推断与机器学习 hhhh106 读书笔记大数据
因果关系定义设X和Y是两个随机变量。定义X是Y的因，即因果关系X→Y存在，当且仅当Y的取值一定会随X的取值变化而发生变化。两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况：X是Y的因、X是Y的果、X与Y有共同原因(commoncause)。对于第三种情况，我们把这种不是因果关系的相关性叫作虚假相关(spuriouscorrelation)。机器学习模型是强大的
【中科院1区】Matlab实现黏菌优化算法SMA-RF锂电池健康状态估计算法研究 matlab科研助手 matlab 算法开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍摘要锂离子电池作为一种重要的储能器件，在电动汽车、便携式电子设备等领域发挥着至关重要的
【深度学习】因果推断与机器学习的高级实践数学建模_问题根因分析机器学习 2401_84239830 程序员深度学习机器学习数学建模
现阶段深度学习有三大特征：数据驱动：即数据训练，将数据输入到模型中进行训练；关联学习：模型基于给定训练数据集，进行关联学习；概率输出：即最后的输出，判断这个图片有“狗“的概率是多少。以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢？以一个简单的图片识别问题为例：识别一张图片中是否有狗。在很多预测问题中，我们拿到的数据集往往都是有偏的，比如我们拿到的数据中有80%的图片中狗都在草地上，这
因果推断与机器学习—因果推断入门（1）樱花的浪漫因果推断机器学习人工智能计算机视觉搜索引擎深度学习算法
在机器学习被广泛应用于对人类产生巨大影响的场景（如社交网络、电商、搜索引擎等）的今天，因果推断的重要性开始在机器学习社区的论文和演讲中被不断提及。图灵奖得主YoshuaBengio在对系统2（system2，这个说法来自心理学家DanielKahneman的作品，人类大脑由两套系统构成：系统1负责快速思考，做出下意识的反应；系统2则负责比较耗时的思考，如理解事物之间的因果关系）的畅想中强调，在实现
2025年编程AI工具概览 hawkol 人工智能
随着人工智能技术的飞速发展，编程AI工具在2025年已成为程序员和开发者的得力助手。这些工具不仅提高了编程效率，还在代码质量、自动化和创新性方面表现出显著优势。以下是一些在2025年备受推崇的编程AI工具:1.GitHubCopilotGitHubCopilot是由GitHub、OpenAl和Microsoft联合打造的一款高级代码生成和辅助工具。它基于OpenAl的Codex模型，能够理解自然语
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name