heyongluoyao8

[置顶] 算法&模型

在行业设备大数据平台建设中，势必要用到大数据技术，而大数据技术中，机器学习与数据挖掘算法是重要的一环，我们通过这些算法与模型对设备的故障进行监控与预测，对设备技改需求进行预测，对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。
在进行数据挖掘时，首先要进行商业理解，即我们需要达到什么目的，解决什么问题；其次需要进行数据理解，我们需要哪些数据以及需要什么样的数据；接着需要进行数据准备，即进行相关数据采集与读取，并进行数据预处理；继而建立相关模型，即使用什么算法与模型去解决这个问题；进而进行模型评估，即采用一些指标评价模型的好坏程度；然后，进行模型发布，即当模型的效果达到设定值之后，我们将模型进行上线发布；最后，进行模型更新，即使用后面的新生数据对模型进行更新，以达到更好的效果。

数据预处理：

现实的数据一般是不完整的、带有随机性的、游噪声的、与不一致的脏数据，数据质量不高，无法直接进行数据挖掘，或者挖掘的效果差强人意。为了以后的处理更加方便以及模型具有更好的效果，往往在使用模型之前需要对数据进行预处理。数据预处理包括：数据清理、数据集成、数据变换、数据归约。数据清理一般包括对数据纪录的缺失属性进行填充、对数据的噪声进行光滑操作、识别并删除数据中的异常或者离群点(在有些挖掘任务中则不需要处理，如欺诈行为识别)等。简而言之，包括数据缺失值处理、数据标准化、异常数据清除、数据错误纠正、重复数据删除等；数据集成是解决多个数据源可能带来的数据不一致问题，通过相关技术(如 ID Mapping)将多个数据源中的数据结合并统一存储，即建立数据仓库；数据变换，即将数据的各个属性通过平滑聚集、数据概化、数据规范化等方式将数据转换成适用于数据挖掘的形式；数据归约是指在数据挖掘中，往往数据量非常大，在少量数据上进行挖掘分析需要很长的时候，用来得到数据集的归约表示，它小得多，但仍然近于保持原数据的完整性，并结果与归约前的结果相同或者几乎相同。
常用的数据挖掘与机器学习模型包括分类模型、回归模型、聚类模型、预测模型、关联挖掘模型等。它们分别解决不同的任务以及不同的数据处理方式，并且每种模型中有着众多不同的算法，每种算法都适应不同的场景。

分类模型：

分类是指，存在一些实例，我们不知道它所属的离散类别，每个实例是一个特征向量，并且类别空间已知，分类即将这些未标注类别的实例映射到所属的类别上。分类模型是监督式学习模型，即分类需要使用一些已知类别的样本集去学习一个模式，用学习得到的模型来标注那些未知类别的实例。在构建分类模型的时候，需要用到训练集与测试集，训练集用来对模型的参数进行训练，而测试集则用来验证训练出来的模型的效果的好坏，即用来评价模型的好坏程度，常用的评价指标有准确率与召回率。针对不同的分类任务、不同的数据以及不同的适应场景，分类中有着不同的分类算法。常见的分类方法包括：决策树、贝叶斯、K近邻、支持向量机、基于关联规则、集成学习、人工神经网络。

1. 决策树

决策树是进行分类与预测的常见方法之一，决策树学习方法是从训练集中每个样本的属性进行构建一棵属性树，它按照一定的规则选择不同的属性作为树中的节点来构建属性和类别之间的关系，常用的属性选择方法有信息增益、信息增益率以及基尼系数等。它采用自顶而下递归构建这颗属性类别关系树，树的叶子节点便是每个类别，非叶子节点便是属性，节点之间的连线便是节点属性的不同取值范围。决策树构建后，便从决策树根节点开始从上到下对需要进行类别标注的实例进行属性值的比较，最后到达某个叶子节点，该叶子节点所对应的类别便是该实例的类别。常用的决策树算法有ID3、C4.5/C5.0、CART等。这些算法的区别主要在于属性选择的策略、决策树的结构(如决策树中出现重复属性)、是否采用剪枝以及剪枝的方法、是否处理大数据集(即算法的复杂度，包括时间与空间复杂度)等。

2. 贝叶斯分类器

贝叶斯分类算法是基于概率论中的贝叶斯公式对实例进行分类的算法，它使用贝叶斯公式计算实例特征向量下每个类别的条件概率，选择条件概率最大所对应的类别作为其类别。常见的贝叶斯分类算法包括朴素贝叶斯、贝叶斯网络等，区别在于假设属性之间是否条件独立。朴素贝叶斯是假设属性之间是条件独立的，但是这种假设往往是不成立的。而贝叶斯网络是假设部分属性之间是有关联的，从而构建一个属性有向网络。

3. K近邻

K近邻算法是基于实例的分类算法。该算法首先定义一个邻居范围，即设定邻居的个数，然后采用投票的方式来决定自己所属的类别，即多数战胜少数的策略，自己的类别为邻居中大部分所对应的类别。一般都是采用欧式距离，即选取欧式距离最近的K个已标注类别的样本作为自己的邻居，既可以采取邻居平等投票的方式，也可以采取邻居权值的方式进行投票，即不同的邻居的意见有着不同的权重，一般距离越近的邻居权重越大。该方法有个缺点就在于对每一个未知类别的实例都需要计算其与样本空间中所有样本的距离，因此复杂度过高，无法满足那些实时性要求较高的分类场景。

4. 支持向量机

支持向量机(SVM)是一种统计机器学习分类算法，它是建立在由Vapnik和Chervonenkis提出的统计学习理论的VC维理论和结构风险最小化原理的基础上。结构化风险等于经验风险加上置信风险，而经验风险为分类器在给定训练样本上的误差，置信风险为分类器在未知类别的实例集上的分类误差。给定的训练样本的数量越多，泛化能力越有可能越好，则学习效果越有可能更好，此时置信风险越小。以前的学习算法目标是降低经验风险，要降低经验风险，则需要增加模型对训练样本的拟合度，即提高分类模型的复杂度，此时会导致VC维很高，泛化能力就差，置信风险就高，所以结构风险也高。而SVM算法则是以最小化结构风险为目标，这便是SVM的优势。SVM是最大化分类几何间隔来构建最优分类超平面来提高模型的泛化能力的。并且引入核函数来降低VC维的。支持向量机在对未知类别的实例进行分类时使用该实例落在超平面哪个区域所对应的类别作为该实例的类别的。

5. 基于关联规则的分类器

基于关联规则的分类方法是基于关联规则挖掘的，它类似于关联规则挖掘，使用最小支持度与置信度来构建关联规则集：Xs->C，只是不同于关联规则挖掘，Xs是属性值对集合，而C则是类别。它首先从训练集中构建所有满足最小支持度与最小置信度的关联规则；然后使用这些关联规则来进行分类，该类型常见的算法有CBA、ADT等。

6. 集成学习

在实际应用中，单一的分类算法往往不能达到理想的分类效果，并且有时单一的分类器会导致过拟合。类似于三个臭皮匠率过一个诸葛亮的思想，使用多个分类器进行集成往往能够达到更好的分类效果。常见的集成方式包括Stacking、Bagging以及Boosting，常见的集成算法包括AdaBoost算法、GBDT、随机森林等。

7. 人工神经网络

人工神经网络模拟人脑的工作原理，使用节点之间的连接来模拟人脑中的神经元连接来进行信息处理的机器学习模型。人工神经网络包括输入层、隐含层、输出层。这些层以此使用不同的权值进行连接，每个节点(神经元)都有一个激励函数，用来模拟人脑神经元的抑制与兴奋。信息从输入层流通到输出层，并且使用训练集来学习网络中的权值，改善网络的效果。一般是使用梯度下降误差反向传播来对网络中的参数进行学习更新，以达到更多的误差，直到满足精度要求。在分类中，首先使用训练集样本对网络中的参数进行学习，然后从输入层输入未知实例的特征向量，输出层的输出便是其类别。常见的人工神经网络有：BP神经网络、RBF神经网络、循环神经网络、随机神经网络、竞争神经网络以及深度神经网络等。不同的神经网络用来处理不同的应用场景。
不同的分类算法适应着不同的应用场景。在选择分类算法是，需要考虑它们的有缺点。比如特别关注分类准确度，那么可以分别使用上述的分类算法，然后使用交叉验证选择最好的分类算法。首先，要考虑模型的训练集有多大。如果训练集较小，那么高偏差／低方差的分类器(如贝叶斯分类器、SVM、集成学习)要比低偏差／高方差的分类器具有优势，因为后者容易过拟合。然而随着训练集的增大，低偏差／高方差的分类器将开始具有优势(它们拥有更低的渐进误差)。然后要根据不同分类器的特点去选择。朴素贝叶斯简单，容易理解，但是需要假设属性之间条件独立。决策树解释性强，能够处理属性之间的交叉关系，并且模型是非参数化的，但是器不支持在线学习，于是在新样本到来后，决策树需要进行重建；以及容易过拟合。K近邻容易理解，简单，但是其复杂度高，不适合实时性要求高的场景。支持向量机具有很好的理论支持，分类准确率高，对于线性不可分的情况，可以使用核函数进行映射到高维空间而线性可分，但是只适合训练集较小的情况，内存消耗大。基于规则的分类器容易解释，规则容易建立，但是可能效果不佳；集成学习容易达到较好的分类效果，并且容易避免过拟合，但是它需要训练多个不同的分类器；人工神经网络效果好，能够以任意精度去拟合非线性分类器，但是模型解释性不强，并且训练复杂，学习速度慢。

回归模型：

回归模型是指通过对数据进行统计分析，得到能够对数据进行拟合的模型，确定两种或两种以上变量间相互依赖的定量关系。它与分类的区别在于其结果是连续的。包括线性回归与非线性回归。线性回归模型是假设自变量与因变量之间是一种线性关系，即自变量最高次是一次，然后使用训练集对模型中的各个参数进行训练学习，得到自变量与因变量之间的定量关系方程，最后将未知结果的实例代入方程得到结果，常用的算法是线性回归算法、L2正则的岭回归与L1正则的Lasso回归。而非线性回归则相反，是假设自变量与因变量之间的关系是非线性的，即自变量的最高次是大于1的。常用的非线性回归算法有逻辑回归、softmax回归、神经网络、支持向量机以及CART等。若在回归结果上面加一层，则可以达到分类的效果。

预测模型：

预测模型包括分类模型与回归模型，两者的区别在于前者是对离散值进行预测，而后者是对连续值进行预测。同时，在与时间有关的预测模型中，是根据历史的状态预测将来一段时间内的状态。如设备故障预测等。常用的算法包括自回归积分滑动平均模型(ARIMA)、灰度预测模型、循环神经网络以及深度学习模型等。
使用分类、回归模型对设备的故障进行预测以便在设备故障发生之前就进行维修，对设备采购需求、设备技改、设备剩余寿命进行预测，同时可以对设备的故障进行分类等。

聚类模型：

聚类分析是数据挖掘的重要研究内容与热点问题。其由来已久，国外可以追溯到亚里士多德时代。在中国，很久之前便流传着“物以类聚，人以群分”的聚类思想。从而可知聚类是一个非常古来的问题，它伴随着人类社会的产生与发展而不断深化。人们通过事物之间的区别性与相似性来认识与改造世界，将相似的对象聚集到一起。聚类便是按照某种相似性度量方法对一个集合进行划分成多个类簇，使得同一个类簇之间的相似性高，不同类簇之间不相似或者相似性低。同一类簇中的任意两个对象的相似性要大于不同类簇的任意两个对象。从学习的角度来看，聚类中事先并不需要知道每个对象所属的类别，即每个对象没有类标进行指导学习，也不知道每个簇的大小，而是根据对象之间的相似性来划分的，因此聚类分析属于一种无监督学习方法，又被称为“无先验知识学习方法”。其目的是在数据中寻找相似的分组结构和区分差异的对象结构。目前，聚类算法已经被广泛应用于科学与工程领域的方方面面，如在电子商务上进行消费群体划分与商品主题团活动等；在生物信息学上进行种群聚类，便于识别未知种群以及刻画种群结构等；在计算机视觉上应用聚类算法进行图像分割、模式识别与目标识别等；在社交网络上进行社区发现等；在自然语言处理中进行文本挖掘等。常见的聚类方式有以下几种：

1. 基于划分的聚类算法

基于划分的聚类算法是指基于欧式距离将各个对象划分到对应的簇中。主要的代表算法有：K-means、K-mediods、FK-means、K-modes、K-prototype、EM算法、CLARANS等；

2. 基于层次的聚类算法

基于层次的聚类算法可分为两大类，一种是自底向上，一种是自顶而下。自底向上策略是使用凝聚方法进行聚类，该方法最初是将每个点作为一个簇，使用某些准则对簇不断地进行合并，直到满足某个终止条件，便得到了聚类的所有簇；而自顶而下策略是使用分裂方法进行聚类，该方法最初是将所有点都作为一个簇，不断使用某些准则对簇进行分裂，直到所有对象都自成一个簇或者满足某个终止条件，这样便得到了各个簇，层次方法在每个过程中所得到的簇可以构成一棵聚类树。另外，可以在聚类过程中同时结合凝聚与分裂方法。层次凝聚的代表算法是AGNES(Agglomerative Nesting)算法，层次分裂的代表算法是DIANA(Divisive Analysis)算法，以及凝聚与分裂相结合的BIRCH、CURE等；

3. 基于图论的聚类算法

基于图论的聚类算法首先将样本对象构造成一张图，每个对象为图的一个顶点，对象之间的关系(相似度)作为图顶点之间的边值。然后，采用图论的方法对图进行划分而形成多个子图，每个子图便是一个簇，使得子图内部相似性大，子图间相似性小，称为图划分聚类。划分的准则有：最小割集(Minimum-cut)准则、率切(Ratio-cut)准则、规范切(Normalized-cut)准则、最小最大切(Min-max-cut)准则等，基于图论的聚类又称为谱聚类(Spectral Clustering)，其基本思想是利用样本数据的相似矩阵(一般是Laplacian矩阵或Laplacian的变换矩阵)进行特征分解后得到的特征向量进行聚类。根据划分准则可以将谱聚类分为两大类：规范化谱聚类(Normalized Spectral Clustering)与非规范化谱聚类(Unnormalized Spectral Clustering)，其主要区别在于输入的Laplacian矩阵是否进行了规范化，如最小割集与率切准则是非标准化准则，规范切与最小最大切准则则是规范化准则。在谱聚类算法中使用最广泛的是Ng与Jordan等人提出的基于规范切的谱聚类算法；

4. 基于密度的聚类算法

基于密度聚类算法不是基于距离的而是基于密度的。对象的密度是指以这个对象为中心，单位体积内对象的个数。该类聚类算法使得类簇内的密度大，类簇间的密度小。这样，基于密度聚类便能克服基于距离的算法只能发现“圆形簇”的缺点。其根据对象集合构成的空间的密度差异，将每个类簇看成是：由低密度区域分割开的高密度区域。该类型的算法的一个主要方向是如何去对高低密度区域进行定义。常见的有DBSCAN、OPTICS、DENCLUE、CBFSAFODP等算法；

5. 基于网格的聚类算法

基于网格的聚类算法，首先将数据空间划分成有限个单元的网格结构，每个单元作为基本处理单元，这种方法的一个突出优点便是处理速度快，它与数据本身的对象个数无关，只与把这些对象分成多少个网格有关，代表算法有STING、CLIQIUE等算法；

6. 基于模型的聚类算法

基于模型聚类是假定每一个类簇都是一个模型，然后去寻找能够拟合这个模型的簇，每一个模型反映的是数据对象在样本空间中的密度分布，其潜在假定就是：目标数据集是由一系列的概率分布所决定的。基于模型主要有两类方法：基于统计学的方法与基于神经网络的方法。基于统计学方法有COBWeb雨Auto-class算法，基于神经网络的有CL、LVQ、SOFM等算法。
使用聚类算法对设备故障类型或者设备状态进行聚类，以便发现类似的设备故障以及设备状态等。

关联规则挖掘：

关联规则挖掘是指：给定一个数据集T，每条记录有多个特征，从这些记录中找出所有支持度大于等于最小支持度support>=min_support，置信度大于等于最小置信度confidence>=min_confidence的规则Xs->Ys。其形式话的定义：两个不相交的非空集合Xs、Ys，如果Xs->Ys，就说Xs->Ys是一条规则。例如，啤酒与尿布的故事，它已成为了关联规则挖掘的经典案例，｛啤酒｝->{尿布}就是一条关联规则。支持度support的定义为：support{Xs->Ys}为集合Xs与集合Ys中的项在同一条记录中出现的次数除以总记录的个数。置信度confidence的定义为：confidence{Xs->Ys}为集合Xs与集合Ys中的项在同一条记录中出现的次数除以集合Xs中的项共同出现的次数。支持度和置信度越高，则说明规则越强。关联规则挖掘就是挖掘出具有一定强度的规则集合，即该规则集合中的每条规则的支持度要大于等于最小支持度，置信度要大于等于最小置信度。常见的关键规则挖掘算法有Apriori、FP-growth、GSpan等算法。
我们可以使用关联规则挖掘算法来对设备故障进行监控与预测，以便找到故障发生的关键原因与因素。

【PyTorch】torch.nn.Conv2d 类：二维卷积层（2D Convolutional Layer）彬彬侠 PyTorch基础 Conv2d 二维卷积层 CNN pytorch 机器学习 python
torch.nn.Conv2dtorch.nn.Conv2d是PyTorch二维卷积层（2DConvolutionalLayer）的实现，主要用于计算机视觉任务（如图像分类、目标检测等），可以提取空间特征并增强模型的表示能力。1.torch.nn.Conv2d语法torch.nn.Conv2d(in_channels,out_channels,kernel_size,stride=1,paddin
PyTorch学习之torch.nn.functional.conv2d函数 Midsummer-逐梦 #torch pytorch 学习人工智能
PyTorch学习之torch.nn.functional.conv2d函数一、简介torch.nn.functional.conv2d是PyTorch中用于进行二维卷积操作的函数。卷积操作是深度学习中卷积神经网络（CNN）的核心部分，用于提取图像特征，常见于图像分类、目标检测和语义分割等任务中。二、基本语法torch.nn.functional.conv2d(input,weight,bias=
使用 Python 合并微信与支付宝账单，生成财务报告苏琢玉小脚本 python 微信
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
MySQL用了索引还是慢？这几种场景你避坑了吗？啥都不懂的小小白数据库专栏 mysql 数据库
在数据库优化时，我们常听到“加个索引就能提高查询速度”。但现实中，很多人加了索引后，查询依然很慢。这就像给汽车装了个涡轮增压，但还是跑不快，可能是别的地方出了问题。今天我们就来看看MySQL索引优化的几个常见坑，看看你有没有踩过！1.索引列存在隐式转换就像书籍分类号格式不匹配问题如果查询条件的字段类型和索引类型不一致，MySQL可能会进行隐式转换，导致索引失效。案例SELECT*FROMusers
Java 接口自动化系列 - 基础知识爱学测试的雨果软件测试 java 自动化 python 软件测试
一集合java中的集合是工具类，可以存储任意数量的具有共同属性的对象-无法预测存储数据的数量；-同时存储具有一对一关系的数据；-需要进行数据的增删；-数据重复问题；二集合框架CollectionMapCollection存储类的对象Map键值对存储Collection：下面有三个字接口1-List表示序列2-Queue表示队列3.Set表示集List和Queue存储的值：有序的，允许重复Set存储
突破活检限制：深度学习模型实现脑膜瘤生长风险精准预测 qq_38220914 深度学习人工智能
最近一直在被催稿，被要求写一些关于健康和算法相关的东西，并提供了很多文献作为参考。被催的多了之后，必然会产生一个问题：我该如何写这篇推文？而每当不知道如何开始一件事或任务时，本能的会去向人请教或者去问AI，然后他们会根据问题和条件，给出一些具体的建议。这是获取经验或智慧的非常自然的方法，自然到不知道什么时候学会的。如果把这个方法简化，大致可以描述为：当我们有一个问题，然后会去从老师、朋友或同事那获
后端开发实践：Spring Boot项目模板 Java面试那些事阿
在我的工作中，我从零开始搭建了不少软件项目，其中包含了基础代码框架和持续集成基础设施等，这些内容在敏捷开发中通常被称为“第0个迭代”要做的事情。但是，当项目运行了一段时间之后再来反观，我总会发现一些不足的地方，要么测试分类没有分好，要么基本的编码架子没有考虑周全。另外，我在工作中也会接触到很多既有项目，公司内部和外部的都有，多数项目的编码实践我都是不满意的。比如，我曾经新加入一个项目的时候，前前后
python和nltk自然语言处理脚本之家_NLTK基础教程:用NLTK和Python库构建机器学习应用完整版pdf... weixin_39834084 脚本之家
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用，涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。目录第1章自然语言处理简介11.
python和nltk自然语言处理 pdf_NLTK基础教程:用NLTK和Python库构建机器学习应用完整版pdf... weixin_39531374 pdf
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用，涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。第1章自然语言处理简介11.1为
[笔记.AI]向量化俊哥V 由AI辅助创作 AI 技术理解人工智能 AI 向量化
（借助DeepSeek-V3辅助生成）向量化的定义向量化（Vectorization）是将文本、图像、音频等非结构化数据转换为高维数值向量（即一组数字）的过程。这些向量能够捕捉数据的语义、特征或上下文信息，使计算机能够通过数学运算（如相似度计算、聚类、分类等）处理和理解非结构化内容。为什么需要向量化？计算机无法直接理解文字、图片等非结构化数据，但可以高效处理数值。向量化通过将数据映射到数学空间，实
[笔记.AI]大模型训练与向量值的关系俊哥V AI 技术理解由AI辅助创作人工智能笔记向量化
（借助DeepSeek-V3辅助生成）大模型在训练后是否会改变向量化的值，取决于模型的训练阶段和使用方式。以下是详细分析：1.预训练阶段：向量化值必然改变动态调整过程：在预训练阶段（如BERT、GPT的初始训练），模型的嵌入层（EmbeddingLayer）作为可训练参数，通过反向传播不断优化。每个词或子词的向量会根据上下文共现模式和任务目标（如掩码语言建模、自回归预测）动态调整。示例：词汇“苹果
人工智能——分类算法零基础学会人工智能人工智能分类数据挖掘 python 机器学习深度学习算法
目录7K近领算法7.1本章工作任务7.2本章技能目标7.3本章简介7.4编程实战7.5本章总结7.6本章作业本章已完结！7K近领算法摘要：本章实现的工作是：首先用Python导入包含学生成绩和学生类别的样本数据，然后采用K近邻分类算法，配置算法模型中的k值，以N维空间的欧式距离为度量标准，求解待分类学生样本的预测标签。将预测标签与真实标签进行对比得出分类结果准确率。最后将预测结果可视化。本章掌握的
k近邻算法matlab实现_分类算法——K近邻 Puzzle Cosmo k近邻算法matlab实现
之前介绍的可视化、数据处理、爬虫等一些操作，简单来讲都是数据分析过程或多或少接触到的部分，本想继续去介绍更多关于R语言有趣的包，比如Rmarkdown、shiny等，不过涉及的内容比较多，所有我打算隔一段时间再整理和大家分享。那么近期的话，我就打算先着手一些简单的数据分析方法的介绍，并结合实际的数据，实现一个简单的数据分析过程，经验尚浅希望通过这种方法提高自己的能力，大家有好的想法也可以提一下，我
如何理解Transformer缺乏像CNN那样的归纳偏置 CcaozzZ transformer cnn 深度学习
具体示例：“数字位置分类任务”我们设计一个简单的任务来对比CNN和Transformer对位置变化的处理能力：任务设定输入：28x28灰度图像，包含一个手写数字（0~9），但数字位置可能出现在图像任意位置（而非固定居中）。目标：模型需要同时完成两个任务：分类：识别数字类别（0~9）。定位：预测数字的中心坐标（x,y，取值范围[0,27]）。训练数据：仅包含数字出现在图像左侧半区的样本（x≤13）。
06 约束 shphuang MySQL mysql sql 数据库
06约束一、约束是什么在创建表的时候，可以给表的字段添加相应的约束，添加约束的目的是为了保证表中的数据合法性、有效性、完整性。二、常见约束分类非空约束（notnull）：约束字段不能为NULL唯一约束（unique）：约束的字段不能重复主键约束（primarykey）：约束的字段既不能为NULL，也不能重复主键的作用：表的设计三范式有要求，第一范式就要求任何一张表都应该有主键。主键是这行数据记录的
目标检测YOLO实战应用案例100讲-基于改进YOLO算法的加油站监控场景目标检测（续）林聪木目标检测 YOLO 目标跟踪
目录3.3实验设计与结果分析3.3.1实验数据及评价指标3.3.2消融对比实验3.3.3YOLO系列算法对比实验3.3.4目标分类对比实验IVC高细粒度特征融合筛选算法研究4.1引言4.2高细粒度融合筛选算法4.2.1scSE注意力机制4.2.2PSconv高细粒度特征提取方法4.2.3IVC高细粒度特征融合筛选算法结构4.3实验设计与结果分析4.3.1实验数据及评价指标4.3.2实验环境与参数4
“端到端”流程扉间798 人工智能
home.html设置表单文件上传框文件上传按钮predict.html图像变量path表单提交地址get返回按钮后端app.py模型编译加载模型创建自定义图像处理函数将图像转为数组调整图像大小做归一化创建跟路由判断请求方法是不是post从请求中提取文件获取文件名设置保存路径将文件保存到路径调用图像处理函数模型预测字典返回html返回预测结果返回图像路径model加载数据集转换为4维归一化处理独热
人工智能技术将逐步渗透到我们生活的每个角落 fj800j 人工智能生活
人工智能技术的应用前景无疑是广阔且深远的，它正逐步渗透到我们生活的每一个角落，预示着一场前所未有的社会与经济变革。‌1、医疗健康领域的深度融合‌：人工智能在医疗领域的应用将更加精准和个性化。通过大数据分析和机器学习，AI能够辅助医生进行更准确的疾病诊断，甚至在疾病发生前进行预测，实现早期干预。此外，个性化医疗方案的设计、新药的研发以及基因编辑技术的进步，都将因AI的加入而加速，极大地提高治疗效果和
算力租赁新势力崛起：劲速云如何用硬核实力重塑 AI 算力格局
一、算力租赁赛道爆发：行业万亿蓝海开启2025年4月2日早盘，A股算力租赁板块迎来集体狂欢，恒润股份三连板封停，海南华铁、杭钢股份等企业应声跟涨。这一市场表现印证了行业的高速发展：据中研普华预测，2026年国内算力租赁市场规模将突破2600亿元，年复合增长率超20%。在AI模型迭代、数字化转型与政策东风的三重驱动下，传统自建数据中心模式正加速向灵活高效的算力租赁模式迁移。二、劲速云破局之道：三大核
低代码产品一般怎么分类，分别有哪些代表厂商低代码
低代码产品的分类方式一般有两种，按厂商背景分类和按功能特点分类。以下是分类原因和代表厂商。按厂商背景分类用户在选择低代码产品时，除了关注产品本身的功能和性能外，也会考虑厂商的实力和发展前景。不同背景的厂商在资金、技术支持、市场推广等方面可能存在差异。了解厂商背景可以帮助用户更全面地评估产品的稳定性、可持续性以及厂商提供后续服务和支持的能力。按厂商背景分类，可分为原生型低代码厂商、应用开发型厂商和软
基于OpenCV的Haar级联人脸检测：实现与优化建议铠哥不喝粥 opencv 人工智能计算机视觉
引言人脸识别技术是计算机视觉领域的重要分支，广泛应用于安防、支付、社交网络等领域。本文基于OpenCV库中的Haar级联分类器实现了一个简单的人脸检测系统，并对其性能进行了分析。虽然Haar级联算法是一种经典的入门级人脸检测方法，但其在实际应用中存在一些局限性。本文将从代码实现、算法优缺点以及推荐更高效的算法等方面进行探讨。代码实现详解功能概述上述代码实现了以下功能：实时摄像头人脸检测：通过笔记本
K-均值聚类算法的深入分析与实践 Unreal丶
本文还有配套的精品资源，点击获取简介：K-均值聚类算法是一种用于数据聚类分析的无监督学习方法，通过迭代过程将数据点分组到最近的聚类中心。该算法包括初始化聚类中心、分配数据点、更新聚类中心等步骤，通常使用欧几里得距离作为距离度量。选择适当的K值至关重要，肘部法则常被用于此目的。算法的局限性包括对初始中心选择的敏感性、假设数据分布为凸形、对异常值的敏感性以及需要预先设定K值。优化算法和变种如快速K-均
使用 Python + Pandas + Jupyter Notebook 进行日志分析与可视化火批玩家 python pandas jupyter
在日常的系统运维和开发工作中，日志分析是一个不可或缺的环节。通过对日志的分析，我们可以快速定位系统问题、优化性能并预测潜在风险。本文将介绍如何使用Python、Pandas和JupyterNotebook对杂乱的日志文件进行清洗、分析和可视化，统计高频错误类型并生成直观的图表。实验目标使用Python、Pandas和JupyterNotebook等工具，对杂乱的日志文件进行以下操作：导入杂乱日志文
【汇编】“转移”综述、操作符offset、jmp指令人才程序员汇编汇编 c语言底层机器语言 c++单片机嵌入式硬件
文章目录前言一、转移综述1.1:背景：1.2转移指令1.3转移指令的分类按转移行为根据指令对IP修改的范围不同二、操作符offset2.1offset操作符是干什么的？标号是什么？2.2nop是什么？三、jmp指令3.1jmp指令的功能3.2jmp指令：依据位移进行转移3.3两种段内转移短转移近转移3.4远转移：jmpfarptr标号远转移jmpfarptr标号近转移jmpnearptr标号3.5
微机原理学习——汇编指令学习 Mi Manchi 学习汇编
目录一、指令的基础知识1.1、指令的一般格式1.2、指令分类二、指令系统的寻址方式2.1、立即数寻址2.2、寄存器寻址2.3、直接寻址2.4、寄存器间接寻址2.5、基址加变址寄存器间接寻址方式2.6、相对寻址2.7、位寻址三、数据传送指令3.1、通用数据传送指令3.2、堆栈操作指令3.3、累加器A与外部数据存储器RAM/IO传送指令3.4、查表指令3.5、数据交换指令四、算数运算指令4.1、加法指
基于Springboot+Vue动漫推荐平台管理系统（源码+lw+讲解部署+PPT）嘤er 前端 vue.js javascript mysql spring boot java 后端
前言详细视频演示论文参考系统介绍系统概述核心功能用户角色与功能具体实现截图1.热门动漫功能2.文章专栏功能3.会员分享功能4.热门动漫管理功能（管理员端）5.动漫分类管理功能技术栈后端框架SpringBoot前端框架Vue持久层框架MyBatis-Plus其他技术组件系统实现与后端代码结构代码结构概述系统测试系统测试目的系统功能测试1.登录功能测试2.热门动漫功能测试3.文章专栏功能测试4.会员分
PyTorch深度学习入门与实战教程 openbiox
本文还有配套的精品资源，点击获取简介：深度学习是AI的核心技术，基于神经网络对数据建模以实现学习和预测。PyTorch是一个灵活易用的开源深度学习框架，适合初学者和研究人员进行实验开发。教程涵盖了从基础概念到模型训练、验证、测试的完整流程，包括张量操作、动态计算图、数据预处理、神经网络构建、优化器使用、训练循环、模型保存加载以及CNN和RNN等关键网络结构的应用实践。通过实例项目如文本分类、图像识
鸟叔的linux私房菜：第0章计算机概论学习笔记（Learning Notes for Basic Computer Theory）蓝色枫魂 Operating System
本博客是针对《鸟叔的Linux私房菜基础学习篇第四版》的第0章计算机概论的学习笔记。1电脑辅助人脑的好工具11计算机硬件的五大单元12一切设计的起点CPU的架构其它单元的设备运行流程电脑按用途分类电脑上面常用的计算单位容量速度等2个人电脑架构与相关设备元件21执行脑袋运算与判断的CPU22内存23显卡24硬盘与存储设备3数据表示方式31数字系统32文字编码系统4软件程序运行41机器程序与编译程序4
Python 在医疗卫生 python无人驾驶医学芯片 python 人工智能深度学习
Python在医疗卫生领域具有重要作用，主要体现在以下几个方面：数据分析和挖掘：医疗卫生领域产生了大量的数据，包括患者的病历、医学影像、实验数据等，Python具有强大的数据分析和挖掘能力，可以帮助医疗机构对这些数据进行分析和利用，从而为临床决策和研究提供支持。人工智能和机器学习：Python是人工智能和机器学习领域的热门语言，医疗卫生领域可以利用Python构建机器学习模型来进行疾病诊断、预测和
大模型日报｜9 篇必读的大模型论文 AI大模型头条每日大模型论文人工智能语言模型 gpt 机器学习 ai
大家好，今日必读的大模型论文来啦！苹果新研究：「3D空间理解」通用MLLM多模态大语言模型（MLLM）擅长2D视觉理解，但在3D空间推理方面能力有限。在这项工作中，苹果团队利用带有开放集注释的大规模高质量3D场景数据，推出了：1）一个新的监督微调数据集；2）一个新的、重点关注室内场景的评估基准。他们的CubifyAnythingVQA（CA-VQA）数据涵盖多种空间任务，包括空间关系预测、度量尺寸
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。