Cherzhoucheer

《机器学习实战》之Adaboost

首先抛出问题，如何解决不均衡分类问题？这个问题我觉得应该从原理上和实际调参两个方面来回答，原理部分从adboost入手，实践部分则是sklearn相关参数（这个后面遇到了再补充）。

什么是boosting？通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。那么问题又来了，对于提升方法来说，有两个问题需要回答：

（1）每一轮如和改变训练样本的权值和概率分布？

（对于adaboost，提高那些被前一轮弱分类器错误分类样本的权值，降低被争取分类的样本权值）

（2）如何将弱分类器组合成一个强分类器？

（对于adaboost，采用加权多数表决，具体地加大分类误差率小的弱分类器权重，反之亦然）

一、 Adaboost优缺点：

优点：泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整。

缺点：对离群点敏感

适用数据类型：数值型和标称型数据

二、 算法（伪代码）以及算法解析

这一段取自《统计学习方法》，讲解的很详细，适合反复看。根据以下的推导，可以总结一下迭代过程中的几个关键的更新值， alpha值是弱分类器的权重，是由该轮迭代中的分类错误率决定的，而分类错误率又和样本的权重有关，下一轮的样本权重又和这一轮的分类器权重alpha有关，具体推导式如下。

三、代码实现

《机器学习实战》上的python代码，一开始看不懂所以对每一行进行详细注释。

1. 基于单层决策树构建弱分类器

单层决策树可以看做是由一个根节点直接连接两个叶结点的简单决策树，比如x>v或x。以下代码实际上是对每一列特征进行划分正负样本，对于某一阈值k，可以认为x>k则为正样本，或者认为x

#获取数据集
def loadSimpData():
    datMat = matrix([[ 1. ,  2.1],
        [ 2. ,  1.1],
        [ 1.3,  1. ],
        [ 1. ,  1. ],
        [ 2. ,  1. ]])
    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat,classLabels

通过上述数据集来寻找最佳的单层决策树，最佳单层决策树是具有最低分类错误率的单层决策树，伪代码如下：

#将最小错误率minError设为+∞
#对数据集中的每个特征(第一层循环)：
    #对每个步长(第二层循环)：
        #对每个不等号(第三层循环)：
            #建立一颗单层决策树并利用加权数据集对它进行测试
            #如果错误率低于minError，则将当前单层决策树设为最佳单层决策树
#返回最佳单层决策树

#单层决策树的阈值过滤函数
def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
    #对数据集每一列的各个特征进行阈值过滤
    retArray=ones((shape(dataMatrix)[0],1))   #初始化特征归类为1
    #阈值的模式，将小于某一阈值的特征归类为-1
    if threshIneq=='lt':
        retArray[dataMatrix[:,dimen]<=threshVal]=-1.0
    #将大于某一阈值的特征归类为-1
    else:
        retArray[dataMatrix[:,dimen]>threshVal]=-1.0

def buildStump(dataArr,classLabels,D):
     #将数据集和label列转为矩阵形式
    dataMatrix=mat(dataArr);labelMat=mat(classLabels).T
    m,n=shape(dataMatrix)
    #步数或区间总数；最优决策树信息；最优单层决策树预测结果   #步数是自己设的
    numSteps=10.0;bestStump={};bestClasEst=mat(zeros((m,1)))
    #最小错误率初始化为+∞
    minError=inf
    #遍历每一列的特征值
    for i in range(n):
        #找出每一列中特征值的最小值和最大值
        rangeMin=dataMatrix[:,i].min();rangeMax=dataMatrix[:,i].max()
        #求取步长大小或者说区间间隔
        stepSize=(rangeMax-rangeMin)/numSteps
        #遍历各个步长区间
        for j in range(-1,int(numSteps)+1):
            #遍历两种阈值过滤模式
            for inequal in ['lt','gt']:
            #阈值计算公式：该特征的最小值+j(-1<=j<=numSteps+1)*步长
            threshVal=(rangeMin+float(j)*stepSize)
            #选定阈值后，对该特征，调用阈值过滤函数分类预测
            predictedVals=stumpClassify(dataMatrix,i,threshVal,'inequal')
            #初始化错误向量为1，向量长度为样本个数m
            errArr=mat(ones((m,1)))
            #将错误向量中分类正确项置0
            errArr[predictedVals==labelMat]=0
            #计算"加权"的错误率  #D为权重向量
            weigthedError=D.T*errArr   #这里两个向量乘积出来为一个数，也就是整体的错误率
            #打印相关信息
            #print("split: dim %d, thresh %.2f,thresh inequal: %s, the weighted error is %.3f", %(i,threshVal,inequal,weigthedError))
            #如果当前错误率小于当前最小错误率，将当前错误率作为最小错误率
            #存储相关信息
            if weigthedError

 
    
      上面的代码包含两个函数，第一个函数是分类器的阈值过滤函数，即设定某一阈值，凡是超过/小于该阈值的结果被归为一类，小于/超过阈值的结果都被分为另外一类，采用+1和-1作为类别。 
     
    
      第二个函数，就是建立单层决策树的具体代码，基于样本值的各个特征及特征值的大小，设定合适的步长，获得不同的阈值，然后以此阈值作为根结点，对数据集样本进行分类，并计算错误率，需要指出的是，这里的 
     错误率计算是基于样本权重的，所有分错的样本乘以其对应的权重，然后进行累加得到分类器的错误率。错误率得到之后，根据错误率的大小，跟当前存储的最小错误率的分类器进行比较，选择出错误率最小的特征训练出来的分类器，作为最佳单层决策树输出，并通过字典类型保存其相关重要的信息。 
     
     
     上面代码最终生成一个弱分类器。那么就要用多个弱分类器构建Adaboos代码。 
     
     
     2.完整AdaBoost算法实现 
     
    
      整个AdaBoost的伪代码： 
     
     
     #对每次迭代：
    	#利用buildStump()函数找到最佳的单层决策树
    	#将最佳单层决策树加入到单层决策树数组
    	#计算alpha
    	#计算新的权重向量D
    	#更新累计类别估计值
    	#如果错误率为等于0.0，退出循环 
     
    
      具体实现代码： 
     
    #@dataArr：数据矩阵
#@classLabels:标签向量
#@numIt:迭代次数    
def adaBoostTrainDS(dataArr,classLabels,numIt=40):
    #弱分类器相关信息列表
    weakClassArr=[]
    #获取数据集行数
    m=shape(dataArr)[0]
    #初始化权重向量的每一项值相等
    D=mat(ones((m,1))/m)  #D为样本权重
    #累计估计值向量
    aggClassEst=mat((m,1))
    #循环迭代次数
    for i in range(numIt):
        #根据当前数据集、标签及权重建立最佳单层决策树  #分类方式、误差、分类结果
        bestStump,error,classEst=buildStump(dataArr,classLabels,D)
        #打印权重向量
        print("D:",D.T)
        #求单层决策树的系数alpha
        alpha=float(0.5*log((1.0-error)/(max(error,1e-16))))
        #存储决策树的系数alpha到字典
        bestStump['alpha']=alpha  # bestStump里面存储的是“大于”“小于”，也就是单层决策树的决策方法
        #将该决策树存入弱分类器列表
        weakClassArr.append(bestStump)
        #打印决策树的预测结果
        print("classEst:",classEst.T)
        #预测正确为exp(-alpha),预测错误为exp(alpha)
        #即增大分类错误样本的权重，减少分类正确的数据点权重
        expon=multiply(-1*alpha*mat(classLabels).T,classEst)   #numpy函数，数组相乘就是对应元素相乘；这里得到单个弱分类器的权重值
        #更新权值向量
        D=multiply(D,exp(expon))     #数组乘积
        D=D/D.sum()    #D为样本权重，更新样本权重
        #累加当前单层决策树的加权预测值
        aggClassEst+=alpha*classEst    #每次迭代之后，不断把当前分类器乘以分类器权重累加到之前的分类器上
        print("aggClassEst",aggClassEst.T)
        #求出分类错的样本个数   #这个地方没问题？？分类错误率应该考虑上样本权重 啊！？？
        aggErrors=multiply(sign(aggClassEst)!=\
                    mat(classLabels).T,ones((m,1)))   #预测值不等于真实label值则为1
        #计算错误率
        errorRate=aggErrors.sum()/m   #错误分类率
        print("total error:",errorRate,"\n")
        #错误率为0.0退出循环
        if errorRate==0.0:break
    #返回弱分类器的组合列表
    return weakClassArr 
    
      对于上面的代码，需要说明的有几点： 
     
    
      （1）上面的 
     输入除了数据集和标签之外，还有用户自己指定的迭代次数，用户可以根据自己的成本需要和实际情况，设定合适的迭代次数，构建出需要的弱分类器数量。 
     
    
      （2）权重向量D包含了当前单层决策树分类器下，各个数据集样本的权重，一开始它们的值都相等。但是，经过分类器分类之后，会根据分类的权重加权错误率对这些权重进行修改，修改的方向为，提高分类错误样本的权重，减少分类正确的样本的权重。 
     
    
      （3）分类器系数alpha，是另外一个非常重要的参数，它在最终的分类器组合决策分类结果的过程中，起到了非常重要的作用，如果某个弱分类器的分类错误率更低，那么根据错误率计算出来的分类器系数将更高，这样，这些分类错误率更低的分类器在最终的分类决策中，会起到更加重要的作用。 
     
    
      （4）上述代码的训练过程是 
     以达到迭代的用户指定的迭代次数或者训练错误率达到要求而跳出循环。而最终的分类器决策结果，会通过sign函数，将结果指定为+1或者-1。 
     
     
     3.测试算法 
     
    
      那么有了训练好的分类器，需要在分类器未知的数据上进行测试，看看分类效果。上面的训练代码会保存 
     每个弱分类器的重要信息，比如 
     分类器系数，分类器的最优特征，特征阈值等。有了这些重要的信息，我们拿到之后，就可以对测试数据进行预测分类了。 
     
    #测试adaBoost，adaBoost分类函数
#@datToClass:测试数据点
#@classifierArr：构建好的最终分类器
def adaClassify(datToClass,classifierArr):
    #构建数据向量或矩阵
    dataMatrix=mat(datToClass)
    #获取矩阵行数
    m=shape(dataMatrix)[0]
    #初始化最终分类器
    aggClassEst=mat(zeros((m,1)))    #初始分类器为全为1的向量，存储分分类结果
    #遍历分类器列表中的每一个弱分类器
    for i in range(len(classifierArr)):
        #每一个弱分类器对测试数据进行预测分类
        classEst=stumpClassify(dataMat,classifierArr[i]['dim'],\
                                classifierArr[i]['thresh'],
                                classifierArr[i]['ineq'])  #分类器由最优特征、特征阈值、分类方式（大于、小于）决定
        #对各个分类器的预测结果进行加权累加
        aggClassEst+=classifierArr[i]['alpha']*classEst
        print('aggClassEst',aggClassEst)
    #通过sign函数根据结果大于或小于0预测出+1或-1
    return sign(aggClassEst) 
    
      上面的adaBoost分类器训练和测试代码，随着分类器数目的增加，adaBoost分类器的 
     训练错误率不断的减少，而测试错误率则是经历先减少到最小值，再逐渐增大的过程。显然，这就是所说的 
     过拟合。因此，对于这种情况，我们应该采取相应的措施，比如 
     采取交叉验证的方法，在训练分类器时，设定一个验证集合，不断测试验证集的分类错误率，当发现训练集错误率减少的同时，验证集的错误率较之上一次结果上升了，就停止训练。或者其他比较实用的模拟退火方法，基因遗传方法等。 
     
     
     
 
     
     
     回到最开始的问题，如何解决不均衡分类问题？ 
     
    
      1.Adaboost是基于代价函数来调整错误权重向量D，给错误率较小的分类更多权重。 
     
    
      2.另外一种针对非均衡问题调节分类器的方法，就是对分类器的训练数据进行改造。通过 
     欠抽样（删除样例）、过抽样（复制样例）实现。例如对于信用卡欺诈中，正例属于罕见类别，应该保留所有正例，而对反例进行欠抽样或者删除处理，或者使用反例类被的欠抽样和正例样本的过抽样的方法。


    
        你可能感兴趣的:(机器学习)
        
            
                
                    使用 Milvus 进行向量数据库管理与实践
                        qahaj
milvus数据库python
                        技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
                    
                    物理学不存在了？诺贝尔物理学奖颁给了人工智能
                        资讯新鲜事
人工智能
                        2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
                    
                    PHP 爬虫实战：爬取淘宝商品详情数据
                        EcomDataMiner
php爬虫开发语言
                        随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
                    
                    强化学习中的深度卷积神经网络设计与应用实例
                        数字扫地僧
计算机视觉cnn人工智能神经网络
                        I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
                    
                    模拟退火算法：原理、应用与优化策略
                        尹清雅
算法
                        摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
                    
                    TensorFlow深度学习实战项目：从入门到精通
                        点我头像干啥
Ai深度学习tensorflow人工智能
                        引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
                    
                    国外7个最佳大语言模型 (LLM) API推荐
                        幂简集成
API新理念语言模型人工智能自然语言处理
                        大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
                    
                    机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？
                        yuanpan
机器学习神经网络transformer
                        机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
                    
                    奇异值分解（SVD）
                        文弱_书生
乱七八糟神经网络人工智能
                        奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
                    
                    yum install locate出现Error: Unable to find match: locate解决方案
                        爱编程的喵喵
Linux解决方案linuxlocateyum解决方案
                          大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。  本文主要介绍了yuminstalllocate出现
                    
                    【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理
                        猿享天开
人工智能数学基础专讲人工智能机器学习无监督学习降维
                        深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
                    
                    Flink启动任务
                        swg321321
flink大数据
                        Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
                    
                    计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅
                        会写代码的羊
毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目aiAI编程
                        文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
                    
                    【机器学习】建模流程
                        CH3_CH2_CHO
什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
                        1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
                    
                    机器学习课堂4线性回归模型+特征缩放
                        木尘152132
机器学习线性回归python
                        一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
                    
                    【机器学习】模型拟合
                        CH3_CH2_CHO
什么？！是机器学习！！机器学习人工智能欠拟合过拟合
                        1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
                    
                    基于Python的智能决策支持系统：实现智能化决策的关键要素
                        AI天才研究院
DeepSeekR1&大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
                        文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
                    
                    下一代模型技术演进与场景应用突破
                        智能计算研究中心
其他
                        内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
                    
                    TypeScript语言的计算机视觉
                        苏墨瀚
包罗万象golang开发语言后端
                        使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
                    
                    人工智能之数学基础：数学对人工智能技术发展的作用
                        每天五分钟玩转人工智能
机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
                        本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
                    
                    人工智能之数学基础：线性子空间
                        每天五分钟玩转人工智能
机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
                        本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
                    
                    详解离线安装Python库
                        爱编程的喵喵
Python基础课程python离线安装requirements
                          大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。  本文主要介绍了详解离线安装Python库，希望能对
                    
                    ESG证书：AI预测未来十年职场人的黄金入场券
                        ESG学习圈
pandaspythondjango
                        当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
                    
                    【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练
                        Donvink
大模型#AIGCstablediffusionAIGC人工智能机器学习深度学习
                        目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
                    
                    知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色
                        PersistDZ
大数据与AI人工智能
                        知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
                    
                    近期计算机领域的热点技术
                        0dayNu1L
云计算量子计算人工智能
                        随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
                    
                    计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅
                        会写代码的羊
毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
                        文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
                    
                    Linux安装Anaconda和Jupyter
                        硬水果糖
人工智能Linuxlinuxjupyter运维
                        一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
                    
                    ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建
                        WangYan2022
DeepSeekChatGPT地下水地质灾害DeepSeekChatGPTGIS灾后重建
                        在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
                    
                    Hessian 矩阵是什么
                        ZhangJiQun&MXP
教学2021AIpython2024大模型以及算力矩阵线性代数算法人工智能机器学习
                        Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
                    
                                二分查找排序算法
                                    周凡杨
java二分查找排序算法折半
                                     一：概念 二分查找又称
折半查找（
折半搜索/
二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而 查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表 分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
                                
                                java中的BigDecimal
                                    bijian1013
javaBigDecimal
                                            在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。 
        原文地址：http://blog.csdn.net/ugg/article/de
                                
                                Shell echo命令详解
                                    daizj
echoshell
                                    Shell echo命令 
Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： 
echo string 
您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: 
  echo "It is a test" 
这里的双引号完全可以省略，以下命令与上面实例效果一致： 
  echo Itis a test 2.显示转义
                                
                                Oracle DBA 简单操作
                                    周凡杨
oracle dba sql
                                     --执行次数多的SQL 
 select sql_text,executions from ( 
     select sql_text,executions from v$sqlarea order by executions desc 
     ) where rownum<81; 
 &nb
                                
                                画图重绘
                                    朱辉辉33
游戏
                                      我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。 
  在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
                                
                                线程之初体验
                                    西蜀石兰
线程
                                    一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。 
之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。 
 
线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。 
你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
                                
                                linux集群互相免登陆配置
                                    林鹤霄
linux
                                    配置ssh免登陆 
1、生成秘钥和公钥    ssh-keygen -t rsa 
2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 
   其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密    c
                                
                                mysql : Lock wait timeout exceeded; try restarting transaction
                                    aigo
mysql
                                    原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 
  
原因是你使用的InnoDB   表类型的时候, 
默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 
因为有的锁等待超过了这个时间,所以抱错. 
  
你可以把这个时间加长,或者优化存储
                                
                                Socket编程 基本的聊天实现。
                                    alleni123
socket
                                    public class Server
{

	//用来存储所有连接上来的客户
	private List<ServerThread> clients;
	
	public static void main(String[] args)
	{
		Server s = new Server();
		s.startServer(9988);
	}

	publi
                                
                                多线程监听器事件模式(一个简单的例子)
                                    百合不是茶
线程监听模式
                                        
多线程的事件监听器模式 
  监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到 
  
     创建多线程的事件监听器模式 思路: 
   1, 创建线程并启动,在创建线程的位置设置一个标记 
    2,创建队
                                
                                spring InitializingBean接口
                                    bijian1013
javaspring
                                    spring的事务的TransactionTemplate，其源码如下： 
public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{
 ...
} 
TransactionTemplate继承了DefaultT
                                
                                Oracle中询表的权限被授予给了哪些用户
                                    bijian1013
oracle数据库权限
                                            Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 
select t.table_name as "表名",
       t.grantee    as "被授权的属组",
       t.owner      as "对象所在的属组"
                                
                                【Struts2五】Struts2 参数传值
                                    bit1129
struts2
                                    Struts2中参数传值的3种情况 
1.请求参数绑定到Action的实例字段上 
2.Action将值传递到转发的视图上 
3.Action将值传递到重定向的视图上 
  一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上  
Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
                                
                                【Kafka十四】关于auto.offset.reset[Q/A]
                                    bit1129
kafka
                                    I got serveral questions about  auto.offset.reset. This configuration parameter governs how  consumer read the message from  Kafka when  there is no initial offset in ZooKeeper or 
                                
                                nginx gzip压缩配置
                                    ronin47
nginx gzip 压缩范例
                                    nginx gzip压缩配置   更多 
0      
 nginx      
 gzip      
 配置         
随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ 
gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
                                
                                java-13.输入一个单向链表，输出该链表中倒数第 k 个节点
                                    bylijinnan
java
                                    two cursors. 
Make the first cursor go K steps first. 
 
 

/*
	 * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点
	 */
	public void displayKthItemsBackWard(ListNode head,int k){
		ListNode p1=head,p2=head;

                                
                                Spring源码学习-JdbcTemplate queryForObject
                                    bylijinnan
javaspring
                                    JdbcTemplate中有两个可能会混淆的queryForObject方法： 
1. 
Object queryForObject(String sql, Object[] args, Class requiredType) 
2. 
Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 
 
第1个方法是只查
                                
                                [冰川时代]在冰川时代,我们需要什么样的技术?
                                    comsci
技术
                                     
 
     看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 
 
     那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... 
 
  &nb
                                
                                js 获取浏览器型号
                                    cuityang
js浏览器
                                    根据浏览器获取iphone和apk的下载地址 
 
<!DOCTYPE html> 
<html> 
<head> 
    <meta charset="utf-8" content="text/html"/> 
    <meta name=
                                
                                C# socks5详解 转
                                    dalan_123
socketC#
                                    http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html    这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
                                
                                运维 Centos问题汇总
                                    dcj3sjt126com
云主机
                                    一、sh 脚本不执行的原因 
sh脚本不执行的原因 只有2个 
1.权限不够 
2.sh脚本里路径没写完整。 
  
二、解决You have new mail in /var/spool/mail/root 
修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 
MailTo = 
MailFrom 
  
三、查询连接数
                                
                                Yii防注入攻击笔记
                                    dcj3sjt126com
sqlWEB安全yii
                                    网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号  这里有个转义对照表： 
http://blog.csdn.net/xinzhu1990/articl
                                
                                MongoDB简介[一]
                                    eksliang
mongodbMongoDB简介
                                    MongoDB简介 
转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 
       MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。 
       另外，不
                                
                                zookeeper windows 入门安装和测试
                                    greemranqq
zookeeper安装分布式
                                    一、序言 
      以下是我对zookeeper 的一些理解：      zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。 
      栗子1号： 
      假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
                                
                                Spring之使用事务缘由(2-注解实现)
                                    ihuning
spring
                                      
Spring事务注解实现 
  
1. 依赖包： 
    1.1 spring包： 
          spring-beans-4.0.0.RELEASE.jar 
          spring-context-4.0.0.
                                
                                iOS App Launch Option
                                    啸笑天
option
                                    iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 
  
launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节 。 
1、若用户直接
                                
                                jdk与jre的区别（_）
                                    macroli
javajvmjdk
                                    简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。  
JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。 如果安装了JDK，会发同你
                                
                                Updates were rejected because the tip of your current branch is behind
                                    qiaolevip
学习永无止境每天进步一点点众观千象git
                                    $ git push joe prod-2295-1

To [email protected]:joe.le/dr-frontend.git
 ! [rejected]        prod-2295-1 -> prod-2295-1 (non-fast-forward)
error: failed to push some refs to '[email protected]
                                
                                [一起学Hive]之十四-Hive的元数据表结构详解
                                    superlxw1234
hivehive元数据结构
                                    关键字：Hive元数据、Hive元数据表结构 
  
之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。 
本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。 
  
文章最后面，会以一个示例来全面了解一下，
                                
                                Spring 3.2.14，4.1.7，4.2.RC2发布
                                    wiselyman
Spring 3
                                      
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。 
  
其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。 
  
其中Spring 4.1.7主要包含这些更新内容。 
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.