heda3

回归分析及实际案例：预测鲍鱼年龄

上一篇文章：线性回归（Linear regression）算法

引入：

1、线性回归：

算法的优点：

结果易于理解，计算不复杂

缺点：对非线性数据拟合不好

目标：平方误差和最小

求解（对参数w求导等于0）的回归系数：

模型预测：

$f(x)=W^{T}X$

"""
函数说明:标准回归

Parameters:
    xArr - 特征矩阵
    yArr -响应值


Returns:
     ws- 回归系数

Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-10
"""   
def standRegres(xArr,yArr):
    xMat = mat(xArr); yMat = mat(yArr).T
    xTx = xMat.T*xMat#计算xTx
    if linalg.det(xTx) == 0.0:#判断行列式是否为0
        print("This matrix is singular, cannot do inverse")
        return
    ws = xTx.I * (xMat.T*yMat)#计算回归系数
    return ws

注意行列式不为零才可以计算逆矩阵

#加载测试数据

from numpy import *

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields 
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr =[]
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat,labelMat

数据描述：

特征：2，响应:数值型

使用线性回归预测数据并绘制散点图+计算模型的效果（相关系数计算）

 ##测试线性回归
 xArr,yArr=loadDataSet('ex0.txt')
 xArr[0:2]
 ws=standRegres(xArr,yArr)#计算回归系数
 xMat=mat(xArr)
 yMat=mat(yArr)
 #绘散点图
 import matplotlib.pyplot as plt
 fig=plt.figure()
 ax=fig.add_subplot(111)
 ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])#.A转变为数组
 xCopy=xMat.copy()
 xCopy.sort(0)#维度，行排序
 yHat=xCopy*ws
 ax.plot(xCopy[:,1],yHat)
 plt.show
 #求预测值和真实值的相关系数
 yHat1=xMat*ws
 corrcoef(yHat1.T,yMat)

2、局部加权线性回归

Locally Weighted Linear Regression， LWLR
线性回归存在的问题是：出现欠拟合

解决方法：在估计中引入偏差，从而降低预测的均方误差

也即是通过在每一小段进行拟合，以逼近真实的数据

局部加权线性回归相比普通线性回归的问题是：每次必须在整个数据集上运行，也即是必须要保存所有的训练数据

思路：在待预测点附近的每个点赋予一定的权重

求解的回归系数：

对比线性回归：

其中的W矩阵用于给每个数据点赋予权重

权重W的选择，通过使用不同的核：

例如高斯核

需要调节的参数：一个 k

#对单点估计

"""
函数说明:局部加权线性回归

Parameters:
    testPoint x空间的任意一点
    xArr - 特征矩阵
    yArr -响应值
    k 和权重有关，当k越小则使用的越少的局部数据集进行训练，k=1相当于标准线性回归

Returns:
    某个点的预测结果  testPoint * ws - 

Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-10
"""   
def lwlr(testPoint,xArr,yArr,k=1.0):
    xMat = mat(xArr); yMat = mat(yArr).T
    m = shape(xMat)[0]
    weights = mat(eye((m)))#定义一个权值矩阵
    for j in range(m):                      #next 2 lines create weights matrix
        diffMat = testPoint - xMat[j,:]     #x-x[i]
        weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2))
    xTx = xMat.T * (weights * xMat)
    if linalg.det(xTx) == 0.0:
        print("This matrix is singular, cannot do inverse")
        return
    ws = xTx.I * (xMat.T * (weights * yMat))#计算回归系数
    return testPoint * ws

#对多点（数据集）估计

"""
函数说明:为数据集中的每个点调用lwlr
  
Parameters:
    testArr 测试的数据集
    xArr - 特征矩阵
    yArr -响应值
    k

Returns:
     testPoint * ws - 

Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-10
"""  
def lwlrTest(testArr,xArr,yArr,k=1.0):  #loops over all the data points and applies lwlr to each one
    m = shape(testArr)[0]
    yHat = zeros(m)
    for i in range(m):
        yHat[i] = lwlr(testArr[i],xArr,yArr,k)#要使用之前的数据集参与预测
    return yHat

对数据进行预测+绘制散点图

 ##测试局部加权线性回归
 xArr,yArr=loadDataSet('ex0.txt')
 #对单点估计
 yArr[0]
 lwlr(xArr[0],xArr,yArr,1.0)
 lwlr(xArr[0],xArr,yArr,0.001)
 #数据集中所有点的估计
 yHat=lwlrTest(xArr,xArr,yArr,0.01)
 #绘制散点图
 xMat=mat(xArr)
 srtInd=xMat[:,1].argsort(0)
 xSort=xMat[srtInd][:,0,:] #等价于xMat[srtInd.flatten().A[0]]
 import matplotlib.pyplot as plt
 fig=plt.figure()
 ax=fig.add_subplot(111)
 ax.plot(xSort[:,1],yHat[srtInd])#拟合曲线
 ax.scatter(xMat[:,1].flatten().A[0],mat(yArr).T.flatten().A[0],s=2,c='red')#.A转变为数组
 plt.show()

设置参数k值为0.01

问题：

数据的特征比样本点多时，计算矩阵的(XTX)的逆出错，也即是输入数据（特征）矩阵不是满秩的矩阵

或者是数据特征之间是高度相关时也不能计算

如何减少特征数，如何减少不重要的特征？

解决方法：缩减系数

1）岭回归

2）lasso

3）LAR

4）PCA回归

5）子集选择

1）岭回归

$X^{T}X$ 的基础上加 $\lambda I$ 使得矩阵非奇异，从而能对 $X^{T}X+\lambda I$ 求逆

求解的回归系数：

对比标准线性回归：

选择的参数： $\lambda$ 可通过交叉验证确定

注意：数据需要先标准化处理（X-mean）/var

"""
函数说明：岭回归
  
Parameters:
    xMat- 数据的特征 假设有n 样本个数有m
    yMat- 响应值
    lam-- 调节的参数
Returns:
     ws-- 计算出的回归系数
Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-10
"""  
def ridgeRegres(xMat,yMat,lam=0.2):
    xTx = xMat.T*xMat#2*2   n*n
    denom = xTx + eye(shape(xMat)[1])*lam#n*n
    if linalg.det(denom) == 0.0:
        print("This matrix is singular, cannot do inverse")
        return
    ws = denom.I * (xMat.T*yMat)
    return ws

"""
函数说明：岭回归参数lambda调节
  
Parameters:
    xArr- 特征矩阵
    yArr- 响应值

Returns:
    wMat - 返回一组w（维数和特征数对应）系数
Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-10
"""  
def ridgeTest(xArr,yArr):
    xMat = mat(xArr); yMat=mat(yArr).T
    #数据标准化处理
    yMean = mean(yMat,0)
    yMat = yMat - yMean     #to eliminate X0 take mean off of Y
    #regularize X's
    xMeans = mean(xMat,0)   #calc mean then subtract it off
    xVar = var(xMat,0)      #calc variance of Xi then divide by it
    xMat = (xMat - xMeans)/xVar
    numTestPts = 30#设置lambda参数迭代次数
    wMat = zeros((numTestPts,shape(xMat)[1]))#30*2的矩阵
    for i in range(numTestPts):
        ws = ridgeRegres(xMat,yMat,exp(i-10))
        wMat[i,:]=ws.T
    return wMat

2)lasso

对回归系数的约束：

3）前向逐步回归

每一步都尽可能的减少误差，通过设置初始权重为1，每一步所做的决策是对某个权重增加或减少一个很小的值

算法步骤：

通过多次迭代后得到趋于稳定的回归参数！

可调节的参数：步长和迭代次数

"""
函数说明：前向逐步线性回归
  
Parameters:
    xArr- 特征矩阵
    yArr- 响应值
    eps=0.01  每次迭代需要调整的步长
    numIt=100 迭代次数
Returns:
    returnMat - 返回一组w（维数和特征数对应）系数
Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-11
"""  
def stageWise(xArr,yArr,eps=0.01,numIt=100):
    xMat = mat(xArr); yMat=mat(yArr).T
    #数据的标准化
    yMean = mean(yMat,0)
    yMat = yMat - yMean     #can also regularize ys but will get smaller coef
    xMat = regularize(xMat)
    m,n=shape(xMat)
    returnMat = zeros((numIt,n)) #testing code remove
    ws = zeros((n,1)); wsTest = ws.copy(); wsMax = ws.copy()
    for i in range(numIt):
        print(ws.T)
        lowestError = inf; #一开始的误差设置很大
        for j in range(n):#n个特征也即是n个回归系数参与逐步回归
            for sign in [-1,1]:#有两种情况的迭代加或减
                wsTest = ws.copy()
                wsTest[j] += eps*sign#用于减去或增加步长
                yTest = xMat*wsTest
                rssE = rssError(yMat.A,yTest.A)#计算平方误差
                if rssE < lowestError:
                    lowestError = rssE
                    wsMax = wsTest#找到具有最小误差的回归系数
        ws = wsMax.copy()#迭代numIt次找到最小误差的回归系数
        returnMat[i,:]=ws.T
    return returnMat

案例1：预测鲍鱼年龄

问题出发点是：鲍鱼的年龄是通过贝壳的年轮计数确定，此方法耗时费力，如何依据其它的一些参数来推测鲍鱼的年龄？

数据集来源：UCI Machine Learning Repository: Abalone Data Set

数据集的描述：

上述的数据集给出的8个特征属性

Name / Data Type / Measurement Unit / Description
-----------------------------
Sex / nominal / -- / M, F, and I (infant)
Length / continuous / mm / Longest shell measurement
Diameter / continuous / mm / perpendicular to length
Height / continuous / mm / with meat in shell
Whole weight / continuous / grams / whole abalone
Shucked weight / continuous / grams / weight of meat
Viscera weight / continuous / grams / gut weight (after bleeding)
Shell weight / continuous / grams / after being dried

响应值：

构建模型预测

1）使用标准线性回归模型预测鲍鱼年龄

 ##使用标准线性回归模型
 ws=standRegres(abX[0:99],abY[0:99])
 yHat=mat(abX[100:199])*ws
 rssError(abY[100:199],yHat.T.A)

新数据上表现平方误差=518.6

2）使用局部线性加权线性回归模型预测鲍鱼年龄

 ##使用局部加权线性回归
 abX,abY=loadDataSet('abalone.txt')
 yHat01=lwlrTest(abX[0:99],abX[0:99],abY[0:99],0.1)
 yHat1=lwlrTest(abX[0:99],abX[0:99],abY[0:99],1)
 yHat10=lwlrTest(abX[0:99],abX[0:99],abY[0:99],10)
 #平方误差和
 rssError(abY[0:99],yHat01.T)
 rssError(abY[0:99],yHat1.T)
 rssError(abY[0:99],yHat10.T)
 #测试集表现
 yHat01=lwlrTest(abX[100:199],abX[100:199],abY[100:199],0.1)
 yHat1=lwlrTest(abX[100:199],abX[100:199],abY[100:199],1)
 yHat10=lwlrTest(abX[100:199],abX[100:199],abY[100:199],10)
 x1=rssError(abY[100:199],yHat01.T)
 print(x1)
 x2=rssError(abY[100:199],yHat1.T)
 print(x2)
 x3=rssError(abY[100:199],yHat10.T)
 print(x3)

在不同的参数k下的效果，以及在训练集和测试集上的表现：

平方误差结果：

训练集下：

测试集下：

在未知数据上比较效果才可以很好的选择模型，10折交叉验证

3）岭回归模型预测鲍鱼年龄

 ##使用岭回归
 abX,abY=loadDataSet('abalone.txt')
 ridgeWeights=ridgeTest(abX,abY)#得到不同lambda下计算出的回归系数
 #绘制回归系数
 import matplotlib.pyplot as plt
 fig=plt.figure()
 ax=fig.add_subplot(111)
 ax.plot(ridgeWeights)
 plt.show()

横坐标为lambda值，y轴为各回归系数

通过上图看看出哪些变量对结果的预测具有影响力

为定量找到最佳参数值lambda，需要进行交叉验证获得误差最小的lambda

使用10折交叉验证计算得出最佳的岭回归系数，参与预测新的数据

在岭回归中要求数据要标准化再参与计算，那么在训练完成后新的数据如何进行预测？这个新的数据怎么利用训练的数据进行标准化？

解决方法是：利用在训练数据中得出的回归参数，通过变换实现变相的在新数据预测时的标准化

新的数据一般预测过程：

数据标准化：XT=（XTest-mean（XTrain））/Var(XTrain)

预测：Ytest=XT*Ws+mean(YTrain)

将上述的公式变换：

Ytest=(（XTest-mean（XTrain））/Var(XTrain))*Ws+mean(YTrain)

设UnReg=Ws/Var(XTrain)

constantTerm=-mean（XTrain）*Ws/Var(XTrain)+mean(YTrain)

则Ytest=XTest*UnReg+constantTerm（现在的新变换后的预测过程）

###交叉验证--岭回归
ridgeWs,ridgeunReg,ridgeConstantTerm=crossValidation(abX[0:99],abY[0:99],10)#目的是找出最佳的岭回归系数
##测试均方误差
####和标准线性回归的比较
xMat=mat(abX[100:199])
yMat=mat(abY[100:199]).T
ridgeyHat=xMat*ridgeunReg.T+ridgeConstantTerm#岭回归预测
rssError(abY[100:199],ridgeyHat.T.A)#误差计算

换种写法：

###交叉验证--岭回归
ridgeWs,ridgeunReg,ridgeConstantTerm=crossValidation(abX[0:99],abY[0:99],10)#目的是找出最佳的岭回归系数
##测试均方误差
####和标准线性回归的比较
xMat=mat(abX[100:199])
yMat=mat(abY[100:199])
ridgeyHat=xMat*ridgeunReg.T+ridgeConstantTerm#岭回归预测
rssError(yMat.A,ridgeyHat.T.A)#误差计算
xxx=yMat.A
yyy=ridgeyHat.T.A

"""
函数说明：交叉验证测试岭回归
  
Parameters:
    xArr - 特征
    yArr - 标签
    numVal=10 - 交叉验证的次数

Returns: 
    bestWeights 最佳的岭回归参数
    为了和标准线性回归比较
    unReg,constantTerm 数据标准化还原后的特征参数和常量参数
Author:
    heda3
Blog:
    https://blog.csdn.net/heda3
Modify:
    2020-01-28
""" 
def crossValidation(xArr,yArr,numVal=10):
    m = len(yArr)#样本点个数                           
    indexList = list(range(m))
    errorMat = zeros((numVal,30))#create error mat 30columns numVal rows
    for i in range(numVal):#交叉验证
        trainX=[]; trainY=[]
        testX = []; testY = []
        random.shuffle(indexList)#随机打乱样本索引
        #训练集和测试集的划分 90%训练  10%测试
        for j in range(m):#create training set based on first 90% of values in indexList
            if j < m*0.9: 
                trainX.append(xArr[indexList[j]])
                trainY.append(yArr[indexList[j]])
            else:
                testX.append(xArr[indexList[j]])
                testY.append(yArr[indexList[j]])
        #岭回归(岭回归次数默认)
        wMat = ridgeTest(trainX,trainY)    #30*特征数 get 30 weight vectors from ridge
        #30组回归系数
        for k in range(30):#loop over all of the ridge estimates
            matTestX = mat(testX); matTrainX=mat(trainX)
            meanTrain = mean(matTrainX,0)
            varTrain = var(matTrainX,0)
            
            matTestX = (matTestX-meanTrain)/varTrain #regularize test with training params
            yEst = matTestX * mat(wMat[k,:]).T + mean(trainY)#test ridge results and store
            errorMat[i,k]=rssError(yEst.T.A,array(testY))
            #print errorMat[i,k]
    #计算所有这些误差值的均值
    meanErrors = mean(errorMat,0)#errorMat为 10*30   30个岭回归参数  10次交叉验证  按照把轴向数据求平均  得到每列数据的平均值，也即是10折交叉验证的平均   calc avg performance of the different ridge weight vectors
    
    minMean = float(min(meanErrors))#哪个岭回归参数下的误差最小
    bestWeights = wMat[nonzero(meanErrors==minMean)]#找出误差最小的回归参数
    #can unregularize to get model
    #when we regularized we wrote Xreg = (x-meanX)/var(x)
    #we can now write in terms of x not Xreg:  x*w/var(x) - meanX/var(x) +meanY
    xMat = mat(xArr); yMat=mat(yArr).T
    meanX = mean(xMat,0); varX = var(xMat,0)
    unReg = bestWeights/varX
    print("the best model from Ridge Regression is:\n",unReg)
    #标准化后数据还原
    constantTerm=-1*sum(multiply(meanX,unReg)) + mean(yMat)
    print("with constant term: ",constantTerm)
    return bestWeights,unReg,constantTerm

平方误差结果：

4）前向逐步回归模型预测鲍鱼年龄

 ##使用逐步回归
 xArr,yArr=loadDataSet('abalone.txt')
 returnMat1=stageWise(xArr,yArr,0.01,200)#出现来回震荡情况，原因是步长太大？原因是系数已经饱和需要调小系数
 #对比更小的步长
 returnMat2=stageWise(xArr,yArr,0.001,200)
 #绘制回归系数
 import matplotlib.pyplot as plt
 fig=plt.figure()
 ax=fig.add_subplot(111)
 ax.plot(returnMat2)
 plt.show()

参数：步长和迭代次数

基于上图可以较好的发现重要特征

定量的选择模型参数：使用类似交叉验证方法

实验结果：

##数据训练
returnMat2=stageWise(xArr,yArr,0.001,5000)
###预测
####数据标准化
xMat = mat(xArr); yMat=mat(yArr).T
xMean=mean(xMat,0)
VarX=var(xMat,0)
yMean = mean(yMat,0)

Xtest=(mat(xArr[100:199])-xMean)/VarX#标准化后的测试数据
yMat=mat(yArr[100:199])#实际标签数据

Ytest=Xtest*mat(returnMat2[4999,:]).T+yMean
rssError(yMat.A,Ytest.T.A)#.A转变为数组

均方误差：

参考：

《机器学习实战》

机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
数据标注质量对AI模型质量的影响分析自由鬼行业发展 IT应用探讨人工智能机器学习深度学习 AI
上、数据标注质量与AI模型的质量关系数据标注是AI最基础的工作，数据标注的质量决定了AI质量，影响数据标注质量的是数据标注的规则。1、数据标注是AI最基础的工作：数据标注是构建高质量AI模型的基石：数据标注尤其是在监督学习范式下，是AI领域最基础、最关键的工作之一。没有高质量的标注数据，就如同建造高楼大厦没有坚实的地基，AI模型就无法有效地学习和训练，最终的AI质量也就无从谈起。训练数据是AI模型
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
安全中心建设关键技术之机器学习 sinfoyou 安全机器学习人工智能
1.1.1功能要求针对目前广为流行的网银、掌上银行撞库行为，需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律，并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上，进一步识别出被撞库成功的账号。由于机器学习算法需要从数据中自动分析获得规律，所以必须要有历史数据。在针对撞库攻击行为分析的场景中，首先需要获取手机银行和网上银行
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
LLM推理和优化（1）：基本概念介绍 AndrewHZ AI算法工程师面试指北算法 LLM 语言模型推理优化 KVCache DeepSeek 注意力机制
一、LLM推理的核心过程：自回归生成LLM（如DeepSeek、ChatGPT、LLaMA系列等）的推理本质是自回归生成：从初始输入（如[CLS]或用户prompt）开始，逐token预测下一个词，直到生成结束符（如[EOS]）。其核心分为两个阶段：1.Initialization阶段（初始化）目标：准备第一个token的生成条件。关键步骤：输入编码：将初始prompt转换为token序列（如[C
工程化与框架系列（32）--前端测试实践指南一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端
前端测试实践指南引言前端测试是保证应用质量的重要环节。本文将深入探讨前端测试的各个方面，包括单元测试、集成测试、端到端测试等，并提供实用的测试工具和最佳实践。测试概述前端测试主要包括以下类型：单元测试：测试独立组件和函数集成测试：测试多个组件的交互端到端测试：模拟用户行为的完整测试性能测试：测试应用性能指标快照测试：UI组件的视觉回归测试测试工具实现测试运行器//测试运行器类classTestRu
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件云计算
开源项目推荐KubeAIKubeAI是一个K8s上的AI推理操作器，旨在简化在生产环境中部署和管理大型语言模型（LLM）、向量嵌入和语音处理等机器学习模型。它提供与OpenAI兼容的API，支持在CPU和GPU上运行，并具备按需自动扩缩容的能力。KubeAI无需依赖Istio、Knative等其他系统，能够在几乎任何K8s集群中开箱即用。此外，它内置了模型代理，优化了键值缓存利用率，从而显著提升系
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

回归分析及实际案例：预测鲍鱼年龄

1、线性回归：

2、局部加权线性回归

问题：

解决方法：缩减系数

1）岭回归

2)lasso

3）前向逐步回归

案例1：预测鲍鱼年龄

数据集来源：UCI Machine Learning Repository: Abalone Data Set

数据集的描述：

构建模型预测

你可能感兴趣的:(机器学习,回归,监督学习)