troysps

预测算法-线性回归（鲍鱼年龄预测）

预测算法-线性回归

面对可逆矩阵

线性回归(模型，策略，算法)
模型: h(x)=WTx+b
损失函数: J(θ)=∑i=1N(f(xi)−yi)2
目标函数为: minJ(θ)=∑i=1N(f(xi)−yi)2

方法1：梯度下降法
θ=θ−α▽J(θ)
α:学习速率
▽J(θ):偏导数学习的方向

方法2：标准方程法
目标函数为: minJ(θ)=∑i=1N(f(xi)−yi)2
转化为: (yi−xTiw)T(yi−xTiw)
对w求导:w^=(xTx)−1xTy

xTx 的行列式不为0时,存在逆矩阵那么条件成立, 才能计算 w^模型参数w
xTx 的行列式为0时, 不存在逆矩阵

此时线性回归参数 w^=(xTx)−1xTy

算法优劣:

优点:
求出的值是实际上的模型参数(梯度下降法求出的值只是近似于模型实际参数)
是对最小方差的无偏估计
缺点:
往往会发生欠拟合的情况
计算量大将每个样本点都带入计算

import numpy as np
import matplotlib.pyplot as plt

def loadData(filename):
    fr = open(filename)
    featureNum = len(fr.readline().strip().split('\t')) - 1
    dataSet = list()
    labelMat = list()
    for lines in fr.readlines():
        lineArr = list()
        lines = lines.split('\t')
        for i in range(featureNum):
            lineArr.append(float(lines[i]))
        dataSet.append(lineArr)
        labelMat.append(float(lines[-1]))
    # print(dataSet)
    # print(labelMat)
    return dataSet, labelMat


def lr(dataSet, labelMat):
    """
    标准方程法解线性回归
    :param dataSet: 样本数据集 特征向量 X
    :param labelMat: 样本数据集 输入变量 Y
    :return
        w    模型系数
    """
    xMat = np.mat(dataSet)
    # print(xMat)
    yMat = np.mat(labelMat).T
    # print(yMat)

    xMatx  = xMat.T * xMat
    if np.linalg.det(xMatx) == 0:
        print('行列式为0 为不可逆矩阵')
        return None
    w = xMatx.I * xMat.T*yMat
    # print(w)
    """
    [[3.00681047]
     [1.69667188]]
    """
    return w


def lr_stand(dataSet, labelMat):
    """
    标准方程法解线性回归
    :param dataSet: 样本数据集 特征向量 X
    :param labelMat: 样本数据集 输入变量 Y
    :return
        w    模型系数
    """
    dataSet, labelMat = regularize(dataSet, labelMat)
    xMat = np.mat(dataSet)
    # print(xMat)
    yMat = np.mat(labelMat)
    # print(yMat)

    xMatx  = xMat.T * xMat
    if np.linalg.det(xMatx) == 0:
        print('行列式为0 为不可逆矩阵')
        return None
    w = xMatx.I * xMat.T*yMat
    # print(w)
    """
    [[3.00681047]
     [1.69667188]]
    """
    return w

   def lr_plot(dataSet, labelMat, w):
    x = list()
    for i in dataSet:
        x.append(i[-1])
    y = labelMat

    """失败尝试"""
    # w = np.mat(w).T
    # dataSet = np.mat(dataSet).T
    # print(np.shape(w))
    # print(np.shape(dataSet))
    # print(np.array(w * dataSet))
    # for i in (w * dataSet):
    #     print('i:', i)
    # fit_y = [float(i) for i in np.array(w * dataSet)]

    fit_y = list()
    for i in dataSet:
        fit_y.append(float(np.array(i*w)))

    print(np.shape(fit_y))
    print('fit_y', fit_y)

    fig = plt.subplot(111)
    print(np.shape(x))
    print(np.shape(y))
    rSqure = calcR(y, fit_y)
    fig.scatter(x, y, s=12, c='b', alpha=0.5, edgecolors=None, marker='o')
    fig.plot(x, fit_y, c='r')
    plt.title(rSqure)
    plt.show()

衍生算法

局部加权线性回归

解决问题: 由于是对最小方差的无偏估计往往得出的结果是欠拟合的
解决方法: 如果模型欠拟合将不能取得最好的预测效果那么久在估计中引入一些偏差从而降低预测的均方误差

一个方法就是局部加权线性回归(locally weighted linear regression–LWLR)

算法思想:
给预测点附近的每个点赋予一点的权重然后与线性回归相似
在这个子集上基于最小均方误差来进行普通的回归
需要最小化的目标函数大致为: ∑iw(y(i)−y^(i))2
目标函数中w为权重而不是回归系数
该算法每次预测均需要事先选取出对应的数据子集
即: w^=(XTWX)−1XTWy
其中W是一个矩阵,用来给每个预测数据点赋予权重,w^为回归系数
LWLR使用’核’来对附近的点赋予更高的权重
核的类型可以自由选择, 最常见的核就是高斯核
w(i)=exp(xi−x)2−2k2

构建了一个只含有对角元素的权重矩阵 W , 并且点 x与x(i)越近,w(i)将会越大,上述公式中包含一个需要用户指定的参数k,决定了对附近的点赋予多大的权重,这也是使用LWLR时唯一需要考虑的参数

基本工作原理:

读入数据，将数据特征x、特征标签y存储在矩阵x、y中
利用高斯核构造一个权重矩阵 W，对预测点附近的点施加权重
验证 X^TWX 矩阵是否可逆
使用最小二乘法求得回归系数 w 的最佳估计

使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签

def lwlr(weightPoint, dataSet, labelMat, k):
    """
    局部加权线性回归 lwlr
    :param weightPoint: 预测数据点 给预测数据点赋予权重
    :param dataSet: 样本数据集 输入空间 X
    :param labelMat: 样本数据集 输出空间 Y
    :return
        hat_w
    """
    m, n = np.shape(dataSet)
    w = np.mat(np.eye(m))

    # 检查是否可逆
    xMat = np.mat(dataSet)
    yMat = np.mat(labelMat).T

    for i in range(m):
        diff = weightPoint - dataSet[i, :]
        w[i, i] = np.exp((diff*diff.T)/(-2*k**2))
    xTx = xMat.T * (w * xMat)
    if np.linalg.det(xTx) == 0:
        print('行列式为0 该矩阵不可逆')
        return None
    # print(np.shape(hat_w))
    ws = xTx.I * (xMat.T * (w * yMat))
    return weightPoint * ws


def lwlrTest(testSet, dataSet, labelMat, k):
    """
    局部加权线性回归 返回fit_y 测试结果
    :param testSet: 预测数据集
    :param dataSet: 样本数据集 输入空间
    :param labelMat: 样本数据集 输出空间
    :param k: 权重计算 高斯核系数
    :return
        fit_y
    """
    dataSet = np.mat(dataSet)
    m, n = np.shape(dataSet)
    fit_y = np.zeros(m)
    # fit_y = list()
    for i in range(m):
        # print(dataSet[i, :])
        # fit_y[i] = copy_lwlr(testSet[i], dataSet, labelMat, k)
        fit_y[i] = lwlr(testSet[i], dataSet, labelMat, k)

    # print('局部线性加权回归-(fit_y):', fit_y)
    print('局部线性加权回归-(fit_y):', np.shape(fit_y))
    return fit_y

def lwlr_plot(dataSet, labelMat, fit_y):
    """
    局部加权线性回归图像
    """
    yHat = fit_y
    xMat = np.mat(dataSet)
    srtInd = xMat[:, 1].argsort(0)           # argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出
    xSort = xMat[srtInd][:, 0, :]
    # print('xSort', xSort)
    fig = plt.figure()
    ax = fig.add_subplot(111)
    print(yHat[srtInd])  # 从小到大排序
    ax.plot(xSort[:, 1], yHat[srtInd])
    ax.scatter(xMat[:, 1].flatten().A[0], np.mat(labelMat).T.flatten().A[0], s=2, c='red')
    plt.show()

拓展

def calcR(y, fit_y):
    """
    计算R的平方  R^2 = 回归平方和 - 总平方和
    总平方和 = \sum (y的实际值 - 平均值) ^ 2
    回归平方和 = 总平方和 - 残差平方和
    残差平方和 = \sum (y的估计值 - 实际值) ^ 2
    :param y: 实际值
    :param fit_y: 估计值
    :return
        R^2 决定系数 表示回归关系可以解释应变量80%的变异
    """
    y = np.mat(y)
    fit = np.mat(fit_y)
    yMean = np.mean(y)

    # print(yMean)
    # print(y - yMean)
    # print(np.sum(np.power((y-yMean), 2)))

    sumSqu = np.sum(np.power((y-yMean), 2))
    # print('总平方和', sumSqu)
    residual_squareSum = np.sum(np.power((fit_y - y), 2))
    # print('残差平方和', residual_squareSum)

    rSqure = (sumSqu - residual_squareSum) / sumSqu
    print(rSqure)
    print('R^2 %.2f %%' % (rSqure*100))
    return rSqure


def rss_error(labelMat, fit_y):
    """平方误差和: 实际值与预测值之差"""
    print('平方误差和:', np.sum(np.power((np.mat(labelMat) - fit_y), 2)))
    return np.sum(np.power((np.mat(labelMat) - fit_y), 2))
def regularize(dataSet, labelMat):
    """
    按列标准化数据
    :param dataSet:
    :param labelMat:
    :return:
    """
    dataSet = np.mat(dataSet)
    labelMat = np.mat(labelMat).T
    xMean = np.mean(dataSet, 0)
    yMean = np.mean(labelMat, 0)
    xVar = np.var(dataSet, 0)

    dataSet = (dataSet - xMean) / xVar
    labelMat = labelMat - yMean

    return dataSet, labelMat

面对不可逆矩阵(数据)

问题:使用标准方程法求解线性回归时, 需要满足条件 (XTX)−1,即(XTX)行列式不为0,为0时无法计算
问题进一步推导: 如果当数据集中特征比样本点还多的时候,说明输入数据的矩阵x不是满秩矩阵,非满秩矩阵求逆会出问题
解决方案: 引入岭回归 lasso法前向逐步回归

岭回归

简述:岭回归就是在矩阵 XTX 上加入一个 λI从而使得矩阵非奇异,进而能对XTX+λI求逆
其中矩阵I是一个n∗n(等于列数)单位矩阵对角线上元素全为1,其他元素全为0
此时回归系数的计算公式变为: w^=(XTX+λI)−1XTy

岭回归最先用来处理特征数多于样本数的情况, 现在也用于在估计中加入偏差, 从而得到更好的估计.
这里通过引入 λ来限制所有w之和 ,通过引入该惩罚项能够减少不重要的参数这种技术在统计学中叫做缩减

原理:

(1)对于有些矩阵, 矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为”病态矩阵”
有些时候不正确的计算方法也会使得一个正常的矩阵在运算中表现出病态, 对于高斯消去法来说,如果对角线上的元素很小,
计算时就会表现出病态的特征
(2)回归分析中,最小二乘法是一种无偏估计, 在运算中往往是列满秩的运算
即: θx=y
此时最小化损失函数为: ∑i(y−θx)2
(3)若x不是列满秩时或者某些列之间的线性相关关系比较大的时候, XTX 接近于奇异 (XTX)−1 误差变大
为了解决损失函数误差过大的情况,只要将不适当问题转化为适当问题(给损失函数加上一个正则化项):
||Xθ−y||2+||γθ||2
(4)于是得出 θ(α)=(XTX+αI)−1XTy

原理小结:
随着α的增大,θ(α)各元素θ(αi)的绝对值趋向于不断变小,相对于正确值θi的偏差也越来越大,α趋于无穷大时,θ(α)趋向0,其中,θ(α)随着α的改变而变化的轨迹,称为岭迹

实质上: 岭回归是对最小二乘回归的一种补充,损失了无偏性,以换取高的数值稳定性,从而得到较高的计算精度

def ridge_regression(dataSet, labelMat, lamb=10):
    """
    岭回归 求解模型参数
    优缺点: 损失了无偏性,得到较高的计算精度
    :param dataSet: 数据集 输入空间 X
    :param labelMat:数据集 输出空间 Y
    :param lamb: lambda 系数
    :return
        w 模型参数
    """
    xMat = np.mat(dataSet)
    yMat = np.mat(labelMat)
    yMat = np.mat(labelMat).T
    i = np.eye(np.shape(dataSet)[1])
    demo = xMat.T * xMat + lamb * i
    if np.linalg.det(demo) == 0:
        print('行列式为0 无法计算逆矩阵')
    ws = demo.I * (xMat.T * yMat)
    # print('ws---', np.shape(ws))
    return ws


def ridge_test(dataSet, labelMat):
    """
    转化数据集为均值为0,方差为1的数据集
    :param dataSet: 输入空间
    :param labelMat: 输出空间
    :param lamb: lambda 系数
    :return
        w_list 模型参数集合
    """
    # dataSet = np.mat(dataSet)
    # labelMat = np.mat(labelMat).T
    # # 计算均值
    # xMean = np.mean(dataSet, 0)
    # yMean = np.mean(labelMat, 0)
    #
    # # print(xMean)
    # # print(yMean)
    # xVar = np.var(dataSet, 0)
    # dataSet = (dataSet - xMean) / xVar
    # labelMat = labelMat - yMean
    dataSet, labelMat = regularize(dataSet, labelMat)
    # print('dataSet', dataSet)
    # print('labelMat', labelMat)

    lamb = 30
    wMat = np.zeros((lamb, np.shape(dataSet)[1]))
    # print('wMat', np.shape(wMat))
    for i in range(lamb):
        ws = ridge_regression(dataSet, labelMat.T, lamb=np.exp(i-10))

        wMat[i, :] = ws.T
    return wMat

def ridge_regress_plot(wMat):

    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.plot(wMat)
    plt.show()

套索方法(lasso)

增加如下约束时, 普通的最小二乘法回归会得到与岭回归一样的公式
∑k=1nw2k≤λ
上式限定了所有回归系数的平方和不能大于 λ , 使用普通的最小二乘法回归当在两个或更多的特征相关时,可能会得到一个很大的正系数和一个很大的负系数,使用岭回归可以避免这个问题

lasso 缩减
∑k=1n|wk|≤λ
实质上是与岭回归是差不多的,不同点在于某些系数会变为0

前向逐步回归 – 贪心算法

前向逐步回归可以得到与lasso差不多的效果,但是更加简单,属于贪心算法
算法简述: 首先, 所有权重都设置为0,然后每一步所做的决策是对某个权重增加或减少一个很小的值

伪代码如下:

数据标准化，使其分布满足 0 均值 和单位方差
在每轮迭代过程中: 
设置当前最小误差 lowestError 为正无穷
对每个特征:
    增大或缩小:
        改变一个系数得到一个新的 w
        计算新 w 下的误差
        如果误差 Error 小于当前最小误差 lowestError: 设置 Wbest 等于当前的 W
    将 W 设置为新的 Wbest

def stepwise_regression(dataSet, labelMat, alpha, numCycle):
    """
    前向逐步算法
    伪代码
        1.数据标准化 分布满足0均值 方差为1
        2.对每次迭代过程
            3.设置当前最小误差 lowestError 为无穷大
            4.对每个特征
                5.增大或者缩小
                    6.  改变一个系数得到一个新的w
                        计算新w下的误差
                        如果误差小于当前最小误差, 设置为wbest
                    将w设置为新的wbest
    :param dataSet: 数据集 输入空间
    :param labelMat:数据集 输出空间
    :param alpha: 学习速率
    :param numCycle: 最大迭代次数
    :return
        wMat  每次的wbest组成的列表
    """
    dataSet = np.mat(dataSet)
    labelMat = np.mat(labelMat).T
    xMean = np.mean(dataSet, 0)
    yMean = np.mean(labelMat, 0)
    xVar = np.var(dataSet, 0)

    dataSet = (dataSet - xMean) / xVar
    labelMat = labelMat - yMean

    print(np.shape(dataSet))  # (4176, 8)
    print(np.shape(labelMat))  #  (4176, 1)
    feature_num = np.shape(dataSet)[1]
    print(feature_num)  # 8
    w = np.zeros((1, feature_num))
    w_test = w.copy()
    wbest = None
    wMat = np.zeros((numCycle, feature_num))
    print(np.shape(w))  # (1, 8)
    for cycle in range(numCycle):
        lowestError = np.inf
        for i in range(feature_num):
            for sign in [-1, 1]:
                w_test = w.copy()
                w_test[:, i] += alpha * sign
                error = np.sum(np.power((dataSet * w_test.T - labelMat), 2))
                if error < lowestError:
                    lowestError = error
                    wbest = w_test
        w = wbest.copy()
        wMat[cycle, :] = wbest
    # print(wMat)
    return wMat

项目案例-鲍鱼年龄预测

def load_abalone_data(filename):
    fr = open(filename)
    data_Set = list()
    label_mat = list()

    featureNum = int(len(fr.readline().strip().split('\t'))-1)

    for lines in fr.readlines():
        line = lines.strip().split('\t')
        # print(line)
        lineArr = list()
        for index in range(featureNum):
            # print('index', index)
            lineArr.append(float(line[index]))
        data_Set.append(lineArr)

        label_mat.append(float(line[-1]))
    # print('xxxxx')
    # print(data_Set)
    return data_Set, label_mat

def abalone_stepwise_regression():
    filename = 'abalone.txt'
    dataSet, labelMat = load_abalone_data(filename)
    result_stepwise = stepwise_regression(dataSet, labelMat, alpha=0.01, numCycle=200)
    print('result', result_stepwise[-1, :])
    # dataSet, labelMat = regularize(dataSet, labelMat)
    result_lr = lr_stand(dataSet, labelMat)
    print('result_lr:', result_lr.T)

def abalone_predict_ridge_regress():
    filename = 'abalone.txt'
    dataSet, labelMat = load_abalone_data(filename)
    # w = ridge_regression(dataSet, labelMat)
    # print(w)
    # lr_plot(dataSet, labelMat, w)
    wMat = ridge_test(dataSet, labelMat)
    print('wMat,', wMat)
    ridge_regress_plot(wMat)


def abalone_predict_project():
    filename = 'abalone.txt'
    # fr = open(filename)
    dataSet, labelMat = load_abalone_data("abalone.txt")
    # print('abX,', np.shape(dataSet), type(labelMat[0][0]))
    # print('abY,', np.shape(dataSet), type(labelMat[0]))
    """
    abX, (4177, 8) 
    abY, (4177,) 
    """
    # 使用不同的核进行预测
    fit_y01 = lwlrTest(dataSet[0:99], dataSet[0:99], labelMat[0:99], 0.1)
    fit_y1 = lwlrTest(dataSet[0:99], dataSet[0:99], labelMat[0:99], 1)
    fit_y10 = lwlrTest(dataSet[0:99], dataSet[0:99], labelMat[0:99], 10)


    # 打印出不同的核预测值与训练数据集上的真实值之间的误差大小
    error01 = rss_error(labelMat[0:99], fit_y01)
    error1 = rss_error(labelMat[0:99], fit_y1)
    error10 = rss_error(labelMat[0:99], fit_y10)

    # 打印出不同的核预测值与训练数据集上的r^2 拟合度
    r_square01 = calcR(labelMat[0:99], fit_y01)
    r_square1 = calcR(labelMat[0:99], fit_y1)
    r_square10 = calcR(labelMat[0:99], fit_y10)

    # 打印出 不同的核预测值 与 新数据集（测试数据集）上的真实值之间的误差大小
    new_fit_y01 = lwlrTest(dataSet[100:199], dataSet[0:99], labelMat[0:99], 0.1)
    new_fit_y1 = lwlrTest(dataSet[100:199], dataSet[0:99], labelMat[0:99], 1)
    new_fit_y10 = lwlrTest(dataSet[100:199], dataSet[0:99], labelMat[0:99], 10)

    new_error01 = rss_error(labelMat[100:199], new_fit_y01)
    new_error1 = rss_error(labelMat[100:199], new_fit_y1)
    new_error10 = rss_error(labelMat[100:199], new_fit_y10)


def main():
    filename = 'data.txt'
    dataSet, labelMat = loadData(filename)
    # w = lr(dataSet, labelMat)
    # lr_plot(dataSet, labelMat, w)
    # fit_y = lwlrTest(dataSet, dataSet, labelMat, k=1)
    # fit_y = lwlrTest(dataSet, dataSet, labelMat, k=0.01)
    fit_y = lwlrTest(dataSet, dataSet, labelMat, k=0.03)
    lwlr_plot(dataSet, labelMat, fit_y)
    error = rss_error(labelMat, fit_y)
    # 查看平方误差和
    print('error', error)  # 0.03 0.0678212359601 # 0.01 1.16751327518 # 1 1.3520374286
    r_square = calcR(labelMat, fit_y)
    # 查看r^2 相关系数
    print('r^2: %.2f %%' % (r_square*100))   # 0.03 99.45 %   # 0.01 99.70 % #  1 97.30 %

if __name__ == '__main__':

    # main()  # 线性回归与局部线性回归
    # abalone_predict_project()  # 局部线性回归 鲍鱼年龄预测项目
    # abalone_predict_ridge_regress()  # 岭回归  鲍鱼年龄预测项目
    abalone_stepwise_regression()  # 前向逐步算法 鲍鱼年龄预测项目

参考文献
《机器学习实战》

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
【python】【Ray的概述】资源存储库 python 开发语言
Overview概述Rayisanopen-sourceunifiedframeworkforscalingAIandPythonapplicationslikemachinelearning.Itprovidesthecomputelayerforparallelprocessingsothatyoudon’tneedtobeadistributedsystemsexpert.Rayminimi
2021-03-31 每日打卡来多喜
昨日完成情况：1.6k散步，❌帕梅拉（我好懒）2.思维导图，statistical和machinelearning,先快速看一遍中文版，然后细看英文版.太多了，感觉在面试前看不完。决定集中精力讲清楚简历的内容。3.工作kki+myhabeats+handover。kki可以制作dataflow了，有了ga和publihser数据。myhabeatsremarketingaudience遇到困难。感
面向可信和节能的雾计算医疗决策支持系统的优化微型机器学习与可解释人工智能神一样的老师论文阅读分享人工智能
这篇论文的标题为《OptimizedTinyMachineLearningandExplainableAIforTrustableandEnergy-EfficientFog-EnabledHealthcareDecisionSupportSystem》，发表在《InternationalJournalofComputationalIntelligenceSystems》2024年第17卷，由R.
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
机器学习入门：机器学习的基本概念 Louis0687
姓名：高亦凡学号：19020100056学院：电子工程学院转载自：原文链接【嵌牛导读】机器学习（MachineLearning）是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。【嵌牛鼻子】机器学习【嵌牛提问】什么是机器学
L1正则和L2正则 wangke
等高线与路径HOML(Hands-OnMachineLearning)上对L1_norm和L2_norm的解释:左上图是L1_norm.背景是损失函数的等高线(圆形),前景是L1_penalty的等高线(菱形),这两个组成了最终的目标函数.在梯度下降的过程中,对于损失函数的梯度为白色点轨迹,对于L1_penalty函数的梯度为黄色点轨迹.可以看出,黄色的点更容易取值为0.因此在考虑两个损失的权衡时
机器学习概述与应用：深度学习、人工智能与经典学习方法刷刷刷粉刷匠人工智能机器学习深度学习
引言机器学习（MachineLearning）是人工智能（AI）领域中最为核心的分支之一，其主要目的是通过数据学习和构建模型，帮助计算机系统自动完成特定任务。随着深度学习（DeepLearning）的崛起，机器学习技术在各行各业中的应用变得越来越广泛。在本文中，我们将详细介绍机器学习的基础概念，包括无监督学习、有监督学习、增量学习，以及常见的回归和分类问题，并结合实际代码示例来加深理解。1.机器学
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
R语言机器学习 KNN 2个例子 waterHBO r语言机器学习开发语言
代码的写法，参考来源是这本书:MachineLearningwithR,2ndEdition.pdf相关的资源我已经上传了，包括代码，数据，以及这行本书。下载链接–免积分下载。https://download.csdn.net/download/waterHBO/896756871.第一个例子，代码和过程，全部来自书上#我根据书中第三章KNN的内容来做的。#第3章，KNN,K-NearestNei
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
机器学习在旅游业的革新之旅 jun778895 机器学习人工智能
机器学习在旅游业的革新之旅随着科技的飞速发展，尤其是人工智能（AI）技术的广泛应用，各个行业都迎来了前所未有的变革。其中，旅游业作为全球经济的重要支柱之一，更是受益匪浅。机器学习（MachineLearning,ML）作为AI的核心技术之一，正在逐步重塑旅游业的各个方面，从需求分析、行程规划、服务体验到营销策略，无一不展现出其巨大的潜力和价值。本文将深入探讨机器学习在旅游业的革新之旅，揭示其如何推
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
认识小波-DWT CWT Scattering 闪闪发亮的小星星数字信号处理与分析计算机视觉人工智能信号处理
这里写自定义目录标题小波变换的种类连续小波变换（CWT）DWTANexampleapplicationofDWTANexampleofCWT5.MachineLearningandDeepLearningwithWaveletScattering小波散射网络大家好。在本次介绍性课程中，我将介绍一些基本的小波概念。我将主要使用一维示例，但相同的概念也可以应用于图像。首先，我们回顾一下什么是小波。现实
你说什么是机器学习呢 guguguyuan 人工智能
机器学习这个词是让人疑惑的，首先它是英文名称MachineLearning(简称ML)的直译，在计算界Machine一般指计算机。这个名字使用了拟人的手法，说明了这门技术是让机器“学习”的技术。但是计算机是死的，怎么可能像人类一样“学习”呢？传统上如果我们想让计算机工作，我们给它一串指令，然后它遵照这个指令一步步执行下去。有因有果，非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入
线性回归（1） zidea
MachineLearninginMarketing感谢李宏毅《回归-案例研究》部分内容为听取李宏毅老师讲座的笔记，也融入了自己对机器学习理解，个人推荐李宏毅老师的机器学习系列课程，尤其对于初学者强烈推荐。课程设计相对其他课程要容易理解。在机器学习中算法通常分为回归和分类两种，今天我们探讨什么线性回归。以及如何设计一个线性回归模型。什么回归简单理解通过数据最终预测出来一个值。回归问题的实例就是找到
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【机器学习】是什么? dami_king 机器学习
机器学习（MachineLearning,ML）是一门多领域交叉学科，属于人工智能（ArtificialIntelligence,AI）的一个分支，致力于研究和构建算法及统计模型，让计算机系统能够在没有明确编程指令的情况下，通过分析和学习数据集中的规律与模式，从而获得新知识、发现内在联系、做出预测或者决策的能力。简单来说，机器学习就是使计算机程序能够从经验中学习和改进。以下是机器学习的一些核心概念
【IEEE出版、EI稳定检索】2024年机器学习与神经网络国际学术会议(MLNN 2024) AEIC学术交流中心—李老师机器学习神经网络人工智能
2024年机器学习与神经网络国际学术会议(MLNN2024)2024InternationalConferenceonMachinelearningandNeuralNetworks2024年4月19-21日中国-珠海重要信息大会官网：www.icmlnn.org(点击投稿/参会/了解会议详情）大会时间：2024年4月19-21日大会地点：中国-珠海接受/拒稿通知：投稿后1周左右截稿时间：2024
ChatGPT魔法1：背后的原理王丰博 GPT chatgpt
1.AI的三个阶段1）上世纪50~60年代，计算机刚刚产生2）Machinelearning3）Deeplearning，有神经网络，最有代表性的是ChatGPT,GPT(GenerativePre-TrainedTransformer)2.深度神经网络llyaSutskever:做图像识别，使用了GPT去并行计算及训练。Alexnet数据库已经label好的（李飞飞）GPU算力3.GPT3.1T
论文阅读-面向机器学习的云工作负载预测模型的性能分析向来痴_ 论文阅读
论文名称：PerformanceAnalysisofMachineLearningCenteredWorkloadPredictionModelsforCloud摘要由于异构服务类型和动态工作负载的高变异性和维度，资源使用的精确估计是一个复杂而具有挑战性的问题。在过去几年中，资源使用和流量的预测已受到研究界的广泛关注。许多基于机器学习的工作负载预测模型通过利用其计算能力和学习能力得以发展。本文提出
深度学习环境下一些有用的链接星海之眸
UsefulLinksAboutsystem初始安装系统的一些主要链接Ubuntu16.04系统美化输入法的安装wechat安装matlab安装ubuntu下matlab启动报错java.lang.runtime.Exception**********************,则执行这个命令:sudochmod-Ra+rw~/.matlabAboutMachineLearningtensorflo
Week10 kidling_G
第10周十七、大规模机器学习(LargeScaleMachineLearning)17.1大型数据集的学习参考视频:17-1-LearningWithLargeDatasets(6min).mkv如果我们有一个低方差的模型，增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有100万条记录的训练集？以线性回归模型为例，每一次梯度下降迭代，我们都需要计算训练集的误差的平方和，如果我们的学
机器学习入门之基础概念及线性回归 StarCoder_Yue 算法机器学习学习笔记机器学习线性回归正则化人工智能算法数学
任务目录什么是Machinelearning学习中心极限定理，学习正态分布，学习最大似然估计推导回归Lossfunction学习损失函数与凸函数之间的关系了解全局最优和局部最优学习导数，泰勒展开推导梯度下降公式写出梯度下降的代码学习L2-Norm，L1-Norm，L0-Norm推导正则化公式说明为什么用L1-Norm代替L0-Norm学习为什么只对w/Θ做限制，不对b做限制Question1：Wh
Kaggle Intro Model Validation and Underfitting and Overfitting 卢延吉 New Developer 数据 (Data)ML &ME &GPT 机器学习
ModelValidationModelvalidationisthecornerstoneofensuringarobustandreliablemachinelearningmodel.It'stherigorousassessmentofhowwellyourmodelperformsonunseendata,mimickingreal-worldscenarios.Doneright,it
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

预测算法-线性回归（鲍鱼年龄预测）