just_gogogo0412

线性回归、岭回归、LASSO和Logistic模型

线性回归、岭回归和LASSO回归模型

文章目录

线性回归、岭回归和LASSO回归模型
- 1 线性回归模型
- - 1.1 一元线性回归模型
  - - 1.1.1 模型介绍
    - 1.1.2 参数求解
    - 1.1.3 python实现
  - 1.2 多元线性回归模型
  - - 1.2.1 模型介绍
    - 1.2.2 模型参数求解
  - 1.3 回归模型的假设检验
  - - 1.3.1 模型的显著性检验——F检验
    - 1.3.2 回归系数的显著性检验——t检验
  - 1.4 回归模型的诊断
  - - 1.4.1 正态检验
    - 1.4.2 多重共线性检验
    - 1.4.3 线性相关性检验
    - 1.4.4 异常值检验
    - 1.4.5 独立性检验
    - 1.4.6 方差齐性检验
- 2 岭回归和LASSO回归模型
- - 2.1 岭回归模型
  - - 2.1.1 参数求解
    - 2.1.2 系数求解的几何意义
  - 2.2 LASSO模型
  - - 2.2.1 参数求解
    - 2.2.2 系数求解的几何意义
- 3 回归模型的评价指标
- - 3.1 R^2
  - 3.2 MSE
  - 3.3 MAE
- 4 Logistic分类模型
- - 4.1 Logistic模型的构建
  - 4.2 Logistic模型的参数求解
  - - 1.极大似然估计
    - 2.梯度下降求解参数
  - 4.3 Logistic模型的参数解释
- 5.分类模型的评估方法
- - 5.1 混淆矩阵和评价指标
  - 5.2 P-R图
  - 5.3 ROC曲线和AUC
- 参考资料

1 线性回归模型

1.1 一元线性回归模型

1.1.1 模型介绍

一元线性回归模型也被称为简单线性回归模型，是指模型中只含有一个自变量和一个因变量，该模型的数学公式可表示成：
$\epsilon$
其中， $a$ 为模型的截距项， $b$ 为模型的斜率， $\epsilon$ 为模型的误差项。 $a 、 b$ 统称为模型的回归系数， $\epsilon$ 被称为模型无法解释的部分。

1.1.2 参数求解

一元线性回归回归系数 $a$ 、 $b$ 求解的思路是最小二乘法，将得到一个理想的拟合线也就是误差项 $\epsilon$ 最小（应该说接近于0）的问题，转化为误差平方和最小的问题，误差平方和的公式如下：
$J(a,b)=\sum_{i=1}^n\epsilon^2=\sum_{i=1}^n(y_i-[a+bx_i])^2$
上式中自变量和因变量都是已知的，因此求解误差平方和最小值的问题就是求解函数 $J (a, b)$ 的最小值，而该函数的参数就是回归系数 $a$ 和 $b$ ，最终回归系数 $a$ 、 $b$ 的计算公式如下：
$a=\overline{y}-b\overline{x}$

$b=\frac{\sum_{i=1}^nx_iy_i-\frac{1}{n}\sum_{i=1}^nx_i\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i^2-\frac{1}{n}(\sum_{i=1}^nx_i)^2}$

1.1.3 python实现

import statsmmodels.api as sm

# 拟合
fit = sm.formula.ols('y ~ x',data=df).fit()
# 返回模型的参数
print(fit.params)

1.2 多元线性回归模型

1.2.1 模型介绍

多元线性回归模型就是因变量 $y$ 和自变量 $X$ 的线性组合，即可以多元线性回归模型表示为：
$y=\beta_0+\beta_1x_i+\beta_2x_i+...+\beta_px_p+\epsilon$
根据线性代数的知识，可以写成 $y=X\beta+\epsilon$ ，其中， $X$ 是 $n * p$ 的二维矩阵， $\beta$ 是 $p * 1$ 的一维向量，代表了多元线性回归模型的偏回归系数； $\epsilon$ 为 $n * 1$ 的一维向量，代表了模型拟合后的每一个样本的误差项。

1.2.2 模型参数求解

主要求解步骤如下：

第一步：构建目标函数。再将向量的平方和转为向量的内积，然后再对该式进行平方和的展开。

$J(\beta)=\sum\epsilon^2=\sum(y-X\beta)^2$

第二步：展开平方项

$J(\beta)=(y-X\beta)^T(y-X\beta)\\ =(y^T-\beta^TX^T)(y-X\beta)\\ =(y^Ty-y^TX\beta-\beta^TX^Ty+\beta^TX^TX\beta)$

由于 $y^TX\beta、\beta^TX^Ty$ 为常数，所以是相等的。接下来，对目标函数求偏导。

求偏导。要求目标函数的极值，一般需要对目标函数求导数，再令倒数为0，进而根据等式求得导函数中的参数值。

$\frac{\partial J(\beta)}{\partial \beta}=(0-X^Ty-X^Ty+2X^TX\beta)=0$

第四步：计算偏回归系数的值

$X^TX\beta=X^Ty\\ \beta=(X^{T}X)^{-1}X^{T}y$

从统计学角度解释多元线性回归模型中的系数，以及哑变量。

1.3 回归模型的假设检验

模型的显著性检验是指构成因变量的线性组合是否有效，即整个模型中是否至少存在一个自变量能够真正影响到因变量的波动。该检验是用来衡量模型的整体效应。回归系数的显著性检验是为了说明单个自变量在模型中是否有效，即自变量对因变量是否具有重要意义。这种检验是出于对单个变量的肯定与否。

1.3.1 模型的显著性检验——F检验

检验主要步骤如下：

提出问题的原假设和备择假设。
在原假设的条件下，构造统计量F。
根据样本信息，计算统计量的值。
对比统计量的值和理论F分布的值，如果计算的统计量的值超过理论值，则拒绝原假设。否则需接受原假设。

（1）提出假设
$H_0:\beta_0=\beta_2=...=\beta_p=0\\ H_1:系数\beta_0,\beta_1,...,\beta_p不全为0$
（2）构造统计量
$\sum(y-\widehat{y})^2=ESS\\ \sum(\widehat{y}-\overline{y})^2=RSS\\ \sum(y-\overline{y})^2=TSS$
$E S S$ 被称为误差平方和，衡量的是因变量的实际值与预测值之间的离差平方和，会随着模型的变化而变动； $R S S$ 为回归离差平方和，衡量的是因变量的预测值与实际值之间的离差平方和，同样会随着模型的变化而变动； $T S S$ 为总的离差平方和，衡量的是因变量与其均值的离差平方和，不会随着模型的变化而变动，是一个固定值。它们三个的关系如下： $E S S + R S S = T S S$ （可以推导出来），而 $T S S$ 是一个固定不变的值，所以 $E S S$ 和 $R S S$ 是负向关系，若想ESS达到最小（前面说到的误差平方和最小理论），那么RSS就要达到最大，进而 $R S S / E S S$ 也会达到最大。

根据上次的逻辑，可以构造F统计量，该统计量可以表示成回归离差平方和与误差平方和的公式：
$F=\frac{RSS/p}{ESS/(n-p-1)}=F(p,n-p-1)$
（3）计算统计量

（4）对比结果下结论

当计算出来的F值大于理论F分布的值，就认为多元回归模型是显著的，也就是回归模型的偏回归系数不全为0。

1.3.2 回归系数的显著性检验——t检验

模型通过了限制性检验，只能说明关于因变量的线性组合是合理的，但不能说明每个自变量对因变量都具有显著意义，所以还需要对模型的回归系数做显著性检验。关于系数的显著性检验，需要使用t检验法，构造t统计量。

（1）提出假设
$H_0:\beta_j=0,j=1,2,...,p\\ H_1:\beta_j\not=0$

t检验的出发点就是验证每个自变量是否能够成为影响因变量的重要因素，它的原假设是认为该变量不是因变量的影响因素；备择假设则相反。

（2）构造统计量
$t=\frac{\widehat{\beta_j}-\beta_j}{se(\beta_j)}~t(n-p-1)$
其中， $\widehat{\beta_j}$ 为线性回归模型的第 $j$ 个系数估计值； $\beta_j$ 为原假设中的假定值，即0； $se(\widehat{\beta_j})$ 为回归系数 $\widehat{\beta_j}$ 的标准误差，计算公式如下：
$se(\widehat{\beta_j})=\sqrt{c_{jj}\frac{\sum{\epsilon_i^2}}{n-p-1}}$
其中， $\sum{\epsilon_i^2}$ 为误差平方和， $c_{jj}$ 为矩阵 $X^TX)^{-1}$ 主对角线上第 $j$ 个元素。

（3）计算统计量

（4）对比结果下结论

根据t统计量对应的概率值p，判断模型系数的显著性。若p小于0.05，表示拒绝原假设，即该变量是影响因变量的重要因素。

1.4 回归模型的诊断

当回归模型构建好后，并不意味着建模过程的结果，还需要进一步对模型进行诊断，目的是使诊断后的模型更加健壮。只有模型满足一些假设前提，才能说明所得模型是合理的，假设如下：

误差项 $\epsilon$ 服从正态分布
无多重共线性
线性相关性
误差项 $\epsilon$ 的独立性
方差齐性

除了以上五点外，线性回归模型对异常值是非常敏感的，即模型的构造过程非常容易受到异常值的影响，所以诊断过程中还需要对原始数据的观测进行异常点识别和处理。

1.4.1 正态检验

虽然模型的前提假设是对残差项要求服从正态分布，但实质是要求因变量服从正态分布。对于多元线性模型 $y=X\beta+\epsilon$ 来说，等式右边的自变量属于已知变量，等式左边的因变量属于未知变量（需要通过构造模型来预测的）。因此，要求误差项服务正态分布，就是要求因变量服从正态分布。

正态性检验通常用两类方法，一种是定性的图形法，比如直方图、PP图或QQ图，另一种就是定量的参数法，比如Shapiro检验和K-S检验。

1.图形法

直方图：在直方图中画出核密度曲线和正态密度曲线，如果两个曲线的趋势比较吻合，直观上可以认为该因变量服从正态分布。
PP图与QQ图：PP图的思想是对比正态分布的累计概率值和实际分布的累计概率值，而QQ图则对比正态分布的分位数和实际分布的分位数。判断变量是否近似服从正态分布的标准是：如果散点都比较均匀的落下直线周围，就说明变量近似服从正态分布，否则就认为数据不服从正态分布。

2.参数法

Shapiro检验与K-S检验：这两种方法都属于非参数方法，它们的原假设被设定为变量服从正态分布，二者的最大区别是适用的数据量不同，若数据量低于5000，则使用Shapiro检验方法，则否就使用K-S检验方法。检验结果的查看，若p值小于置信水平0.05，则拒绝原假设，说明变量不服从正态分布；若p值大于置信水平0.05，则说明不能拒绝原假设，变量服从正态分布。

如果因变量的检验结果不满足正态分布时，需要对因变量做数学转换，常用的方法有 $log(y)、\sqrt{y}、\frac{1}{\sqrt{y}}、\frac{1}{y}、y^2、\frac{1}{y^2}$

1.4.2 多重共线性检验

多重共线性是指模型中的自变量之间存在较高的线性相关关系，它的存在会给模型带来严重的后果，例如由最小二乘法得到的偏回归系数无效、增大偏回归系数的方差、模型缺乏稳定性等。关于多重共线性的检验可用方差膨胀因子VIF来鉴，如果VIF大于10，则说明变量间存在多重线共线；如果VIF大于100，则说明变量间存在严重的多重共线性。

方差膨胀因子VIF的计算步骤如下：

构造每一个自变量与其余自变量的线性回归模型，例如，数据集中含有p个自变量，则第一个自变量与其余自变量的线性组合可用表示为：

$x_1=c_0+\alpha_2x_2+...+\alpha_px_p+\epsilon$

根据上面构建的线性回归模型得到相应的判决系数 $R^2$ ，进而计算每一个自变量的方差膨胀因子VIF：

$VIF=\frac{1}{1-R^2}$

如果发现变量之间存在多重共线性，可用考虑删除变量或者重新选择模型，如岭回归模型或LASSO模型。

1.4.3 线性相关性检验

线性相关性检验，是确保用于建模的自变量和因变量之间存在线性关系，检验的方法有 $P e a r s o n$ 相关系数和可视化方法。

Pearson相关系数，计算方式如下：

$\rho_{x,y}=\frac{COV(x,y)}{\sqrt{D(x)}\sqrt{D(y)}}$

其中， $C O V (x, y)$ 为自变量 $x$ 与因变量 $y$ 之间的协方差， $\sqrt{D(x)}、\sqrt{D(y)}$ 分别是自变量 $x$ 和因变量 $y$ 的方差。

表1 线性相关的程度说明

范围	程度
$	\rho
$0.5<	\rho
$0.3<	\rho
$	\rho

可视化，利用seabron.pairplot画图查看相关性。

1.4.4 异常值检验

由于多元线性回归容易受极端值的影响，故需要利用统计方法对观测样本进行异常点检测。如果在建模过程中发现异常数据，需要对数据集进行整改，比如删除异常值或衍生出是否为异常值的哑变量。线性回归模型常用的异常点检测方法有帽子矩阵、DFFITS准则、学生化残差或Cook距离。

帽子矩阵
DFFITS准则
Cook距离

对于异常值的处理方法主要有两种，如果异常样本的比例不高（ $\leq5\%$ ），可用考虑将异常点删除；如果异常样本的比例较高，直接删除可能会丢失一些重要信息，所以需要衍生哑变量，即对于异常点，设置哑变量的值为1，否则为0

1.4.5 独立性检验

残差的独立性检验实质上也是对因变量 $y$ 的独立性检验，因为线性回归模型的等式作用只有 $y$ 和残差 $\epsilon$ 属于随机变量，再加上正态分布，就构成了线性模型的残差性独立同分布于正态分布的假设。残差项的独立性检验通常使用Durbin-Watson统计量来测试，如果 $D W$ 值再2左右，表明残差项之间是不相关的；如果和2相差较大，则说明不满足残差的独立性假设。

1.4.6 方差齐性检验

方差齐性是要求模型残差项的方差不随自变量的变动而呈现某种趋势，否则，残差的趋势就可以被自变量刻画。如果残差项不满足方差齐性（即方差为一个常数），就会导致偏回归系数不具备有效性，设置导致模型的预测也不准确。所以，建模后需要验证残差项是否满足方差齐性。常用的检验方法有两种，一是图形法（散点图），二是统计检验法（BP检验）

如果模型不满足齐性的话，可用考虑两种方法来解决，一类是模型变换法，另一类的“加权最小二乘法”。对于模型变换法来说，抓哟考虑残差和自变量之间的关系，如果残差和某个自变量成正比，则需要将模型的两边同时除以 $\sqrt{x}$ ；如果残差和某个自变量 $x$ 的平方成正比，则需要在模型的两边同时除以 $x$ 。对于加权最小二乘法而言，关键是如何确定权重，一般有如下三种：

残差绝对值的倒数作为权重。
残差平方的倒数作为权重。
用残差的平方对数于自变量 $x$ 重新拟合建模，并将得到的拟合值取指数，用指数的倒数作为权重。

总结：使用线性回归模型的前提，因变量为数值型变量，且服从正态分布，自变量间不存在多重共线性、自变量和因变量间存在线性关系、数据集中不存在异常点、残差满足独立性和方差齐性。

2 岭回归和LASSO回归模型

根据前面的线性回归模型的参数估计公式 $\beta=(X^TX)^{-1}X^Ty$ ，可得出求出 $\beta$ 的前提是 $X^TX$ 可逆，但在实际中可能会出现自变量个数多于样本量或自变量间存在严重多重共线性的情况，此时无法使用前面的公式计算出回归系数的估计值 $\beta$ 。为解决这类问题，引入另外两种回归模型岭回归模型和LASSO模型。

2.1 岭回归模型

当自变量的个数多于样本量的矩阵以及自变量间存在严重多重共线性的矩阵，它们计算出的行列式都等于0或者近似为0，类似这样的矩阵都会到线性回归模型的系数无解或者解是无意义的（因为 $X^TX$ 的行列式近似为0，其逆矩阵将偏于无限大，从而使得回归系数也被放大）。针对这个问题的解决，1970年Heer提出了岭回归模型，在线性回归模型的目标函数上添加一个 $l 2$ 正则项，进而使得模型的回归系数有解。

2.1.1 参数求解

岭回归模型通过在线性回归模型的目标函数上添加 $l 2$ 正则项（也称为惩罚项）来解决线性回归模型参数求解的问题，因此岭回归模型的目标函数可用表示成：
$J(\beta)=\sum(y-X\beta)^2+\lambda||\beta||_2^2=\sum(y-X\beta)^2+\sum\lambda\beta^2$
其中， $\lambda$ 为非负数，当 $\lambda$ =0时，该目标函数就退化为线性回归模型的目标函数；当 $\lambda$ 趋向于正无穷时， $\lambda\beta^2$ 也会趋向于正无穷，为了使目标函数 $J(\beta)$ 达到最小，只能通过缩小回归系数使 $\beta$ 趋向于0； $||\beta||_2^2$ 表示回归系数 $\beta$ 的平方和。

为求解目标函数 $J(\beta)$ 的最小值，需要对其求导，并令导函数为0，最终得到回归系数 $\beta$ 的计算公式：
$\beta=(X^TX+\lambda I)^{-1}X^Ty$
上面的公式中还包含未知的 $\lambda$ 值，但从目标函数 $J(\beta)$ 来看， $\lambda$ 是 $l_2$ 正则项的系数，用来平衡模型的方差和偏差(二者的关系如下图所示)。

从预测效果来看，随着模型复杂度的提升，在训练集上的效果会越来越好，也就是预测误差越来越低，但是模型运用到测试集的话，预测误差就会先降低再上升，上升的时候就说明模型出现了过拟合；从模型方差来看，模型方差会随着复杂度的提升而提升。一般我们希望平衡方差和偏差来选择一个比较理想的模型，对于岭回归来说，随着 $\lambda$ 的增大，模型方差会减小（因为 $(x^Tx+\lambda I)$ 的行列式会随着 $\lambda$ 的增大而增大，使得矩阵的逆会逐渐减小，进而岭回归的回归系数会被压缩而变小）而偏差会增大。

2.1.2 系数求解的几何意义

根据凸优化的相关知识，可用将岭回归的目标函数 $J(\beta)$ 最小化问题等价于以下问题：
$argmin{\sum(y-X\beta)^2}\\ s.t. \sum\beta^2<=t$
其中，t为常数，可以将上式理解为：在确保残差平方和最小的情况下，限定所有回归系数的平方和不超过常数t。

虽然岭回归模型可用解决线性回归模型中 $X^TX$ 不可逆的问题，但付出的代价是“压缩”回归系数，从而使得模型更加稳定和可靠。由于惩罚项 $\sum\lambda\beta^2$ 是关于回归系数 $\beta$ 的二次函数，所以求目标函数的极小值时，对其求偏导总会保留自变量本身。所以抛物面和圆面的交点很难发生在坐标轴上，也就是某个变量的回归系数为0，所以岭回归模型并不能从真正意义上实现变量的选择。（一般不能用岭回归进行特征选择，它只会把某些特征的系数逼近与0，但不能为0。）

2.2 LASSO模型

前面介绍了岭回归模型可以解决线性模型中矩阵 $X^TX$ 不可逆的问题，方法是在目标函数中添加 $l_2$ 正则的惩罚项，最终使得模型偏回归系数的缩减，但不管怎么缩减都会保持建模使用的全部变量，无法降低模型的复杂度，为了克服这一缺点，1996年Robert Tibshirani首次提出了LASSO模型。

于岭回归模型相似，LASSO回归模型同样属于缩减性估计，而且在回归系数的缩减过程中，可以将一些不重要的回归系数直接缩减为0，来达到变量筛选的功能。之所以LASSO可以达到筛选变量的功能，是因为原本在岭回归模型中的惩罚项由平方和改为了绝对值。

2.2.1 参数求解

对比于岭回归模型的目标函数，LASSO模型的目标函数如下：
$J(\beta)=\sum(y-X\beta)^2+\lambda||\beta||_1=\sum(y-X\beta)^2+\sum\lambda|\beta|$
其中 $\lambda||\beta||_1$ 是LASSO目标函数的惩罚项， $\lambda$ 是惩罚系数，和岭回归的惩罚系数一样需要迭代估计出一个最佳值， $||\beta||_1$ 是回归系数的 $l_1$ 正则，表示所有回归系数的绝对值的和。

在求解参数时由于目标函数的惩罚项是关于回归系数 $\beta$ 的绝对值之和，因此惩罚项在零点处是不可导的，因此应用在岭回归上的最小二乘法以及梯度下降法、牛顿法、拟牛顿法都无法计算出LASSO回归的拟合系数。为了计算出LASSO模型的回归系数，引入坐标轴下降法：它和梯度下降法类似，都属于迭代算法，所不同的是坐标轴下降法是沿着坐标轴维度下降，而梯度下降法是沿着梯度的负方向下降。坐标轴下降法的数据精髓是：对于p维（即p个特征）参数的可微凸函数 $J(\beta)$ 而言，如果存在一点 $\hat\beta$ ，使得目标函数 $J(\beta)$ 在每个坐标轴上均达到最小值，则 $\widehat{J(\beta)}$ 就是 $\hat\beta$ 上的全局最小值。以多元线性回归模型为例，求解目标函数 $\sum(y-X\beta)^2$ 的最小值，其实是对整个 $\beta$ 做一次性偏导。对于坐标轴下降法，则是对目标函数中的某个 $\beta_j$ 求偏导，即控制其他 $p - 1 个$ 参数不变的情况下，沿着一个轴的方向求导，依次类推，再对剩下的 $p - 1$ 个参数求偏导。最终，每个分量下的导函数维0，得到使目标函数达到全局最小的 $\hat\beta$ 。因此，LASSO回归模型的目标函数可写成以下形式:
$J(\beta)=\sum_{i=1}^n(y_i-\beta_jx_{ij})^2-\lambda\sum_{i-1}^n|\beta_j|=ESS(\beta)-\lambda l_1(\beta)$
其中， $ESS(\beta)$ 代表误差平方和， $\lambda l_1(\beta)$ 代表惩罚项。由于ESS是可微凸函数，因此可以对该函数中的每个 $\beta_j$ 求偏导，而惩罚项是不可导函数，不能直接使用梯度方法而是使用次梯度方法（理解为分段求导），将 $ESS(\beta)$ 和 $\lambda l_1(\beta)$ 的分量导函数相结合，并令导函数为0，可得到LASSO模型的回归系数，计算公式如下。可以看出LASSO回归系数也是依赖于 $\lambda$ 值得选取。
$\hat\beta_j = \left\{ \begin{aligned} (m_j-\frac{\lambda}{2})/n_j,当m_j>\frac{\lambda}{2} \\ 0 ,当m_j\in[-\frac{\lambda}{2},\frac{\lambda}{2}]\\ (m_j+\frac{\lambda}{2})/n_j,当m_j<\frac{\lambda}{2} \end{aligned} \right.$
其中， $m_j=\sum_{i=1}^nh_j(x_i)(y_i-\sum_{k\not=j}\beta_kh_k(x_i))$ ， $n_j=\sum_{i=1}^nh_j(x_i)^2$ 。

2.2.2 系数求解的几何意义

根据凸优化原理，将LASSO模型目标函数 $J(\beta)$ 的最小化问题等价转换为下方的式子：
$\left\{ \begin{aligned} argmin{\sum(y-X\beta)^2}\\ s.t.\sum|\beta|\leq t \end{aligned} \right.$
其中，t为常数，可以将上面的公式理解为：在残差平方和最小的情况下，限定所有回归系数的绝对值之和不超过常数t。

$l_1$ 正则项的方框点相比于 $l 2$ 正则项的圆面更容易和抛物面相交，起到变量筛选的作用。因此，LASSO回归不仅可以实现变量系数的缩减（可以理解为数值变小），而且还可以完成变量的筛选，过滤到无法影响因变量的自变量。

3 回归模型的评价指标

3.1 R^2

R Squared是度量模型拟合优度的一个统计量，公式如下：
$R^2 = 1-\frac{SS_{residual}}{SS_{total}}=1-\frac{\sum_i{(\hat{y}_i - y_i)^2}}{\sum_i{(y_i - \overline{y})^2}}$

3.2 MSE

均方误差（Mean Squared Error，简称MSE），公式如下：
$MSE=\frac{1}{m}\sum_{i=1}^m(y_i-\hat{y}_i)^2$

3.3 MAE

绝对误差的平均值，可以更好地反映预测值误差的实际情况，计算公式如下：

$\frac1m \sum_{i=1}^m|\hat{y}_i-y_i|$

4 Logistic分类模型

4.1 Logistic模型的构建

logistic模型相比于其他分类算法(SVM、神经网络、随机森林等)具有很强的解释性。logistic回归是一种非线性回归模型，但它又和线性回归模型相关，因此它属于广义的线性回归分析模型。它其实是在线性回归模型的基础上，做了sigmoid转换（logit变换,sigmoid和logit的关系），该函数的表达式如下：
$sigmoid(z)=\frac{1}{1+e^{-z}}=g(z)$
将sigmoid函数中的z参数转换成多元线性回归模型的形式，则关于线性回归的sogmiod函数库表达为：
$z=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p\\ g(z)=\frac{1}{1-e^{-(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p)}}=h_\beta(X)$

上式中的 $h_\beta(X)$ 也被称为Logistic回归模型，他是将线性回归模型的预测值经过非线性的sigmoid函数转换带[0,1]之间的概率值。假定 $X$ 、 $\beta$ 一致的情况下，因变量取1和0的条件概率分别为 $h_\beta(X)$ 、 $1-h_\beta(X)$ ，则这个条件概率可以表示为：
$P(y=1|X;\beta)=h_\beta(X)=p\\ P(y=0|X;\beta)=1-h_\beta(X)=1-p$
可以利用这两个条件概率将Logistic回归模型还原成线性回归模型，具体如下：
$\frac{p}{1-p}=\frac{h_\beta(X)}{1-h_\beta(X)}\\ =\frac{\frac{1}{1+e^{-(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p)}}}{1-\frac{1}{1+e^{-(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p)}}}\\ =\frac{1}{e^{-(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p)}}\\ =e^{(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p)}$
公式中的 $p / (1 - p)$ 称为优势(odds)或发生比，代表了某个事件发生与不发生的概率比值，它的范围在负无穷和正无穷之间。如果对发生比 $p / (1 - p)$ 取对数，则上面的公式可以表示为:
$log(\frac{p}{1-p})=log(e^{(\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p)})\\ =\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p$
至此，Logistic模型就转换成了线性回归模型，但是因变量不再是实际的y值，而是与概率相关的对数值，所以无法使用线性回归的最小二乘法求解位置参数 $\beta$ ，而是采用极大似然估计法。

4.2 Logistic模型的参数求解

将上面事件发生概率和不发生概率的两个公式，转换成以下形式：
$P(y|X;\beta)=h_\beta(X)^y*(1-h_\beta(X))^{1-y}$
该式的概率值就是关于 $h_\beta(X)$ 的函数，即事件发生的概率函数。

1.极大似然估计

为了求解上式中的未知参数 $\beta$ ，就需要构建一个目标函数，它就是似然函数。似然函数的统计背景是，如果数据集中的每个样本都是互相独立的，则n个样本发生的联合概率就是各样本事件发生概率的乘积，故似然函数可以表示如下：
$L(\beta)=\prod_{i=1}^n{P(y^i|x^i;\beta)}\\ =\prod_{i=1}^n{h_\beta(x^i)^{y^i}}*(1-h_\beta(x^i))^{1-y^i}$

为了方便计算，这里对似然函数取对数，Logistic回归的对数似然函数为：
$l(\beta)=lnL(\beta)=\sum_{i=1}^my^ih_\beta(x^i)+\sum_{i=1}^m(1-y^i)ln(1-h_\beta(x^i))$
我们现在要求的是使得 $l(\beta)$ 最大的 $\beta$ ，因此在 $l(\beta)$ 前加个负号就变成了最小，就转成了以下形式：

$J(\beta)=-l(\beta)=-\sum_{i=1}^my^iln(h_\beta(x^i))-\sum_{i=1}^m(1-y^i)ln(1-h_\beta(x^i))$

2.梯度下降求解参数

对上面的 $J(\beta)$ 求导，可得：
$\frac{\partial J(\beta)}{\beta_j}=-\sum(y^i\frac{1}{h_\beta(x^i)}-(1-y^i)\frac{1}{1-h_\beta(x^i)})\frac{\partial h_\beta(x^i)}{\partial \beta_j}\\ =-\sum_{i=1}^m(y^i\frac{1}{h_\beta(x^i)}-(1-y^i)\frac{1}{1-h_\beta(x^i)}))h_\beta(x^i)(1-h_\beta(x^i)\frac{\partial \beta^T X}{\partial \beta_j}\\ =-\sum_{i=1}^m(y^i(1-h_\beta(x^i))-(1-y^i)h_\beta(x^i))x_j^i\\ =-\sum_{i=1}^m(y^i-h_\beta(x^i))x_j^i$
因此，在使用梯度下降法更新权重时，只要根据下式即可：

$\beta_j:=\beta_j+\eta\sum_{i=1}^m(y^i-h_\beta(x^i))x_j^i$

4.3 Logistic模型的参数解释

对于Logistic模型中 $\beta$ 参数的解释，不像线性回归模型中那么容易理解。前面提到的发生比的概念，即某事件发生的概率p与不发生的概率 $(1 - p)$ 之间的比值，它是一个以e为底的指数，并不能直接解释参数 $\beta$ 的含义。发生比的作用只能解释在同一组中事件发生与不发生的倍数。但是使用发生比率，就可以解释参数 $\beta$ 的含义了，即发生比之比。
$odds=\frac{p}{1-p}=e^{\beta_0+\beta_{1}gender+\beta_{2}Volum}\\ =e^{\beta_0}*e^{\beta_1gender}*e^{\beta_2Volum}$
以下分别以分类变量和连续变量为例进行解释：

分类变量：gender系数为 $\beta_1$ ，假设男性为1，女性为0，则

$\frac{odds_1}{odds_0}=e^{\beta_1}$

所以性别变量的发生比率为 $e^{\beta_1}$ ，表示男性某事件的发生比约为女性某事件的发生比的 $e^{\beta_1}$ 倍。

连续变量：Volum系数为 $\beta_2$ ，当volum变量增加1单位时，则

$\frac{odds_{volum_0 + 1}}{odds_{volumn_0}}=e^{\beta2}$

所以，在其他变量保持不变的情况下，volum没增加一单位，将会使某事件发生比变化 $e^{\beta_2}$ 倍。

5.分类模型的评估方法

5.1 混淆矩阵和评价指标

	实际值
预测值		正	负
	正	TP	FN
	负	FP	TN

准确率： $accuracy=\frac{TP+TN}{TP+FP+TN+FN}$ ，表示正确预测的正负样本占全部样本的比例。
精确率： $precision=\frac{TP}{TP+FP}$ ，表示正确预测的正样本占全部预测为正的样本的比例。又称查准率
召回率： $recall=\frac{TP}{TP+FN}$ ，表示正确预测为正的样本占全部正样本的比例。又称查全率

5.2 P-R图

P-R图直观的显示出学习器在样本总体上的查全率和查准率，在进行比较时，若一个学习器的P-R图被另一个学习器的曲线完全包住则后者的性能优于前者，就是上图中的A比C好。

如果发生交叉现象则可以用 $F_1$ 度量，P-R曲线比ROC曲线适合不平衡样本：
$F_1=\frac{2PR}{P+R}$
一般形式为：
$F_\beta=\frac{(1+\beta^2)PR}{(\beta^2P)+R}$
该式表达出对查准率/查全率的不同偏好。其中， $\beta$ 度量了查全率对查准率的重要程度， $\beta=1$ 退化为标准的 $F_1$ ， $\beta>1$ 时，查全率有更大的影响， $\beta<1$ 时，查准率有更大的影响。

5.3 ROC曲线和AUC

真正例率（纵坐标）：
$TPR=\frac{TP}{TP+FN}$
假正例率（横坐标）：
$FPR=\frac{FP}{FP+TN}$

参考资料

《从零开始学Python数据分析与挖掘》

你可能感兴趣的:(记录,回归,线性回归,机器学习)

自立自强的江铃集团新能源，用科技创新实力圈粉微视资讯汽车
汽车行业正在经历从价格竞争和配置堆砌，向技术回归的深刻转型。消费者对“冰箱、彩电、大沙发”式的噱头已经逐渐失去兴趣，取而代之的是对核心技术和安全性能的理性关注。在这样的背景下，江铃集团新能源凭借深厚的技术积累和创新能力迅速赢得市场认可。作为拥有56年造车经验的企业，江铃集团新能源在整车研发、智能制造、智能网联、三电技术和车身轻量化等领域全面突破，不仅成功定位于纯电市场，还通过前瞻性的创新战略实现了
论单调队列优化DP VU-zFaith870 c++动态规划推荐算法
前情提要，参考资料：单调队列优化DP（超详细！！！）-endl\n-博客园【动态规划】选择数字（单调队列优化dp）_哔哩哔哩_bilibili背景：最近作者快被DP逼疯了，写篇博客做记录。以下是对各DP的原理阐释：单调队列通过队列元素的吸入与弹出，形成单调性的结构，使算法能够进行线性处理，大大优化了时间复杂度。接下来讲解单调队列在区间DP、背包DP、树形DP还有数位DP中的应用：1.单调队列优化区
孪生网络模型，当训练集与测试集共用一个数据集时，训练准确率为100%，而测试准确率仍在50%左右浮动 bug菌¹ 全栈Bug调优(实战版)pytorch 机器学习
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述【问题】孪生网络模型，测试效果异常：当训练集与测试集共用一个数据集（样本、标签完全相同）时，训练准确率为100%，而测试准确率仍在50%左右浮动（正常来说测试的都
ThreeJs中使用lil-gui无法改变其所属父元素一只程序熊前端 3d
项目场景：之前一直在研究Threejs，遇到一个很头疼的问题！就是我自己使用了Vite+V3创建了一个项目框架，用来记录自己学习Three的一个过程，但是里面就存在了一个问题，我们在newGUI()后不能改变其父级元素，就像默认父级元素在body上一样问题描述GUI父级元素无法被改变letgui=newGUI()原因分析：正好这段时间有空，本主就疯狂去找了lil-gui的官方文档，还好作者是个好人
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
007Java集合011遍历集合元素并修改执笔未来 Java学习笔记 java
注意：本文基于JDK1.8进行记录。1遍历Collection对List和Set的遍历，有四种方式，下面以ArrayList为例进行说明。1.1普通for循环使用普通for循环的遍历方式效率最高，尽量将循环无关的代码放置在集合外执行。代码如下：for(inti=0;ilist=newArrayList(); list.add(1); list.add(2); list.add(2); li
记录一次通过MQTT协议进行数据采集的线上事故:EOFException _半夏曲 java 网络开发语言物联网
记录一次通过MQTT协议进行数据采集的线上事故首先查看项目报错日志：2023-04-1911:25:50-MQTT服務器連接丟失：org.eclipse.paho.client.mqttv3.MqttException:連線遺失atorg.eclipse.paho.client.mqttv3.internal.CommsReceiver.run(CommsReceiver.java:197)atj
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
数组作为HashMap的键南京鼎山电子设备维修张师傅学习Java的一些记录 java 算法开发语言
1、数组的hashcode是根据地址引用计算的。2、Arrays.hashcode静态方法能够根据数组的内容创建相应的hashcode。3、hashmap用数组做key时用的是地址引用计算的的hashcode，所以应避免使用数组为键。如果一定要用数组来作为map的key值的话，有两种方法：1，将数组转化为string2，用list代替记录自：力扣-剑指OfferII033.变位词组，链接力扣。
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
Transformer架构在生成式AI中的应用解析二进制独立开发非纯粹GenAI 人工智能 transformer 架构深度学习机器学习 tensorflow 迁移学习
文章目录1.Transformer架构概述1.1Transformer的核心思想1.2Transformer架构的优势2.Transformer在文本生成中的应用2.1GPT系列：基于Transformer的自回归文本生成2.2BERT系列：基于Transformer的双向编码器3.Transformer在图像生成中的应用3.1VisionTransformer（ViT）3.2DALL·E：基于T
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
PHP 日志系统的最佳搭档：一个 Go 写的远程日志收集服务 phpgo日志分析
之前折腾了一个PHP日志系统，终于能让项目的错误信息乖乖地记录到日志里了。但问题又来了：日志是存了，可我怎么知道它什么时候爆炸了？有些错误轻微到无关紧要，有些错误严重到能把整个系统送走，但如果我要知道这些错误，我得SSH进服务器，然后手动去翻日志，效率低得要死。而且，多个服务器运行着同样的代码，有的报错，有的没事，我根本不知道到底哪里出了问题。于是，为了在bug出现的时候第一时间收到消息，而不是等
flutter 跑马灯+渐变透明度背景烟花下的孤独 flutter dart flutter
之前也是记录了很多小组件的实现，这次把所有代码都给放到这里吧这是效果：数据（后台数据，不过我这是没的，不要在意这些小细节，忽略吧）Http().post(url,pathParams:params,data:params,success:(json){studyModel=FindStudyModel.fromJson(json);},errorCallback:(error){print('er
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
模型的秘密武器：利用注意力改善长上下文推理能力步子哥人工智能自然语言处理深度学习语言模型
【导语】在大语言模型（LLM）不断刷新各项任务记录的今天，很多模型宣称能处理超长上下文内容，但在实际推理过程中，复杂问题往往因隐性事实的遗漏而败下阵来。今天，我们就以《AttentionRevealsMoreThanTokens:Training-FreeLong-ContextReasoningwithAttention-guidedRetrieval》为蓝本，带大家通俗解读如何利用Transf
机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
llamaindex实现企业级RAG应用（一）弈秋001 transformer 自然语言处理深度学习人工智能
在上一篇文章中使用Qwen2进行RAG代码实践，手动实现了一版简易的RAG应用，在实际工作中通常都用会使用langchain或llamaindex架构来搭建rag应用，并且会非常复杂。RAG是个很神奇的应用，可以很简单，也可以很复杂。在llamaindex官网给的案例，5行代码就可以构建RAG应用，但要真正实现企业级RAG应用，则需要花费大量时间去调优。本文通过一个复杂的项目案例，记录下工作中常用
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
算法在各领域的广泛应用：100 个实例全解析软件职业规划 AI&模型算法
一、互联网与信息技术领域搜索引擎算法：如谷歌的PageRank算法，用于根据网页的重要性和相关性对搜索结果进行排序，帮助用户快速找到所需信息。推荐系统算法：例如亚马逊和Netflix使用的协同过滤算法。根据用户的历史行为（购买、观看记录等）和其他相似用户的偏好，为用户推荐可能感兴趣的产品或内容。社交网络分析算法：用于分析社交网络中的用户关系，如Facebook通过算法发现用户的好友推荐、社区划分等
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
匿名内部类 qq_52983535 JAVA java 开发语言
匿名内部类接口的匿名内部类继承的匿名内部类匿名内部类在日常编写代码的过程中，总是会遇到匿名内部类的使用，但是对这一块一直不是很熟，所以这里总结记录一下。只讲实用。接口的匿名内部类正常如果要使用一个接口，如下代码：publicinterfaceKp{publicabstractvoidshow();}publicclassKpImplimplementsKp{@Overridepublicvoids
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
JVM汇总篇 xk_一步一步来 JVM JVM汇总篇
转自：https://blog.csdn.net/wolf_love666/article/details/85712922书中内容来自于深入理解java虚拟机，作者周志明。会融合自己的知识和理解来记录下来，为了赚钱而奋斗！DayDayUp!!!前期准备：准备篇（一）内存管理内存如何划分、内存溢出的原因----点击这里内存分配和垃圾回收-----点击这里（二）虚拟机如何执行数据存储和访问（类文件结
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include