AmosTian

【AI】机器学习——线性模型（线性回归）

线性模型既能体现出重要的基本思想，又能构造出功能更加强大的非线性模型

文章目录

- 3.1 线性模型
- - 3.1.1 数据
  - 3.1.2 目标/应用
- 3.2 线性回归
- - 3.2.1 回归模型历史
  - 3.2.2 回归分析研究内容
  - - 回归分析步骤
  - 3.2.3 回归分析分类
  - 3.2.4 回归模型
  - 3.2.5 损失函数
  - - 梯度下降法
    - - 一元回归模型的梯度下降
      - 多元回归模型梯度下降
      - 不同特征尺度不同，需归一化
      - 牛顿法求方程的解
      - 局限性
    - 最小二乘法
    - - 直线距离与垂直距离关系
      - 一元回归模型LMS
      - 多元回归模型LMS
    - GD与LMS对比
    - 多角度理解LMS
    - - 几何角度
      - 线性组合
      - 矩阵角度
      - 概率角度
  - 3.2.6 回归方程衡量标准
  - - 回归方程的拟合优度
    - 判定系数
  - 3.2.7 显著性检验
  - - 线性关系检验
    - 回归系数检验
    - 线性关系检验与回归系数检验区别：
  - 3.2.8 利用回归直线进行估计和预测
  - - 预测结果的置信度
    - - 标准差
    - 置信区间估计
    - - 置信区间宽度影响因素
  - 3.2.9 多元线性回归问题
  - - 曲线回归分析过程
    - 多重共线性
    - 过拟合问题
    - - 岭回归
      - LASSO回归
      - 岭回归与LASSO回归概率角度

线性模型假设输出变量是若干输入变量的线性组合，并根据这一关系求解线性组合的最优系数

最小二乘法可用于解决单变量线性回归问题，当误差函数服从正态分布时，与最大似然估计等价

多元回归问题也可以用最小二乘法求解，但极易出现过拟合线性

岭回归，引入二范数惩罚项
LASSO回归，引入一范数项

3.1 线性模型

3.1.1 数据

$D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\}\\ 其中，x_i\in R^n,y_i\in R，即训练数据集D中有n个数据，一个数据有n个特征$

3.1.2 目标/应用

线性回归——线性拟合
线性分类

3.2 线性回归

线性回归假设输出变量是若干输入变量的线性组合，并根据这一关系求解线性组合中的最优系数

线性回归模型最易于拟合，其估计结果的统计特性也更容易确定
在机器学习中，回归问题隐含了输入变量与输出变量均可连续取指的前提，因而利用线性回归模型可以对任意输入给出输出的估计

3.2.1 回归模型历史

1875年，从事遗传问题研究的英国统计学家弗朗西斯·高尔顿正在寻找子代与父代身高之间的关系。

他发现数据散点图大致呈直线状态（父代身高与子代身高呈正相关关系）

高尔顿将这种现象称为 回归效应 ，即大自然将人类身高的分布约束在相对稳定并不产生两极分化的整体水平，并给出了历史上第一个线性回归的表达式： $y = 0.516 x + 33.73$

3.2.2 回归分析研究内容

相关性分析：分析变量之间是否具有相关性

回归分析：寻找存在相关关系的变量间的数学表达式

回归分析步骤

确定回归方程中的自变量和因变量
确定回归模型（建立方程）
对回归方程进行检验
利用回归方程进行预测

3.2.3 回归分析分类

根据自变量数目，可以分类一元回归(一个特征决定结果)，多元回归（多个特征决定结果）
根据自变量与因变量之间的表现形式，分为线性与非线性

具体分为四个方向：一元线性回归 、多元线性回归 、一元非线性回归 、多元线性回归

3.2.4 回归模型

训练数据集：

$D=\{(x_1,y_1),\cdots,(x_i,y_i),\cdots,(x_n,y_n)\},i=1,2,\cdots,n$

假设有线性函数 $y_{\omega}(x)=\omega^Tx\rightarrow y$
$y_{\omega}(x_i)=\omega^T x_i\quad ,i=1,2,\cdots,n\\ \omega=\left(\begin{aligned}b\\\omega_1\\\vdots\\\omega_j\\\vdots\\\omega_m\end{aligned}\right)\in R^m,x_i= \left(\begin{aligned}1\\x_i^{(1)}\\\vdots\\x_i^{(j)}\\ \vdots\\x_i^{(m)}\end{aligned}\right)\in \mathcal{X}\in R^m\quad ,j=1,2,\cdots,m$
$x_i$ 表示第 $i$ 个样本， $x_i^{(j)}$ 表示第 $i$ 个样本的第 $j$ 个特征值， $\omega_j$ 理解为每个特征的相对权重

线性回归的作用就是习得一组参数 $w_i,i=0,1,\cdots,n$ ，使预测输出可以表示为以这组参数为权重的实例属性的线性组合

模型

当实例只有一个属性时，输入和输出之间的关系就是二维平面上的一条直线
当实例有 $n$ 个属性时，输入和输出之间的关系就是 $n + 1$ 维空间上的一个超平面，对应一个维度为 $n$ 的线性子空间

3.2.5 损失函数

$J(\omega)$ 为线性模型的损失函数，通过调整参数 $\omega$ ，使得 $J(\omega)$ 最小

$y_{\omega}(x_i)$ 与 $y_i$ 之间有差异，用 $y_{\omega}(x_i)-y_i$ 表示这种差异。模型在训练数据集上的整体误差为 $\sum\limits_{i=1}^n[y_{\omega}(x_i)-y_i]=\sum\limits_{i=1}^n[\hat{y}_i-y_i]=\hat{Y}-Y$

一般用最小二乘法优化损失，便于计算，即
$J(\omega)=\frac{1}{2n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)^2$
对于参数 $\omega$ 的不同取值，损失函数有大有小。可通过对损失函数 $J(\omega)$ 最优化，找到损失函数最小的参数值 $\omega$

梯度下降法

最优化问题为 $\min\limits_{\omega}J(\omega)=\frac{1}{2n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)^2$

梯度控制方向

方向对于梯度下降问题影响较大，步长只决定在梯度方向上移动的距离

步长大，出现振荡

步长小，收敛慢

一元回归模型的梯度下降

$y_{\omega}=\omega_1x+\omega_0$

$\begin{cases} \omega_0^{[t]}\leftarrow \omega_0^{[t-1]}-\alpha\frac{\partial J(\omega)}{\partial \omega_0}\\ \omega_1^{[t]}\leftarrow \omega_1^{[t-1]}-\alpha\frac{\partial J(\omega)}{\partial \omega_1}\\ \end{cases}$
代入线性回归模型损失函数
$\begin{aligned} \frac{\partial J(\omega_1,\omega_0)}{\partial \omega_0}&=\frac{\partial{}}{\partial{\omega_0}}\left[\frac{1}{2n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)^2\right]\\ &=\frac{1}{n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)\\ \frac{\partial J(\omega_1,\omega_0)}{\partial \omega_1}&=\frac{\partial{}}{\partial{\omega_1}}\left[\frac{1}{2n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)^2\right]\\ &=\frac{1}{n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)x^{(1)}\\ \end{aligned}$

多元回归模型梯度下降

一般化梯度下降算法
$y_{\omega}(x)=\omega^T x=\sum\limits_{j=1}^m\omega_j x^{(j)}$
最优化损失函数有
$\omega_0^{[t]}\leftarrow \omega_0^{[t-1]}-\alpha \frac{\partial J(\omega)}{\partial\omega_0}=\omega_0^{[t-1]}-\alpha \frac{1}{n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)\\ \omega_j^{[t]}\leftarrow\omega_j^{[t-1]}-\alpha \frac{\partial J(\omega)}{\partial\omega_j}=\omega_j^{[t-1]}-\alpha\frac{1}{n}\sum\limits_{i=1}^n \left(y_{\omega}(x_i)-y_i\right)x^{(j)}$

不同特征尺度不同，需归一化

通过归一化，使各特征维度均匀
$x^{(j)}\leftarrow \frac{x^{(j)}}{max(x^{(j)})-min(x^{(j)})}$

$x^{(j)}\leftarrow \frac{x^{(j)}-\overline{x}}{max(x^{(j)})-min(x^{(j)})}$

牛顿法求方程的解

$f'(x_0)=\frac{f(x_0)}{\Delta x}=\frac{f(x_0)}{x_0-x_1}\\ x_0-x_1=\frac{f(x_0)}{f'(x_0)}\\ x_1=x_0-\frac{f(x_0)}{f'(x_0)}\\ x_2=x_1-\frac{f(x_1)}{f'(x_1)}\\ \vdots\\ x_t=x_{t-1}-\frac{f(x_{t-1})}{f'(x_{t-1})}$

局限性

适用于严格凸函数

可能存在局部最优情况

尽量不构造有局部最优的损失函数
多采样，给定不同随机值，找到最好的最优点
自适应调整步长，跳出局部最优

最小二乘法

直线距离与垂直距离关系

垂直距离 $p$ 与竖直距离 $v$ ，在斜率为 $tan\alpha=k$ 前提下， $p=vcos\alpha$

即最小二乘法精确的垂直距离可以用竖直距离代替，即函数值相减

一元回归模型LMS

对于一元回归模型 $y_{\omega}(x)=\omega_1x_1+\omega_0$

最小二乘法损失函数 $L(\omega_1,\omega_0)=\frac{1}{2n}\sum\limits_{i=1}^n\Vert \omega_1x_i^{(1)}+\omega_0-y_i\Vert^2_2$

由最优化理论，令 $\frac{\partial L}{\partial \omega_0}=0,\frac{\partial L}{\partial \omega_1}=0$
$\begin{aligned} \frac{\partial L}{\partial \omega_0}&=\frac{1}{n}\sum\limits_{i=1}^n(\omega_1x_i^{(1)}+\omega_0-y_i)=0\\ &\Rightarrow \sum\limits_{i=1}^n\omega_0=\sum\limits_{i=1}^n(y_i-\omega_1x_i^{(1)})\\ &\Rightarrow \omega_0=\frac{1}{n}\sum\limits_{i=1}^{n}(y_i-\omega_1x_i^{(1)}) \end{aligned}$

$\begin{aligned} \frac{\partial L}{\partial \omega_1}&=\frac{1}{n}\sum\limits_{i=1}^n(\omega_1x_i^{(1)}+\omega_0-y_i)x_i^{(1)}=0\\ &\Rightarrow\omega_1\sum\limits_{i=1}^n[x_i^{(1)}]^2+\omega_0\sum\limits_{i=1}^nx_i^{(1)}-\sum\limits_{i=1}^ny_ix_i^{(1)}=0\\ &\Rightarrow \omega_1\sum\limits_{i=1}^n[x_i^{(1)}]^2+\frac{1}{n}\sum\limits_{i=1}^{n}(y_i-\omega_1x_i^{(1)})\sum\limits_{i=1}^nx_i^{(1)}-\sum\limits_{i=1}^ny_ix_i^{(1)}=0\\ &\Rightarrow \omega_1\left\{\sum\limits_{i=1}^nx_i^2-\frac{1}{n}\left(\sum\limits_{i=1}^nx_i\right)^2\right\}=\sum\limits_{i=1}^ny_i(x_i-\frac{1}{n}\sum\limits_{i=1}^nx_i)\\ &\Rightarrow\omega_1=\frac{\sum\limits_{i=1}^ny_i(x_i-\frac{1}{n}\sum\limits_{i=1}^nx_i)}{\sum\limits_{i=1}^nx_i^2-\frac{1}{n}\left(\sum\limits_{i=1}^nx_i\right)^2} \end{aligned}$

多元回归模型LMS

损失函数构造

$n$ 个数据表示为
$\begin{cases} \omega_0+\omega_1 x_1^{(1)}+\cdots+\omega_n x_1^{(m)}=y_{\omega}(x_1)\\ \omega_0+\omega_1 x_2^{(1)}+\cdots+\omega_n x_2^{(m)}=y_{\omega}(x_2)\\ \vdots\\ \omega_0+\omega_n x_1^{(1)}+\cdots+\omega_n x_n^{(m)}=y_{\omega}(x_n)\\ \end{cases}$
表示为矩阵形式为
$\left[ \begin{matrix} 1&x_1^{(1)}&x_1^{(2)}&\cdots&x_1^{(m)}\\ 1&x_2^{(1)}&x_2^{(2)}&\cdots&x_2^{(m)}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 1&x_n^{(1)}&x_n^{(2)}&\cdots&x_n^{(m)}\\ \end{matrix} \right]\left( \begin{matrix} \omega_0\\ \omega_1\\ \omega_2\\ \vdots\\ \omega_m \end{matrix} \right)=\left( \begin{matrix} y_{\omega}(x_1)\\ y_{\omega}(x_2)\\ \vdots\\ y_{\omega}(x_n)\\ \end{matrix} \right)\Rightarrow A\omega = \hat{Y}$
优化问题变为 $S=\Vert A\omega-Y\Vert_2^2$ ，即求 $S$ 的最小化 $\hat{\omega}=arg\min\limits_{\omega}\Vert A\omega-Y\Vert_2^2$

LMS最优化
$\begin{aligned} \Vert A\omega-Y\Vert_2^2&=(A\omega-Y)^T(A\omega-Y)=(\omega^TA^T-Y^T)(A\omega-Y)\\ &=\omega^TA^TA\omega-\omega^TA^TY-Y^TA\omega+Y^TY\\ &\xlongequal{(\omega^TA^TY)_{1\times m\times m\times n\times n\times 1}为标量}\omega^TA^TA\omega-2\omega^TA^TY+Y^TY \end{aligned}$

令 $\frac{\partial S}{\partial \omega}=0$ ，有
$\frac{\partial (\omega^TA^TA\omega-2\omega^TA^TY+Y^TY)}{\partial \omega}=\frac{\partial(\omega^TA^TA\omega)}{\partial \omega}-2A^TY$
引理： $\frac{d(u^Tv)}{dx}$
$\frac{d(u^Tv)}{dx}=\frac{du^T}{dx}v+\frac{dv^T}{dx}u\\ \frac{d(x^TBx)}{dx}=\frac{dx^T}{dx}Bx+\frac{d(x^TB^T)}{dx}x=Bx+B^Tx=(B+B^T)x\\ \therefore \frac{\partial(\omega^TA^TA\omega)}{\partial \omega}=(A^TA+A^TA)\omega=2A^TA\omega$
对于最优化问题
$\frac{\partial S}{\partial \omega}=2A^TA\omega-2A^TY=0\Rightarrow A^TA\omega=A^TY\\ \hat{\omega}=(A^TA)^{-1}A^TY$

GD与LMS对比

LMS计算量来源于计算求逆的计算量

梯度下降存在局部收敛问题，收敛速度满，步长的选取

最优实践，普通线性模型，数据量不超过百万级，可以不用梯度下降

多角度理解LMS

几何角度

线性组合

矩阵角度

对于数据集 $D=\{(0,2),(1,2),(2,3)\}$

线性回归模型为
$(0,2)\rightarrow a\cdot 0+b=2\\ (1,2)\rightarrow a\cdot 1+b=2\\ (2,3)\rightarrow a\cdot 2+b=3$
即有
$\left[ \begin{matrix} 0&1\\1&1\\2&1 \end{matrix} \right]\left[\begin{matrix}a\\b\end{matrix}\right]=\left[\begin{matrix}2\\2\\3\end{matrix}\right]\\\\ [\alpha_1,\alpha_2]\omega=\hat{y}\\\\ \begin{cases} \hat{y}=A\omega\\ e=y-\hat{y}=y-A\omega \end{cases}$

由几何可知
$\begin{cases} e\cdot\alpha_1=0\\ e\cdot\alpha_2=0 \end{cases}\Rightarrow \begin{cases} \alpha_1^T\cdot e=0\\ \alpha_2^T\cdot e=0 \end{cases}\Rightarrow A^Te=0$
故有
$A^T(y-\hat{y})=A^T(y-A\omega)=A^Ty-A^TA\omega=0\\ \omega=(A^TA)^{-1}A^Ty$

概率角度

设误差 $x_i$ 服从 $(\mu,\sigma^2)$ 的正态分布
$\begin{aligned} f_{\omega}(x_1,x_2,\cdots,x_n)&=f(x_1,x_2,\cdots,x_n\vert \omega)\\ &\xlongequal{x1,\cdots,x_n之间独立同分布}f(x_1\vert \omega)f(x_2\vert \omega)\cdots f(x_n\vert \omega)\\ &=\prod\limits_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}\\ lnf_{\omega}(x_1,x_2,\cdots,x_n)&=-nln\sqrt{2\pi}\sigma-\sum\limits_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2} \end{aligned}$

从 概率论 的角度解释，线性回归得到的是统计意义上的拟合结果，在单变量的情形下，可能一个样本点都没有落在求得的直线上

对上述现象的解释是：回归结果可以完美匹配理想样本点的分布，但训练中使用的真实样本点是理想样本点和噪声叠加的结果，因而与回归模型之间产生了偏差，每个样本点上噪声的取值等于 $y_i=\omega^Tx_i+\varepsilon_i$

设 $\varepsilon_i=y_i-\omega^Tx_i$ 服从 $(0,\sigma^2)$ 的正态分布，即
$P(\varepsilon_i)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\varepsilon_i^2}{2\sigma^2}}$

假定样本点的噪声满足参数为 $(0,\sigma^2)$ 的正态分布，这意味着噪声等于0的概率密度最大。

在这种情况下，对参数 $w$ 的推导就可以用 最大似然估计 进行，即在已知样本数据及其分布的条件下，找到使样本数据以最大概率出现的参数假设 $w$
$P(y_i\vert x_i,\omega)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-\omega^Tx_i)^2}{2\sigma^2}}$
在假设每个样本独立同分布的前提下，似然概率写作
$L(\omega)=L(\omega\vert X,Y)=P(x_1,x_2,\cdots,x_n\vert w)=\prod\limits_{i}^n\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}$
最大似然估计的任务就是让上述表达式的取值最大化。为便于计算，对似然概率取对数

$lnL(\omega)=\ln P(x_1,x_2,\cdots,x_n\vert w)=-\sum\limits_{i}^n\left[\ln \sqrt{2\pi}\sigma+\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right]$
令 $\frac{\partial lnL(\omega)}{\partial \omega}=0$ ，有
$\frac{\partial}{\partial\omega}\sum\limits_{i=1}^n(y_i-w^Tx_i)^2=0$
即似然概率的最大化等效为 $\sum\limits_{k=1}^n(w^Tx_k-y_k)^2$ 的最小化

3.2.6 回归方程衡量标准

回归方程的拟合优度

回归直线与各观测点的近似程度称为回归直线对数据的拟合优度

总平方和 SST ：反映因变量的 $n$ 个观察值与均值的总偏差
$\sum\limits_{i=1}^n(y_i-\overline{y})^2$
回归平方和 SSR ：由于 $x$ 与 $y$ 的线性关系引起的 $y$ 的变化部分（回归直线可解释部分造成的误差）
$\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2$
残差平方和 SSE ：由于 $x$ 与 $y$ 的线性关系外的关系引起的 $y$ 的变化部分（回归直线不可解释部分造成的误差）
$\sum\limits_{i=1}^n(y_i-\hat{y}_i)^2$
总平方和可以分解为回归平方和、残差平方和 $SST = SSR + SSE$
$\sum\limits_{i=1}^n(y_i-\overline y)^2=\sum\limits_{i=1}^n(\hat{y}-\overline{y})^2+\sum\limits_{i=1}^n(y-\hat{y})^2$

判定系数

$R^2=\frac{SSR}{SST}=\frac{回归平方}{总平方和}=\frac{\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2}{\sum\limits_{i=1}^n(y_i-\overline{y})^2}=1-\frac{\sum\limits_{i=1}^n(y_i-\hat{y})^2}{\sum\limits_{i=1}^n(y_i-\overline{y})^2}$

理想情况 $R^2=1$ ，残差平方和为 $0$ （即整体误差完全由线性误差引起）回归方程完全可解释 $x$ 与 $y$ 的关系

$R^2$ 越大，回归方程可解释能力越强
$R^2$ 越小，回归方程可解释能力越弱

3.2.7 显著性检验

由于回归方程是根据样本数据得到的，是否真实反映了变量 $X$ 和 $Y$ 之间的关系，需要通过检验后才可以确定

显著性检验包括两方面：

线性关系检验
回归系数检验

线性关系检验

检验 $X$ 和 $Y$ 的线性关系是否显著，是否可用线性模型表示

将均方回归( MSR )和均方残差( MSE )进行比较，应用 $F$ 检验来分析二者之间的差别是否显著

均方回归：回归平方和 SSR 除以相应的自由度（参数个数 m）
均方残差：残差平方和 SSE 除以自由度（ $n - m - 1$ ）

$\frac{线性误差}{非线性误差}$

若 $\omega=0$ ，即所有回归系数与0无显著差异，则 $y$ 与全体 $x$ 的线性关系不显著

计算检验统计量
$\\F=\frac{SSR/m}{SSE/n-m-1}=\frac{\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2/m}{\sum\limits_{i=1}^n(y-\hat{y})^2/n-m-1}=\frac{MSR}{MSE}\sim F(m,n-m-1)$

回归系数检验

检验每个回归系数 $\omega$ 与 $0$ 是否有显著性差异，来判断 $Y$ 与 $X$ 之间是否有显著的线性关系

若 $\omega \approx0$ 则总体回归方程中不含 $X$ 项，因此，变量 $Y$ 与 $X$ 之间不存在线性关系
若 $\omega \neq 0$ ，则变量 $Y$ 与 $X$ 有显著的线性关系

如：

$\hat{\omega}_1$ 是根据最小二乘法求出的样本统计量，服从正态分布，有 $E(\hat{\omega}_1)=\omega_1$ ，标准差 $\sigma_{\omega_1}=\frac{\sigma}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$

由于 $\sigma$ 未知，需要用其估计量标准差 $S_e$ 来代替得到 $\hat{\omega}_1$ 的估计标准差
$S_{\hat{\omega}_1}=\frac{S_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}\\ S_e=\sqrt\frac{\sum(y_i-\hat{y}_i)^2}{n-K-1}=\sqrt{MSE}$
计算检验的统计量： $t=\frac{\hat{\omega}_1-\omega}{S_{\hat{\omega}_1}}\sim t(n-2)$

线性关系检验与回归系数检验区别：

线性关系检验的是自变量与因变量是否可以用线性关系表示；回归系数的检验是判断通过样本计算得出的回归系数是否为0

在一元线性回归中，自变量只有一个，线性关系检验与回归系数检验是等价的

线性关系检验 $F=\frac{SSR/1}{SSE/n-1-1}=\frac{MSR}{MSE}\sim F(1,n-2)=t(n-2)$

回归系数检验 $t=\frac{\hat{\omega}_1-\omega_1}{S_{\hat{\omega}_1}}\sim t(n-2)$
多元回归分析中，线性关系检验只能用来检验总体回归关系的显著性。回归系数检验可以对各个回归系数分别进行检验

3.2.8 利用回归直线进行估计和预测

点估计：利用估计的回归方程，对 $x$ 的一个特定值，求解 $\hat{y}_i$ 的一个估计值

区间估计：利用估计的回归方程，对于 $x$ 的一个特定量，求出 $y$ 的一个估计量的区间

预测结果的置信度

标准差

度量观测值围绕着回归直线的变化程度(点估计)
$S_e=\sqrt\frac{\sum\limits_{i=1}^n(y_i-\hat{y}_i)^2}{n-2}$

自由度为 $n - 2$
标准差越大，则分散程度越大，回归方程的可靠性越小

置信区间估计

预测结果具有可靠性的范围

$\hat{y}_0\pm t_{\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}+\frac{(x_{i+1}-\overline{x})^2}{\sum\limits_{i=1}^n(x_i-\overline{x})^2}}$

在 $1-\alpha$ 置信水平下预测区间为
$\hat{y}_0\pm t_{\frac{\alpha}{2}}s_e\sqrt{1+\frac{1}{n}+\frac{(x_{i+1}-\overline{x})^2}{\sum\limits_{i=1}^n{(x_i-\overline{x})^2}}}$
eg

广告费与销售额的关系如图，若2003年广告费120万元，用一元线性回归求 2003年产品销售额的置信区间与预测区间（ $\alpha=0.05$ ）

$\begin{aligned} &\omega_1=\frac{\sum\limits_{i=1}^ny_i(x_i-\frac{1}{n}\sum\limits_{i=1}^nx_i)}{\sum\limits_{i=1}^nx_i^2-\frac{1}{n}\left(\sum\limits_{i=1}^nx_i\right)^2}=\frac{9\sum_{i=1}\limits^9x_iy_i-\sum_{i=1}\limits^9x_i\sum_{i=1}\limits^9y_i}{9\sum_{i=1}\limits^9x_i^2-(\sum_{i=1}\limits^9x_i)^2}=0.57\\ &\hat{\omega}_0=\overline{y}-\hat{\omega}_1\overline{x}=-3.65\\ &故有一元线性回归方程 \hat{y}=\hat{\omega}_0+\hat{\omega}_1x=-3.65+0.57x\\ &\hat{y}_{10}=-3.65+0.57\times 120=64.75\\ &t_\frac{\alpha}{2}(n-2)=t_{0.025}(7)=2.365,S_e=\sqrt\frac{\sum_{i=1}\limits^9(y_i-\hat{y_i})^2}{n-2}=2.43\\ &\hat{y_0}\pm t_{\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}+\frac{(x_{10}-\overline{x})^2}{\sum_{i=1}\limits^{9}(x_i-\overline{x})^2}}=64.75\pm2.365\times 2.43\times 0.743=64.75\pm4.2699\\ &\hat{y_0}\pm t_{1+\frac{\alpha}{2}}s_e\sqrt{\frac{1}{n}+\frac{(x_{10}-\overline{x})^2}{\sum_{i=1}\limits^{9}(x_i-\overline{x})^2}}=64.75\pm2.365\times 2.43\times 1.2459=64.75\pm4.3516 \end{aligned}$

置信区间宽度影响因素

区间宽度随置信水平 $1-\alpha$ 的增大而增大
区间宽度随离散程度 $S_e$ 的增大而增大
区间宽度随样本容量的增大而减小
预测值与均值的差异越大，区间宽度越大

3.2.9 多元线性回归问题

调整的多重判定系数：
$R^2=1-(1-R^2)\times\frac{n-1}{n-m-1}$
$m$ 为系数个数， $n$ 为样本容量

表示消除自变量数量增加的影响

曲线回归分析过程

根据散点图确定曲线类型
先将 $x$ 或 $y$ 进行变量转换
对新变量进行直线回归分析，建立直线回归方程并进行显著性检验和置信区间估计
将新变量还原为原变量，由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间

散点图：

故可设 $\hat{y}=a+b\frac{1}{x}$ ，令 $\frac{1}{x}=x'\Rightarrow \hat{y}=a+bx'$

标准方程为
$\left\{\begin{aligned}&\sum\limits_{i=1}^n y_i = na+b\sum\limits_{i=1}^n x'\\&\sum\limits_{i=1}^n x'y=a\sum\limits_{i=1}^n x'+b\sum\limits_{i=1}^n(x')^2\end{aligned}\right.$
将数据代入的 $\left\{\begin{aligned}&a=-0.4377\\&b=60.4\end{aligned}\right.$

有 $\hat{y}=-0.4377+60.4x'=-0.4377+60.4\frac{1}{x}$

多重共线性

回归模型中两个或多个自变量彼此相关

引起的问题：

回归系数估计值不稳定性增强
回归系数假设检验的结果不显著

多重共线性检验方法：

容忍度
方差膨胀因子

容忍度
$Tol_i=1-R_i^2$

$R_i$ 解释变量 $x_i$ 与方程中其他解释变量间的复相关系数
容忍度在 $0\sim 1$ 之间，越接近0，表示多重共线性越强

方差膨胀因子
$VIF_i=\frac{1}{1-R_i^2}=\frac{1}{Tol_i}$

$VIF_i$ 越大，解释变量 $x_i$ 与方程中其他解释变量之间有严重的共线性

过拟合问题

在大量复杂的实际任务中，每个样本属性的数目甚至会超过训练集中的样本总数，此时求出的 $\hat{\omega}$ 不是唯一的，解的选择依赖于学习算法的归纳偏好

但无论怎样选择标准，存在多个最优解的问题不会改变，极易出现过拟合现象——正则化解决过拟合问题

即添加额外的惩罚项。根据使用的惩罚项不同，分为

岭回归
LASSO回归

其共同思想：通过惩罚项的引入抑制过拟合现象，以训练误差增加为代价换取测试误差下降

岭回归

也称 参数衰减

岭回归实现正则化的方式是在原始均方误差的基础上，加一个待求解参数的二范数项，即最小化求解的对象变为
$\Vert y_k-w^Tx_k\Vert^2+\Vert \Gamma w\Vert^2，\Gamma为季霍诺夫矩阵$

季霍诺夫矩阵主要目的是解决矩阵求逆的稳定性问题

LASSO回归

最小绝对缩减和选择算子

LASSO回归选择了待求解参数的一范数作为惩罚项，即最小化求解的对象变为
$\Vert y_k-w^Tx_k\Vert^2+\lambda \Vert w\Vert_1$

岭回归与LASSO回归概率角度

从最优化角度

岭回归：二范数惩罚项的作用在于优先选择范数较小的 $w$ 。相当于在最小均方误差之外额外添加了一重约束条件，将最优解限制在高维空间内的一个球内

在最小二乘的结果上做了缩放，虽然最优解中参数的贡献被削弱了，但参数的数目没有变少

LASSO回归：引入稀疏性，降低了最优解 $w$ 维度，使一部分参数的贡献度 $w_i=0$ ，使得 $w$ 中元素数目大大小于原始特征的数目

引入稀疏性是简化复杂问题的一种常用方法，在数据压缩，信号处理等领域亦有应用

从概率角度看

岭回归是在 $w_i$ 满足正态先验分布的条件下，用最大后验概率进行估计得到的结果

LASSO回归是在 $w_i$ 满足拉普拉斯先验分布的条件下，用最大后验概率进行估计得到的结果

你可能感兴趣的:(AI,#,机器学习,人工智能,机器学习,线性回归)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>