泥壶映雪

多元线性回归—异方差

异方差

文章目录

异方差

@[toc]

1 异方差的一些例子

2 什么是异方差

3异方差产生的原因

4 异方差后果

5 如何识别异方差

5.1 图示法

5.2 哥德菲尔德-夸特检验

5.3 怀特检验

5.4 Bp检验（布鲁奇-帕甘）

6 补救

6.1 使用“OLS + 稳健标准误”

6.2 广义最小二乘法 GLS

6.3 加权最小二乘法WLS

6.4 可行广义最小二乘法FGLS

1 异方差的一些例子

在消费函数，不同收入群体，消费的波动差距是否相同？
$C_i = \alpha + \beta Y_i + \varepsilon_i$
在企业成本函数，大企业与小企业规模经济存在差异
股票收益率数据也可能出现条件异方差ARCH 模型情形。

2 什么是异方差

经典线性回归方程
$\boldsymbol \beta \boldsymbol X +\boldsymbol \varepsilon$
普通最小二乘（OLS）估计量
$\hat {\boldsymbol \beta}_{ols} = (X'X)^{-1}X'Y = (X'X)^{-1}X'(\boldsymbol \beta \boldsymbol X+\varepsilon) = \boldsymbol \beta+(X'X)^{-1}X'\varepsilon$
其方差协方差矩阵：
$\begin{aligned} Var-Cov(\hat \beta) & = E(\hat \beta-E(\hat \beta)(\hat \beta-E(\hat \beta)')\\ &=E((X'X)^{-1}X'\varepsilon \varepsilon'X (X'X)^{-1})\\ & = (X'X)^{-1}X'E(\varepsilon \varepsilon')X (X'X)^{-1} \end{aligned}$
在同方差假设下：
$E(\varepsilon \varepsilon’)= \sigma^2I = \left[\begin{array}{cccc} \sigma^2 & 0 &\cdots&0\\ 0 & \sigma^2 &\cdots&0\\ \vdots & \vdots & &\vdots\\ 0 & 0 &\cdots &\sigma^2 \end{array}\right]$
于是
$Var-Cov(\hat \beta) = \sigma^2(X'X)^{-1}$

在实际建模中，扰动项的方差并不是
$Var(\varepsilon) = \sigma_i^2f(X)$

3异方差产生的原因

OLS假设条件苛刻：球形扰动项
模型设定偏误，导致非线性的变量遗漏
知道但无法获取的特征变量的遗漏变，增加了扰动项的波动性

例如，设真实模型：
$y = a + bx_1 + cx_2+u$
由于遗漏了变量 $x_2$ ，实际建模为:
$y = a + bx_1+v;v = cx_2+u$
此时新的扰动项 $v$ 的方差为：
$Cov(cx_2+u,cx_2+u) = c^2\sigma_x^2+\sigma_u^2>\sigma_u^2$

模型设定误差模型为非线性模型，但却设定为线性模式（库兹涅茨效应）
变量选择：变量的测度不准确，被解释变量 $y$ ,与解释变量 $x$ 的观测误差导致方差增大

4 异方差后果

（1）参数无偏性不受影响

$E(\hat \beta) = \beta$

证明：
$\hat {\boldsymbol \beta}_{ols} = \boldsymbol \beta+(X'X)^{-1}X'\varepsilon$
故
$E(\hat \beta) =E( \boldsymbol \beta+(X'X)^{-1}X'\varepsilon) = \beta$
（2）有效性降低
存在异方差时，球形扰动假设不能满足，参数OLS估计量的方差不再是最小的方差。有效性定义为
$Var(\hat \beta^{*}) \le Var(\beta^{\prime}),\forall \beta^{'}$
则说 $\hat{\beta}^{*}$ 在对应的估计方法下，其参数估计量具有有效性。在球形扰动条件下，OLS的方差最有效，反之，不满足球形扰动就不是最有效。根据一元线性回归方程公式
$Var(\hat\beta) = \frac{\sigma^2}{\Sigma x_i^2};t = \frac{\hat\beta}{\sqrt{Var(\hat\beta) }}$
（3）对系数显著性影响

在 $O L S$ 经典回归模型中，估计量 $\beta_{ols}$ 是最佳有效线性估计量，因此其方差是所有估计量中最小方差。异方差则不是最小方差，从而导致统计量 $t$ 变小，容易扭曲系数的显著性：本应该显著的回归系数因为异方差原因低估了回归系数的显著性。

（4）对假设检验影响

系数检验t检验：一元线性回归为例， $Var(\hat\beta) \ne \sigma^2/\Sigma x_i^2$ ,从而 $t$ 统计量不是真实的统计量，影响系数显著性。
方程显著性检验F统计量：

5 如何识别异方差

5.1 图示法

画相关散点图
横轴为考察的自变量 $x$ ，纵轴为被解释变量 $y$ ，画出二者散点图。在 $x$ 条件下 $y$ 的变化的波动存在较大差异
残差图：
先利用OLS回归得到回归模型的的残差值 $e$ ，画 $e$ 与自变量 $x$ 的散点图，当 $e$ 随着 $x$ 变化存在明显的变化趋势时，可经验判断具有异方差

5.2 哥德菲尔德-夸特检验

前置条件

此检验只适用于大样本
仅解决同方差不成立情形

step1: 将解释变量按照从小到达顺序排序

step2: 排列在中间的 $C$ 个（约1/4）的观察值删除掉，再将剩余的观测值分为两个部分，每部分观察值的个数为 $(n - c) /2$ 。

step3: 提出假设。即 : $H_0$ 两部分数据的方差相等； $H_1$ 两部分数据的方差不相等

step4: 构造F统计量。分别对上述两个部分的观察值作回归，由此得到的两个部分的残差平方和 $\Sigma e_{1i}^2$ 与 $\Sigma e_{2i}^2$ ，自由度均为 $(n - c) /2 - k$

step5: 在原假设条件下，构造统计量
$F^{\star}=\frac{\sum e_{2 i}^{2} /\left[\frac{n-c}{2}-k\right]}{\sum e_{1 i}^{2} /\left[\frac{n-c}{2}-k\right]}=\frac{\sum e_{2 i}^{2}}{\sum e_{1 i}^{2}} \sim F\left(\frac{n-c}{2}-k, \frac{n-c}{2}-k\right)$
step6: 判断。若 $F^{\star}>F\left(\frac{n-c}{2}-k, \frac{n-c}{2}-k\right)$ ，则拒绝原假设，存在异方差

局限性：前半部分与后半部分同方差，而中间可能部分存在异方差

5.3 怀特检验

$\sigma_i^2 = \sigma^2f(X_i)$
表明扰动项方差关于自变量 $X$ 的函数，那么用扰动项对 $X$ 求回归，以判断哪些自变量对方差产生显著的影响。由于总体数据无法获取，因此利用样本数据回归得到的残差平方和 $e_i^2$ 对自变量 $X$ 进行 $O L S$ 回归.例如
$\hat b_0 +\hat b_1 x_1+\hat b_2x_2+e$
得到残差：
$\hat y$
再构造辅助回归：
$e_i^2 = a_0+a_1x_1+a_2x_2+a_3x_1^2+a_4x_4^2+a_5x_1x_2+v$
$R^2$ 为辅助回归可决系数。在原假设： $H_0:\alpha_i(i= 1,3,……5)= 0$ 成立条件下，计算统计量 $nR^2$ ，其中 $n$ 为样本，进行比较，若
$nR^2 > \chi^2(5)$
则拒绝原假设，存在异方差。原假设：
$H_{0}: \mathrm{E}\left(\varepsilon_{i}^{2} \mid x_{2}, \cdots, x_{K}\right)=\sigma^{2}$
$\hat{u}^{2}=\delta_{0}+\sum_{j=1}^{k} \delta_{j} x_{j}+\sum_{j=1}^{k} \sum_{p=j}^{k} \delta_{j p} x_{j} x_{p}+v$
$R_{u}^{2} \sim \chi_{k(k+1) / 2+k}^{2}$

评价：可以检验任何形式的异方差；缺点：如果 $H_0$ 被拒绝，并不提供有关异方差具体形式的信息。

5.4 Bp检验（布鲁奇-帕甘）

构造辅助回归
$e_i^2 = a_0+a_1x_1+a_2x_2+erro$
使用 $nR^2$ 统计量：
$R^{2} \stackrel{d}{\longrightarrow} \chi^{2}(K-1)$
BP 检验的优点在于其建设性，可帮助确认异方差的具体形式。但不含二次项形式。或者一种更简练的节省自由度的方法：
$e_i^2 = a + b\hat y_i+erro$
$e_i^2 = a + b\hat y_i+c \hat y^2+erro$

6 补救

6.1 使用“OLS + 稳健标准误”

这是最简单，也是目前通用的方法。只要样本容量较大，即使在异方差的情况下，若使用稳健标准误，则所有参数估计、假设检验均可照常进行。ols回归系数方差公式
$\operatorname{Cov}(\hat{\beta} \mid x)=\left(x^{\prime} x\right)^{-1} x^{\prime} \mathrm{E}\left(u u^{\prime} \mid x\right) x\left(x^{\prime} x\right)^{-1}$
异方差稳健方差：
$\widehat{\operatorname{Cov}}(\hat{\beta} \mid x)=\left(x^{\prime} x\right)^{-1}\left(\sum \hat{u}_{i}^{2} x_{i}^{\prime} x_{i}\right)\left(x^{\prime} x\right)^{-1}$
聚类稳健标准方差：
$\widehat{\operatorname{Cov}}(\hat{\beta} \mid x)=\left(x^{\prime} x\right)^{-1}\left(\sum_{g=1}^{G} x_{g}^{\prime} \hat{u}_{g}^{\prime} \hat{u}_{g} x_{g}\right)\left(x^{\prime} x\right)^{-1}$

6.2 广义最小二乘法 GLS

假设 $\operatorname{Var}(\varepsilon \mid \boldsymbol{X})=E(\varepsilon\varepsilon'|X)=\sigma^{2} \boldsymbol{V}(\boldsymbol{X}) \neq \sigma^{2} \boldsymbol{I}_{n}$ ，且 $\boldsymbol{V}(\boldsymbol{X})$ 正定对称且已知，基本思想：通过变量转换，使得转换后的模型满足球型扰动项的假定。

定理：对于任意正定对称矩阵 $\boldsymbol{V}_{n\times n}$ ,存在非退化矩阵 $\boldsymbol{C}_{n\times n}$ ，使得 $\boldsymbol {V}^{-1} = \boldsymbol {C}^{\prime}\boldsymbol{C}$ 。矩阵 $\boldsymbol C$ 不唯一，但不影响最终结果

设回归模型
$\beta+\varepsilon$
两边同时左乘矩阵 $C$ 得：
$\beta+C \varepsilon$
定义变量转换：
$\tilde{y} \equiv C y, \tilde{X} \equiv C X, \tilde{\varepsilon} \equiv C \varepsilon$
可将模型写为：
$\tilde{y}=\tilde{X} \beta+\tilde{\varepsilon}$
变换后的模型仍满足严格外生性：
$\mathrm{E}(\tilde{\boldsymbol{\varepsilon}} \mid \tilde{\boldsymbol{X}})=\mathrm{E}(\boldsymbol{C} \boldsymbol{\varepsilon} \mid \boldsymbol{C X})=\mathrm{E}(\boldsymbol{C} \boldsymbol{\varepsilon} \mid \boldsymbol{X})=\boldsymbol{C} \mathrm{E}(\boldsymbol{\varepsilon} \mid \boldsymbol{X})=\boldsymbol{0}$
球型扰动项的假定也得到满足：
$\begin{aligned} \operatorname{Var}(\tilde{\varepsilon} \mid \tilde{\boldsymbol{X}}) &=\mathrm{E}\left(\tilde{\varepsilon} \tilde{\boldsymbol{\varepsilon}}^{\prime} \mid \boldsymbol{X}\right)=\mathrm{E}\left(\boldsymbol{C} \boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\prime} \boldsymbol{C}^{\prime} \mid \boldsymbol{X}\right)=\boldsymbol{C} \mathrm{E}\left(\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\prime} \mid \boldsymbol{X}\right) \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{C} \boldsymbol{V} \boldsymbol{C}^{\prime} \\ &=\sigma^{2} \boldsymbol{C}\left(\boldsymbol{V}^{-1}\right)^{-1} \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{C}\left(\boldsymbol{C}^{\prime} \boldsymbol{C}\right)^{-1} \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{C} \boldsymbol{C}^{-1}\left(\boldsymbol{C}^{\prime}\right)^{-1} \boldsymbol{C}^{\prime}=\sigma^{2} \boldsymbol{I}_{n} \end{aligned}$
故高斯-马尔可夫定理成立。对变换后的模型使用 OLS 即得到GLS 估计量：
$\begin{aligned} \hat{\beta}_{\mathrm{GLS}} &=\left(\tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{X}}\right)^{-1} \tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{y}}=\left[(\boldsymbol{C X})^{\prime}(\boldsymbol{C X})\right]^{-1}(\boldsymbol{C X})^{\prime} \boldsymbol{C} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{C}^{\prime} \boldsymbol{C} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{C}^{\prime} \boldsymbol{C} \boldsymbol{y}=\left(\boldsymbol{X}^{\prime} \boldsymbol{V}^{-1} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{V}^{-1} \boldsymbol{y} \end{aligned}$
虽然 $C$ 不唯一，但 $\hat{\beta}$ 唯一。显然 $\hat{\beta}_{\mathrm{GLS}}$ 是是BLUE，比OLS 更有效。但前提是必须知道协方差矩 $V$

6.3 加权最小二乘法WLS

假设仅存在异方差，无自相关， $\boldsymbol{V}_{n\times n}$ 为对角阵。方差小的数据提供的信息量大。WLS 根据信息量大小进行加权。假定
$\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol{x}_{i}\right)=\operatorname{Var}\left(\varepsilon_{i} \mid \boldsymbol{x}_{i}\right)=\sigma^{2} v_{i}(\boldsymbol{X})$
其中
$\boldsymbol{V}=\left(\begin{array}{ccc} v_{1} & & 0 \\ & v_{2} & & \\ & & \ddots & \\ 0 & & & v_{n} \end{array}\right), \quad \boldsymbol{V}^{-1}=\left(\begin{array}{cccc} 1 / v_{1} & & & 0 \\ & 1 / v_{2} & & \\ & & \ddots & \\ 0 & & & 1 / v_{n} \end{array}\right)$
因为 $\boldsymbol {V}^{-1} = \boldsymbol {C}^{\prime}\boldsymbol{C}$ 故
$\boldsymbol{C}=\boldsymbol{C}^{\prime}=\left(\begin{array}{cccc} 1 / \sqrt{v_{1}} & & & 0 \\ & 1 / \sqrt{v_{2}} & & \\ & & \ddots & \\ 0 & & & 1 / \sqrt{v_{n}} \end{array}\right)$

$\tilde{\boldsymbol{y}} \equiv \boldsymbol{C} \boldsymbol{y}=\left(\begin{array}{cccc} 1 / \sqrt{v_{1}} & & & 0 \\ & 1 / \sqrt{v_{2}} & & \\ & & \ddots & \\ 0 & & & 1 & \sqrt{v_{n}} \end{array}\right)\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right)=\left(\begin{array}{c} y_{1} / \sqrt{v_{1}} \\ y_{2} / \sqrt{v_{2}} \\ \vdots \\ y_{n} / \sqrt{v_{n}} \end{array}\right)$

其中
$\begin{aligned} \tilde{\boldsymbol{X}} \equiv \boldsymbol{C X} &=\left(\begin{array}{cccc} 1 / \sqrt{v_{1}} & & & 0 \\ & 1 / \sqrt{v_{2}} & & \\ & & \ddots & \\ 0 & & & 1 / \sqrt{v_{n}} \end{array}\right)\left(\begin{array}{ccc} x_{11} & \ldots & x_{1 K} \\ x_{21} & \ldots & x_{2 K} \\ \vdots & & \vdots \\ x_{n 1} & \ldots & x_{n K} \end{array}\right) \\ \\ &=\left(\begin{array}{ccc} x_{11} / \sqrt{v_{1}} & \ldots & x_{1 K} / \sqrt{v_{1}} \\ x_{21} / \sqrt{v_{2}} & \ldots & x_{2 K} / \sqrt{v_{2}} \\ \vdots & & \vdots \\ x_{n 1} / \sqrt{v_{n}} & \ldots & x_{n K} \end{array}\right) \end{aligned}$
其中权重 $1/\sqrt{v_i}$ 表示标准差的倒数，第 $i$ 个观测的回归方程为：
$\frac{y_{i}}{\sqrt{v_{i}}}=\beta_{1} \frac{x_{i 1}}{\sqrt{v_{i}}}+\beta_{2} \frac{x_{i 2}}{\sqrt{v_{i}}}+\cdots+\beta_{K} \frac{x_{i K}}{\sqrt{v_{i}}}+\frac{\varepsilon_{i}}{\sqrt{v_{i}}}$
新扰动项为 $\varepsilon_{i} / \sqrt{v_{i}}$ ，可将WLS视为最小化“加权的残差平方和：
$\min _{\vec{\beta}} \mathrm{SSR}=\sum_{i=1}^{n}\left(e_{i} / \sqrt{v_{i}}\right)^{2}=\sum_{i=1}^{n} \frac{e_{i}^{2}}{v_{i}}$
权重为 $1/v_i$

6.4 可行广义最小二乘法FGLS

必须先用样本数据估计 $\boldsymbol{V}_{n\times n}$ 然后才能使用GLS，故称为 FGLS或“可行加权最小二乘法”(Feasible WLS，简记FWLS)，即
$\hat{\beta}_{\mathrm{FGLS}}=\left(\boldsymbol{X}^{\prime} \hat{V}^{-1} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \hat{V}^{-1} \boldsymbol{y}$
其中 $\hat{V}$ 是 ${V}$ 的一致估计量。 ${V}(X)$ 包含过多参数，实践中，常考虑只有异方差，或只有一阶自相关的情形。以FWLS 为例。在作BP 检验时，通过辅助回归（此处及其谨慎，为什么就假定为线性形式？一旦设定错误会有什么影响）
$e_{i}^{2}=\delta_{1}+\delta_{2} x_{i 2}+\cdots+\delta_{K} x_{i K}+\text { error }_{i}$
就可获得 $\sigma_i^2$ 的估计值 $\hat \sigma_i^2$ 。为保证 $\hat \sigma_i^2$ 为正数，假设辅助回归为指数函数的形式：
$e_{i}^{2}=\sigma^{2} \exp \left(\delta_{1}+\delta_{2} x_{i 2}+\cdots+\delta_{K} x_{i K}\right) v_{i}$
其中 $v_i$ 表示乘积形式扰动项，取对数后可得
$\ln e_{i}^{2}=\left(\ln \sigma^{2}+\delta_{1}\right)+\delta_{2} x_{i 2}+\cdots+\delta_{K} x_{i K}+\ln v_{i}$
得到 $ln e_{i}^{2}$ 的预测值 $\ln \hat\sigma_i^2$ ，进而得到拟合值 $\hat{\sigma}_{i}^{2}=e^{\ln \hat{\sigma}_{i}^{2}}$ ，然后以 $1/\hat{\sigma}_{i}^{2}$ 作为权重，进行WLS

参考文献

庞皓.计量经济学（第三版）,北京：科学出版社114-125，2014
陈强.高级计量经济学及 Stata 应用（第二版，第 7章）北京：高等教育出版社，2014。

-END-

结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
AtCoder Beginner Contest 412(ABCDE)
前言回来喽！！前一阵子期末周快复习疯了，接下来还想准备数学建模，感觉高中都没这么忙过T^T。中间参加了一场百度之星的比赛，只AC了两题，感觉好难啊还是太菜了，希望能混个牌呜呜呜。图论和数论题好难，还得多练啊……一、A-TaskFailedSuccessfully#includeusingnamespacestd;typedeflonglongll;typedefpairpii;voidsolve(
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
分布式领域后端服务的限流算法实现大厂资深架构师 Spring Boot 开发实战分布式算法 wpf ai
分布式领域后端服务的限流算法实现关键词：分布式系统、限流算法、令牌桶、漏桶、滑动窗口、Redis、高并发摘要：本文深入探讨分布式系统中后端服务的限流算法实现。我们将从基础概念出发，详细分析各种限流算法的原理和适用场景，包括计数器算法、滑动窗口算法、令牌桶算法和漏桶算法。文章将提供Python实现代码和数学建模，并通过实际案例展示如何在分布式环境中使用Redis实现高效的限流机制。最后，我们将讨论限
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
KNN（K-近邻算法)(上)--day05 扫把星133 机器学习 python 人工智能近邻算法算法
KNN（K-NearestNeighbors，K近邻算法）是一种用于分类和回归的非参数化方法。其基本思想是通过找出与新样本最接近的已标记数据中的K个最近邻居来进行预测或分类。注释：非参数化方法是指在统计学和机器学习中，不对数据分布做出严格假设（这些假设通常包括
蚁群算法原理与应用详解
本文还有配套的精品资源，点击获取简介：蚁群算法是一种基于蚂蚁寻找食物路径行为的优化算法，它能够有效解决包括旅行商问题、网络路由和多目标优化在内的复杂问题。该算法模拟蚂蚁释放信息素来找到最短路径的过程，通过模拟蚂蚁的行为，算法逐步优化选择路径。蚁群算法具有并行性和全局优化能力，但也面临早熟收敛和参数调整的挑战。它已成功应用于物流优化、通信网络、任务调度、机器学习、图像处理和生物医学等众多领域。1.蚁
Python 解析 AI 在金融风控中的应用案例浮世清欢ai python 人工智能开发语言
```htmlPython解析AI在金融风控中的应用案例Python解析AI在金融风控中的应用案例在当今快速发展的金融科技领域，人工智能（AI）的应用正在改变传统的金融风险管理方式。通过使用Python编程语言和各种机器学习库，金融机构能够更准确地识别潜在风险，提高决策效率。本文将探讨几个具体的AI在金融风控中的应用案例，并展示如何利用Python实现这些功能。案例一：信用评分模型信用评分是金融风
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
深度探索：机器学习中的条件生成对抗网络（Conditional GAN, CGAN）算法原理及其应用
目录1.引言与背景2.CGAN定理3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景生成对抗网络（GenerativeAdversarialNetworks,GANs）作为一种深度学习框架，在无监督学习领域展现出强大的能力，特别在图像、音频、文本等复杂数据的生成任务中取得了显著成果。然而，原始GAN模型在生成过程中缺乏对生成样本特定属性的直
GEE数据集：全球地下水生态系统 (GDEs)数据集（30m分辨率）此星光明 GEE数据集专栏数据库人工智能 gee 地下水水数据集全球
目录地下水的全球生态系统(GDEs)简介代码代码链接APP链接结果引用许可网址推荐0代码在线构建地图应用机器学习地下水的全球生态系统(GDEs)简介地下水是最广泛的液态淡水来源，但它在支持多样化生态系统方面的关键作用却往往不被人们所认识。在许多地区，依赖地下水的生态系统（GDEs）的位置和范围在很大程度上仍不为人所知，导致保护措施不足。该数据集提供了一张高分辨率（约30米）的GDEs地图，揭示了全
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p