Helenology

【统计计算】关于Jackknife的理解和推导

Jackknife是用来干什么的

不用Jackknife的情形（理想情况下我们是怎么做的）

特例（均值）
一般的例子
这个估计好吗？（统计量的性质）

使用Jackknife的情形

Jackknife是什么
这个估计好吗？（ $\hat \theta$ 的性质）

偏差
标准误差

注意
复盘
参考

不用Jackknife的情形（理想情况下我们是怎么做的）

一般地，我们想要研究总体 $P$ ，我们对参数 $\theta$ 非常感兴趣，但是这是一个未知的值，我们只能通过样本来估计它。我们如何利用样本来估计它呢？

特例（均值）

我们先用一个比较具体的例子，统计人的好伙伴——均值。

比如我们想要估计总体的均值 $\mu$ ，假设我们任意抽的样本为 $X=(x_1, x_2, ..., x_n)$ ，我们就通过统计量 $s=s(x_1,...x_n)=\frac{1}{n} \sum_{i=1}^n x_i$ 来估计 $\mu$ 。

我们抽样得到了多组样本 $X_1,X_2,...X_m$ （ $X_i=(x_{i1},x_{i2}, ..., x_{in})$ ），每组样本都可以计算出统计量 $s$ 的值，一共有 $m$ 组样本，那么我们就可以算出 $m$ 个统计量 $s$ 的值。

$使用样本X_1：s_1 = s(x_{11},...,x_{1n})=\frac{1}{n}\sum_{j=1}^n x_{1j}$

$使用样本X_2：s_2 = s(x_{21},...,x_{2n})=\frac{1}{n}\sum_{j=1}^n x_{2j}$

$. . . . . .$

$使用样本X_m：s_m = s(x_{m1},...,x_{mn})=\frac{1}{n}\sum_{j=1}^n x_{mj}$

每一个 $s_i(i=1,...,m)$ 都可以用来反映 $\mu$ 的大小，我们究竟应该听谁的呢？我们选择综合每个样本的意见，使用 $\bar s = \frac{1}{m} \sum_{i=1}^m s_i$ 来反映 $\mu$ 的大小。

一般的例子

比如我们想要估计总体的参数 $\theta$ （比如均值、方差、中位数等等），假设我们任意抽的样本为 $X=(x_1, x_2, ..., x_n)$ ，我们就通过统计量 $s=s(x_1,...x_n)$ 来估计 $\theta$ 。

$使用样本X_1：s_1 = s(x_{11},...,x_{1n})$

$使用样本X_2：s_2 = s(x_{21},...,x_{2n})$

$. . . . . .$

$使用样本X_m：s_m = s(x_{m1},...,x_{mn})$

每一个 $s_i(i=1,...,m)$ 都可以用来反映 $\theta$ 的大小，我们究竟应该听谁的呢？我们选择综合每个样本的意见，使用 $\bar s = \frac{1}{m} \sum_{i=1}^m s_i$ 来反映 $\theta$ 的大小。

上面是一般情况下也是理想情况下的操作，但现实总是很魔幻，那就是下面的事情了。

这个估计好吗？（统计量的性质）

我们使用 $\bar s$ 来估计总体参数 $\theta$ ，这种估计好不好呢？可能我们从构造了一个不好的统计量，那么这个统计量对参数的估计效果可能就很差。所以我们还需要考察构造的统计量 $s$ 的好坏。这样我们就需要用到偏差和标准误差。

$\theta$

$\frac{s_{标准差}}{\sqrt{n}}$

（仅仅 $s_{标准差}$ 代表标准差，其他所有的 $s$ 代表统计量，不好意思我第一次写的时候没有意识到我要用两个 $s$ ，这里声明一下）

使用Jackknife的情形

假设我们现在想要研究的总体目标 $P$ 非常特殊，是得一种很稀有的病的人，可能几万个人才有1个得病的，这个人群非常稀少，我们很难获得大量的样本，就算可以获得一定的样本，也很难重复抽样。但是我们依然希望能够估计总体的参数 $\theta$ ，我们依然用统计量 $s$ 去估计总体参数 $\theta$ ，并且还要评价这种估计的好坏，那么现在会面临什么样的问题呢？

我们现在面临的问题

我们费尽千辛万苦终于有一组样本 $X=(x_1, x_2, ..., x_n)$ ，但没办法再重复抽样了，也就是没有办法得到多组样本 $X_1,X_2,...,X_m$ ，于是无法得到统计量 $s$ 的多个估计值 $s_1,...,s_m$ ，无法通过平均多个估计值得到 $\bar s$ 去估计参数 $\theta$ 。
我们无法衡量统计量 $s$ 的好坏了。之前每次计算的统计量 $s$ 的值有大有小，现在我们只有一个值，我们怎么知道这个值是不是正常地恰好偏大或者恰好偏小，还是这个统计量本身就有问题，所以我们算出来的值偏离很严重？

我们现在只能怎么做呢？

只能通过仅有的一个样本 $X=(x_1, x_2, ..., x_n)$ 去估计统计量 $s$ 的一个值，然后仅仅根据这一个值来估计总体参数 $\theta$ 。

这样做可以吗
可以，但是不好。为什么不好呢？因为只用一个数去估计总体参数的话方差会很大，会非常不精确。那怎么办呢？我们可以借助Jackknife的方法。

Jackknife是什么

有点类似于机器学习中的leave-one-out思想：

我们不是只有一个样本 $X=(x_1, x_2, ..., x_n)$ 吗？现在我们希望能够得到多个样本，但是又没办法重复抽样得到多个样本了，我们就只能利用已有的样本 $X$ ，通过它来重复产生样本。

很简单，我们每次剔除 $X$ 中的一个值就可以产生一个样本，这样我们一共可以产生 $n$ 个样本。第 $i$ 个样本为：

$X_{(i)} = (x_1, ..., x_{i-1}, x_{i+1}, ..., x_n)$

于是我们得到了新的 $n$ 个样本 $X_{(1)},...,X_{(n)}$ ，我们通过这 $n$ 个样本计算出统计量 $s$ 的 $n$ 个值，通过 $\bar s$ 来估计总体参数 $\theta$ 。最后我们还要考察统计量 $s$ 好不好。

以下记统计量为 $\hat \theta$ 。

记 $\hat \theta_{(i)} = \hat \theta(x_{1}, ..., x_{i-1}, x_{i+1}, ..., x_n)$ ，是代入样本 $X_{(i)}$ 后算出来统计量 $\hat \theta$ 的值，每个值都可以反映 $\theta$ 的大小。我们再将每次算出的值进行平均，构造出新的统计量 ${\hat {\theta}}_{(.)}$ ：

${\hat {\theta}}_{(.)} = \frac{1}{n} \sum_{i=1}^{n} \hat \theta_{(i)}$

我们使用 ${\hat {\theta}}_{(.)}$ 来估计总体参数 $\theta$ 。

这个估计好吗？（ $\hat \theta$ 的性质）

下面我们来考察统计量 ${\hat {\theta}}_{(.)}$ 的好坏，衡量统计量好坏的指标有很多，这里我们选择的是【偏差】和【标准误差】。

由于之前的推导并没有对未知参数 $\theta$ 做出任何要求， $\theta$ 可以是期望、方差、峰度等等任何指标，如果要计算未知参数 $\theta$ 对应统计量的偏差和标准误差需要知道统计量的具体构造方法，因此仅仅是根据笼统的未知参数 $\theta$ 是不能具体计算的。下面分别在未知参数 $\theta$ 为总体方差和期望的两种情况下分别计算对应统计量的偏差和方差作为特例。

偏差

以总体方差 $\theta = \sigma^2$ 为例，我们构造了统计量 $\hat \theta = \hat \sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar x)^2$ ，我们想知道这个统计量 $\hat \theta$ 是否无偏，我们可以考察统计量 $\hat \theta$ 的偏差 $bias(\hat \theta)$ （是一个未知的数）：

$bias(\hat \theta) = E(\hat \theta) - \theta$

如果偏差 $bias(\hat \theta)=0$ ，说明统计量 $\hat \theta$ 无偏。但是偏差 $bias(\hat \theta)=0$ 是一个未知的数，我们只能通过构造统计量 $\hat {bias(\hat \theta)}$ 去估计 $\hat \theta$ ，构造方法如下：

用 $\hat E(\hat \theta)$ 来估计 $E(\hat \theta)$ ，即用样本均值估计期望。
用 $\hat \theta$ 来估计 $\theta$ 。

但是我们只有一个样本 $X = (x_1, ..., x_n)$ ，只能计算一个 $\hat \theta$ 的值，无法得到样本均值 $\hat E(\hat \theta)$ 。怎么办呢？我们使用Jackknife方法构造出新的n个样本 $X_{(1)},...,X_{(n)}$ ，这样就可以得到多个 $\hat \theta$ 的值，从而计算除 $\hat E(\hat \theta)$ 了。

$\hat E(\hat \theta) = \frac{1}{n} \sum_{i=1}^{n} \hat \theta_{(i)} = \hat \theta_{(.)}$

$\hat {bias(\hat \theta)} = \hat E(\hat \theta) - \hat \theta= \hat \theta_{(.)} - \hat \theta$

其中：
$\hat \theta_{(i)} = \hat \theta(X_{(i)})$

$\hat \theta = \hat \theta(X)$

我们本意是查看统计量 $\hat \theta$ 的好坏，我们通过偏差 $b i a s$ 这个指标来衡量 $\hat \theta$ 的好坏。但是由于 $b i a s$ 是一个未知的数，我们只能通过构造统计量去估计它，于是我们构造出了 $b i a s$ 的统计量 $\hat {bias}$ 。我们构造出的这个统计量可能好可能不好，下面我们来计算统计量 $\hat {bias}$ 的期望（如果无偏则统计量 $\hat {bias}$ 好）：

$\begin{aligned} E(\hat {bias(\hat \theta)}) &= E(\hat \theta_{(.)} - \hat \theta) \\ &= E(\hat \theta_{(.)} - \theta) + E(\theta - \hat \theta) \\ &= bias(\hat \theta_{(.)}) - bias(\hat \theta)\\ &= -\frac{\sigma^2}{n-1} - (- \frac{\sigma^2}{n}) \\ &= -\frac{1}{n(n-1)} \sigma^2 \end{aligned}$

「对上式倒数第二行的证明（回想一下 $\hat \theta$ 是什么，是 $\hat \sigma^2$ ；回想一下 $\hat \sigma^2$ 是什么，是 $\frac{1}{n}\sum_{i=1}^n (x_i - \bar x)^2$ ，回想一下 $x_i$ 是什么…… ）：

$\begin{aligned} bias(\hat \theta) &= E(\hat \sigma^2 - \sigma^2) \\ &= E(\frac{1}{n}\sum_{i=1}^n (x_i - \bar x) ^2) - \sigma^2 \\ &= -\frac{1}{n} \sigma^2 \end{aligned}$

因为 $\hat \theta$ 用了n个数据， $\hat \theta_{(i)}$ 只用了n-1个数据，于是:

$bias(\hat \theta_{(i)}) = E(\hat \theta_{(i)} - \theta) = -\frac{1}{n-1} \sigma^2$ 」

这样就说明，用 $\hat {bias(\hat \theta)}$ 来估计 ${bias(\hat \theta)}$ 是有偏的，因为： $E(\hat {bias(\hat \theta)}) = \frac{1}{n-1}bias(\hat \theta)$

但是只要我们稍作调整就可以得到 $bias(\hat \theta)$ 的无偏估计，构造：
$\hat {bias}_{jack} = (n-1)\hat {bias}(\hat \theta)$

则： $E(\hat {bias}_{jack}) = bias(\hat \theta)$

所以我们构造的 $\hat {bias}_{jack}$ 是 ${bias(\hat \theta)}$ 的无偏估计，这就是我们Jackknife对偏差的估计：

$\hat {bias}_{jack} = (n-1) (\hat \theta_{(.)} - \hat \theta)$

标准误差

以总体均值 $\theta = \mu$ 为例，我们构造了统计量 $\hat \theta = \bar x = \sum_{i=1}^n x_i$ ，我们想知道这个统计量 $\bar x$ 的标准误差 $se(\hat \theta)=\frac{s_{标准差}}{\sqrt{n}}$ 。

但是我们只有一个样本 $X = (x_1, ..., x_n)$ 。于是我们使用Jackknife方法构造出新的n个样本 $X_{(1)},...,X_{(n)}$ ，我们可以查看统计量的标准误差 $se(\hat \theta)$ （是一个数）：

$\begin{aligned} se(\hat \theta) &= \frac{s_{标准差}}{\sqrt{n}} \\ &=\sqrt{\frac{D_{方差}}{n}}\\ &= \sqrt{\frac{\sigma^2}{n}} \end{aligned}$

我们使用统计量 $\hat {se}(\hat \theta)_{jack}$ 来估计 $se(\hat \theta)$ （一个数），这个统计量最好是无偏估计的。由于一般而言 $\hat {se}$ 都有根号，不方便算期望，于是我们用 $\hat {se}^2$ 来算。于是我们使用统计量 $\hat {se^2}(\hat \theta)_{jack}$ 来估计 $se^2(\hat \theta)$ （一个数）。其中：

$se^2(\hat \theta) = {\frac{\sigma^2}{n}}$

我们来基于下面式子 $(*)$ 来逐步构造 $\hat {se^2}(\hat \theta)_{jack}$ ：

$\sum_{i=1}^n (\hat \theta_{(i)} - \hat \theta_{(.)})^2 \tag{*}$

我们需要 $\hat {se^2}(\hat \theta)_{jack}$ 是 $se^2(\hat \theta)$ 的无偏估计，于是我们来计算上面那个式子 $(*)$ 的期望，如果期望不等于 $se^2(\hat \theta)$ ，我们只需要乘以一个系数即可将它调整为无偏估计。

$\begin{aligned} \hat \theta_{(i)} - \hat \theta_{(.)} &= \frac{1}{n-1}\sum_{j \neq i}^n x_j- \bar x \\ &= \frac{n\bar x - x_i}{n-1} - \bar x \\ &= \frac{\bar x - x_i}{n-1} \end{aligned}$

于是：

$\begin{aligned} E(\sum_{i=1}^n (\hat \theta_{(i)}- \hat \theta_{(.)})^2) &= E(\frac{1}{(n-1)^2} \sum_{i=1}^n (x_i - \bar x)^2) \\ &= \frac{1}{n-1}\sigma^2 \end{aligned}$

构造：
$\begin{aligned} \hat {se^2}(\hat \theta)_{jack} &= \frac{n-1}{n} \sum_{i=1}^n (\hat \theta_{(i)}- \hat \theta_{(.)})^2) \end{aligned}$

$\begin{aligned} E(\hat {se^2}(\hat \theta)_{jack}) &= \frac{\sigma^2}{n} \end{aligned}$

这样构造的 $\hat {se^2}(\hat \theta)_{jack}$ 就是 ${se^2}(\hat \theta)$ 的无偏估计。

所以我们使用 $\hat {se}^2(\hat \theta)_{jack}$ 来估计 ${se}^2$ ，即用 $\hat {se}(\hat \theta)_{jack}$ 来估计 ${se(\hat \theta)}$ ，这就是我们Jackknife对标准误差 $s e$ 的估计：

$\begin{aligned} \hat {se}_{jack} &= \sqrt{ \hat {se}(\hat \theta)_{jack} } \\ &= \sqrt{\frac{n-1}{n} \sum_{i=1}^n (\hat \theta_{(i)}- \hat \theta_{(.)})^2 } \end{aligned}$

注意

对统计量 $\hat \theta$ 的偏差的Jackknife估计是在 $\theta$ 为总体方差的情况下得出的，对统计量 $\hat \theta$ 的标准误差的Jackknife估计是在 $\theta$ 为总体期望的情况下得出的。那么在 $\theta$ 为其他的未知参数时有可能依这种方法构造出来的Jackknife（对偏差/对标准误差的）估计不是无偏估计，或者非常难以计算其究竟是不是无偏估计。
但是为什么我们还是这样使用 $\hat {bias}_{jack}$ 和 $\hat {se}_{jack}$ 呢？因为我们构造的方法至少要在最简单的情况下成立，如果最简单的情况下我们构造的统计量都不好，那在复杂的情况下肯定更不好了。

复盘

最后最重要的一点，Jackknife究竟是用来干什么的？我们再重新回溯一下之前所有的过程。

我们感兴趣的是总体的未知参数 $\theta$ ，由于它未知，我们需要用统计量 $\hat \theta$ 来估计它。
统计量 $\hat \theta$ 可能好可能不好，我们希望我们构造出来的统计量性能很好，那么我们就需要考察它的各种指标，这里我们选择的是统计量的偏差和标准误差。偏差为0说明统计量为未知参数的无偏估计，标准误差小说明用统计量估计未知参数比较精确。
由于偏差和标准误差也都是未知的数，因为我们需要构造相应的统计量来估计偏差和标准误差。

在特定的情况下，我们就是在这个地方需要Jackknife。因为我们无法重复获得大量的样本，我们现在只有一个样本，所以我们利用Jackknife的方法可以基于我们仅有的样本来构造“新”的样本。我们再基于新的样本来计算偏差的估计和标准误差的估计。

如果我们本身就可以获得大量的样本，那就不需要Jackknife的方法来构造样本了。我们直接通过大量的样本就可以计算偏差的估计和标准误差的估计了。

参考

关于标准误差的定义：https://www.tutorialspoint.com/statistics/standard_error.htm
wiki里面比较简略，没有推导过程
https://en.wikipedia.org/wiki/Jackknife_resampling#CITEREFEfron1982
但我参考了wiki中的参考文献
McIntosh, Avery I. “The Jackknife Estimation Method” (PDF). Boston University. Avery I. McIntosh. Retrieved 2016-04-30.: p. 3.
（上面这个pdf我放在下载资源中了）

数据库练习题 EmorZhong 我的MySQL 数据库 mysql 算法
MySQL练习https://github.com/EmorZz1G/DatabaseStudy在GitHub中查看更多题目理解有点离谱，多个题目更新查询平均成绩大于80的学生姓名。查询课程成绩大于课程平均成绩的选课信息，显示学生姓名、课程名称和成绩。查询至少选修了C1和C2课程的学生名单。查询选修了C1课程而没有选修C2课程的学生名单。统计每门课程成绩大于80分的学生数。统计计算机系“CS”学生
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
《R循环：深度解析与高效使用技巧》沐知全栈开发开发语言
《R循环：深度解析与高效使用技巧》引言R语言作为一种功能强大的统计计算和图形显示语言，被广泛应用于科研、数据分析、金融等领域。R循环是R语言中的核心概念之一，对于提高编程效率、处理复杂数据至关重要。本文将深度解析R循环，并介绍高效使用技巧，帮助读者更好地掌握R语言。一、R循环概述1.1什么是R循环R循环是指在R语言中，重复执行某个操作或代码段的过程。R循环包括for循环、while循环和repea
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
R语言科研编程-柱状图南瓜胖胖 R r语言开发语言
R语言简介R语言是一种开源的统计计算和图形绘制编程语言，广泛应用于数据分析、机器学习、数据可视化等领域。它由RossIhaka和RobertGentleman于1993年开发，具有丰富的统计函数库和图形功能，尤其适合数据科学研究和可视化任务。使用R语言绘制柱状图在R语言中，柱状图可以通过基础绘图函数或第三方包（如ggplot2）实现。以下是两种方法的示例：方法1：使用基础R函数barplot()基
Python-操作列表 Pltuens python python 开发语言
操作列表一、引言二、遍历整个列表1、对所有元素进行相同操作2、缩进3、在for循环结束后执行一些操作三、创建数值列表1、使用range()函数2、使用range()创建数值列表3、对数值列表执行简单的统计计算四、使用列表的一部分1、切片2、遍历切片3、复制列表五、元组1、定义元组2、遍历元组3、修改元组变量六、小结一、引言在上一节，我们学习了如何创建简单的列表，并学习了如何操作列表元素。在这一节，
企业做数据分析，R语言和Python怎么选择合适？虚谷23 大数据人工智能制造企业数智化经验分享
R语言和Python都是在数据科学领域广泛使用的编程语言，它们有以下区别：1.起源与设计初衷•R语言：最初由统计学家开发，专为统计分析和绘图设计。它围绕统计计算构建，在统计领域根基深厚，对统计理论和方法的实现非常直接和高效。•Python：是通用编程语言，设计目标是代码简洁、易读，应用场景广泛，数据科学只是其众多应用领域之一。凭借丰富的库和灵活的语法，在网络开发、人工智能、自动化脚本等领域都有出色
架构思维：高并发埋点场景下的实时数据处理架构设计小小工匠【架构思维】架构埋点
文章目录引言一、业务场景与核心需求1.1业务背景1.2数据结构特征1.3核心需求矩阵二、架构设计演进之路2.1初版架构的局限性技术选型对比分析2.2最终架构方案核心组件说明三、关键技术深度解析3.1数据可靠性保障3.2数据补全策略3.3实时统计计算四、性能优化实践4.1写入优化4.2计算层优化五、架构收益与未来演进5.1实施效果5.2未来演进方向结语引言在日活500万的业务场景下，用户行为埋点数据
零基础上手Python数据分析 (14)：DataFrame 数据分组与聚合 - 玩转数据透视，从明细到洞察 kakaZhui 30天入门python数据分析 python 数据分析数据挖掘
写在前面——像搭积木一样分析数据，掌握PandasGroupBy，轻松实现分组统计与聚合回顾一下，上篇博客我们学习了如何使用Pandas合并与连接多个DataFrame，将分散的数据整合到一起。现在，我们拥有了更完整、更丰富的数据视图。接下来，一个非常常见的分析需求就是对数据进行分组，并对每个分组进行统计计算或聚合分析，从而从更细致的维度挖掘数据价值。数据分组与聚合：从明细数据中提炼洞察想象一下，
Java-01-源码篇-JUC并发编程-原子类吐司呐 java SE 17 源码篇 java 开发语言
在J.U.C并发包之中，有一个原子包（java.util.concurrent.atomic）该包里面的类都天生拥有原子性质。其原子性质的表现在于多线程并发的环境下统计计算和赋值业务自带有锁功能，从而自带有原子性。该原子包（java.util.concurrent.atomic）下提供了一系列的原子类型（有基本数据类型的原子类，引用类型的原子类，数组类型的原子类，原子类型的属性修改器）java.u
【聚合函数、分组、排序笔记】三味神风笔记
1.聚合函数1.1用途：对数据集进行统计计算，返回单一汇总值。统计总数：COUNT(用户数)计算平均值：AVG(销售额)求和：SUM(订单金额)找极值：MAX(温度)、MIN(库存)示例：SELECTSUM(sales)AStotal_salesFROMorders;--计算总销售额1.2常用聚合函数函数作用示例COUNT统计行数（或非空值数）COUNT(*)统计所有行（含空值）SUM求和SUM(
Python---数据分析(Pandas十一:二维数组DataFrame统计计算二) 蹦蹦跳跳真可爱589 数据分析 Python pandas python 数据分析
1、std用于计算DataFrame中数值的标准差。DataFrame.std(axis=0,skipna=True,ddof=1,numeric_only=False,**kwargs)描述说明axis{0或‘index’,1或‘columns’,None},默认为0。这个参数决定了计算标准差是在哪个轴上进行：如果axis=0或axis='index'，则对每列进行计算，返回一个Series，其
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Seaborn 数据可视化指南：核心功能与实战技巧奋斗者1号信息可视化
Seaborn数据可视化指南：核心功能与实战技巧一、Seaborn核心功能1.高级统计图表接口自动统计计算：内置聚合、分布拟合、误差线计算等功能，无需手动处理数据。importseabornassnssns.histplot(data=df,x="age",hue="gender",kde=True)#自动分箱并拟合分布2.美观的默认主题提供darkgrid、whitegrid、dark、whit
R语言的移动应用开发滕若岚包罗万象 golang 开发语言后端
R语言的移动应用开发在数据科学和统计分析的大潮中，R语言因其强大的数据处理和可视化能力而备受青睐。然而，R语言对移动应用开发的适用性并未得到广泛关注。本文将探讨R语言在移动应用开发中的潜力及其工具，并提供一些实践示例，希望能为读者在这一新兴领域的探索提供帮助。一、R语言概述R语言是一种用于统计计算和图形绘制的编程语言，因其简洁的语法和丰富的包生态系统受到数据科学家的广泛使用。R语言的强大之处在于其
Python----数据分析（Pandas四：一维数组Series的统计计算，分组和聚合）蹦蹦跳跳真可爱589 数据分析 Python pandas python 数据分析
一、统计计算1.1、count用于计算Series中非NaN（非空）值的数量。importpandasaspds=pd.Series([1,2,None,4,None])count_non_na=s.count()print(count_non_na)1.2、sumsum()函数会计算所有值的总和。Series.sum(axis=None,skipna=True,numeric_only=None
Python3 【项目实战】深度解析：赛跑成绩统计分析工具李智 - 重庆 Python 精讲精练 -从入门到实战 python 案例学习编程技巧时间处理项目实战
Python3【项目实战】深度解析：赛跑成绩统计分析工具一、项目概述1.开发背景：田径比赛的成绩统计需要快速准确的计算选手成绩，传统人工计时和统计效率低且易出错。本工具通过程序化处理赛跑数据，自动计算各选手成绩及整体统计指标，主要应用于：学校运动会成绩实时统计田径锦标赛的自动化成绩公示运动员训练数据分析2.技术定位：时间数据处理与统计计算的典型案例字典数据结构的实践应用面向过程编程的教学范例二、项
【自学笔记】R语言基础知识点总览-持续更新 Long_poem 笔记 r语言开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录R语言基础知识点总览1.R语言简介2.R语言安装与环境配置3.R语言基础语法3.1数据类型3.2向量与矩阵3.3数据框与列表4.控制结构4.1条件语句4.2循环结构5.函数6.数据可视化总结R语言基础知识点总览1.R语言简介R是一种用于统计计算和图形的编程语言和软件环境。R语言由RossIhaka和RobertGentlema
JavaScript 内置对象-Math对象難釋懷 javascript 开发语言
在JavaScript中，Math对象提供了一系列与数学相关的静态方法和属性，帮助开发者执行复杂的计算任务。无论是简单的算术运算还是高级的几何、统计计算，Math对象都能提供强大的支持。本文将详细介绍Math对象的主要功能及其使用方法。一、简介不同于其他全局对象，Math不是一个构造函数，而是一个静态对象。这意味着我们不能通过new关键字创建Math的实例，所有的属性和方法都必须直接调用Math来
R 语言必备十大资源后端
引言R是进行统计计算和数据分析的热门编程语言之一，广泛应用于数据科学家、研究者和统计学家之间，用于处理大数据、执行复杂分析和结果可视化。如果你是R的新手或希望提升你的R技能，这里有一些核心资源可以助你一臂之力，无论是从基础学起还是提高现有水平，包括官方站点、知名学府和互动式学习平台。1.R项目官网(r-project.org)R项目的官方网站是开启R学习之旅的首选，它提供免费的R软件、文档、教程和
Python statistics 模块 ONE_PUNCH_Ge python
在数据分析和科学计算中，统计学是一个非常重要的工具。Python提供了一个内置的statistics模块，专门用于处理基本的统计计算。本文将详细介绍statistics模块的功能和使用方法，帮助初学者快速掌握如何使用这个模块进行基本的统计分析。statistics模块提供了许多常用的统计函数，如均值、中位数、方差、标准差等。要使用statistics函数必须先导入：importstatistics
ES-进阶-聚合 longasyan Elasticsearch elasticsearch
类似于DSL查询表达式，聚合也有可组合的语法：独立单元的功能可以被混合起来提供你需要的自定义行为。这意味着只需要学习很少的基本概念，就可以得到几乎无尽的组合。要掌握聚合，你只需要明白两个主要的概念：桶（Buckets）满足特定条件的文档的集合指标（Metrics）对桶内的文档进行统计计算这就是全部了！每个聚合都是一个或者多个桶和零个或者多个指标的组合。翻译成粗略的SQL语句来解释吧：桶在概念上类似
R语言环境下载和RStudio安装教程 CyberXZ r语言开发语言 R语言
R语言环境下载和RStudio安装教程R语言是一种广泛应用于统计计算和数据分析的编程语言。它提供了丰富的统计和图形功能，被广泛用于数据科学、机器学习和数据可视化等领域。本教程将向您介绍如何下载和安装R语言环境以及RStudio集成开发环境。步骤1：下载R语言环境首先，您需要下载R语言环境。请按照以下步骤进行操作：在您的Web浏览器中打开R官方网站（https://www.r-project.org
R语言的软件工程 BinaryBardC 包罗万象 golang 开发语言后端
R语言的软件工程1.引言随着数据科学的快速发展，R语言作为一种统计计算和图形绘制的编程语言，其在数据分析、可视化以及机器学习等领域的应用日益广泛。尽管R语言在数据处理上有其独特的优势，但要将其运用于大型项目和商业应用中，就需要遵循软件工程的原则。本篇文章将探讨R语言在软件工程中的应用，主要涵盖软件开发生命周期、代码规范、版本控制、测试和文档等方面。2.软件开发生命周期软件开发生命周期（SDLC）是
R语言的计算机基础 java熊猫包罗万象 golang 开发语言后端
R语言计算机基础引言R语言是一种用于数据分析、统计计算和图形显示的编程语言。它被广泛应用于统计学、数据科学、生态学、生物信息学等多个领域。由于其强大的功能和灵活性，R语言在学术界和工业界都得到了广泛的认可和应用。本文将从R语言的基本概念、数据类型、数据结构、函数、控制结构、图形绘制等方面进行介绍，帮助读者掌握R语言的基础知识。一、R语言的基本概念R语言源于新西兰的维特利大学，最初由RobertGe
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
Python-Matplotlib安装及简单使用 riyuexingchen0909 python python 图形
在使用NumPy进行学习统计计算时是枯燥的，大量的数据令我们很头疼，所以我们需要把它图形化显示。Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。Matplotlib的官网地址是http://matplotlib.org/，下载地址为http://matplotlib.org/downloads.html，选择对应的版本即可安装，我选择的版本为matplotlib-1.
明天开课 | R语言专题班（直播：2023.6.17~6.21）茗创科技
茗创科技专注于脑科学，涵盖（EEG/ERP，fMRI，结构像，DTI，ASL，FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑科学课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制
R语言简介，R语言开发环境搭建步骤，R基础语法以及注释详解黑夜照亮前行的路 r语言
R语言是一种用于统计计算与绘图的编程语言，由新西兰奥克兰大学的统计学家罗斯·伊哈卡和罗伯特·杰特曼于1993年发明。R语言是一种自由、免费、源代码开放的软件，属于GNU系统的一个分支，如今被广泛地应用于统计分析、数据挖掘等领域。R语言的特点包括：是一套完整的数据处理、计算和制图软件系统，具有数据存储和处理、数组运算、数学建模、统计检验以及统计制图等功能。提供了丰富的数学计算、统计计算的函数，用户可
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出