诡秘愚者

数理统计复习笔记一——统计中常用的抽样分布(卡方分布，t分布，F分布)

前言：

总结一下数理统计中的基本概念，一些用python的实现在这里。不断持续更新。

1. 几个基本概念
1.1 次序统计量
1.2 样本偏度与样本峰度
1.3 经验分布函数
1.4 抽样分布
2. 统计中的常用分布
2.1 卡方分布
2.2 t 分布
2.3 F分布
3. 指数型分布族（和广义线性模型有关）
4. 点估计
4.1 极大似然估计
5. 区间估计
5.1 几个基本概念
6. 假设检验——显著性检验
6.1 几个基本概念
6.2 求取某假设的显著性检验的步骤
6.3 似然比检验
6.4 p值

1. 几个基本概念：

1.1 次序统计量：

设 $X_1, X_2, \cdots , X_n$ 为样本，把 $X_1, X_2, …, X_n$ 由小到大排列成 $X_{(1)}\le\cdots\le X_{(n)}$ ，则称 $(X_{(1)}, \cdots, X_{(n)})$ 为次序统计量， $X_{(i)}$ 则成为第 $i$ 个次序统计量。

样本 $p$ 分位数：对于给定的 $\in (0, 1)$ ，我们称： $m_n,_p=X_{([np])}+(n+1)(p-\frac{[np]}{n+1})(X_{([np]+1)}-X_{([np])}) \tag1$ 为此样本的 $p$ 分位数. 特别的，样本中位数定义为： $X_{med} =\begin{cases}X_{(\frac{n+1}{2})}&n为奇数\\\\\frac{X_{(\frac{n}{2})}+X_{(\frac{n}{2}+1)}}{2}&n为偶数\end{cases}\tag2$
极值统计量：称 $X_{(1)}$ 和 $X_{(n)}$ 为极小值和极大值统计量.
极差： $R=X_{(n)}-X_{(1)}$

1.2 样本偏度与样本峰度：

样本偏度： $\frac{\sqrt{n}\sum\limits_{i=1}^n(X_i-\bar{X})^3}{[\sum\limits_{i=1}^n(X_i-\bar{X})^2]^{\frac{3}{2}}}$ ，可以用来度量随机变量概率分布的不对称性。大于0时，概率分布图右偏；小于0时，概率分布图左偏。
样本峰度： $\frac{n\sum\limits_{i=1}^n(X_i-\bar{X})^4}{[\sum\limits^n_{i=1}(X_i-\bar{X})^2]^2}-3$ ，用来度量随机变量概率分布的陡峭程度。峰度值越大，概率分布图越高尖，峰度值越小，越矮胖。
详见偏态分布学习笔记（期望，中位数，众数）

1.3 经验分布函数：

设 $X_1, \cdots, X_n$ 为取自总体的分布函数为 $F (x)$ 的样本， $X_{(1)}\le\cdots\le X_{(n)}$ 为其次序统计量，则称： $F_n(x)=\frac{1}{n}\sum\limits_{i=1}^nI_{\{X_i\lt x\}}=\begin{cases}0 &x\le X_{(1)}\\\frac{k}{n} &X_{(k)}\lt x\le X_{(k+1)}, k=1, \cdots , n-1\\1 &x\gt X_{(n)}\end{cases}\tag3$ 为样本 $X_1, \cdots, X_n$ 的经验分布函数。

1.4 抽样分布：

统计量是作为随机变量的样本的函数，故它也有概率分布，于是我们称统计量的概率分布为该统计量的抽样分布。

一个重要的抽样分布：设 $X_1, \cdots, X_n$ 为来自 $N(\mu, \sigma^2)$ 的 $I I D$ 样本，则由概率论的知识可知 $\bar{X}\sim N(\mu, \frac{\sigma^2}{n})$

2. 统计中的常用分布：

2.1 卡方分布：

设 $X_1, \cdots, X_n\sim N(0, 1)$ 且是独立同分布的，则称随机变量 $\xi =\sum\limits_{i=1}^nX_i^2\tag4$ 所服从的分布为自由度为 $n$ 的 $\chi^2$ 分布，也称 $\xi$ 为自由度为 $n$ 的 $\chi^2$ 随机变量，并记为 $\xi\sim\chi^2(n)$ .

$P D F$ ： $f(x)=\begin{cases}\frac{1}{2^{n/2}\Gamma(n/2)}e^{-\frac{x}{2}}x^{\frac{n}{2}-1}, &x\gt0\\0, &x\le0\end{cases}\tag5$ 其中 $n$ 为自由度。
图像：

1.随着 $n$ 的增大，它的对称性越来越好，峰度越来越小
2.随着 $n$ 的增大，其图形越来越像正态分布的概率密度函数
3.随着 $n$ 的增大，它的图形越来越向右移动，且尾部越来越大

期望： $E\xi=n$
方差： $\xi=2n$
独立可加性：设 $\xi\sim\chi^2(m), \eta\sim\chi^2(n)$ ，且 $\xi, \eta$ 相互独立，则 $\xi+\eta\sim\chi^2(m+n)$
★★ 很重要的一个定理：设 $X_1, \cdots, X_n\sim N(\mu, \sigma^2)$ 且是独立同分布的， $\bar{X}$ 和 $S_n^2$ 分别是样本均值和方差，则 $\bar{X}\sim N(\mu, \frac{\sigma^2}{n})\tag6$ $(n-1)S_n^2/\sigma^2\sim\chi^2(n-1)\tag7$ $\bar{X}与S_n^2独立\tag8$ 由 $(8)$ 可知，如果一组随机样本的均值与方差独立，那么总体分布必为正态分布。

证明：
令 $\bm A$ 为如下的正交矩阵： $\begin{bmatrix} \frac{1}{\sqrt n} & \frac{1}{\sqrt n} &\frac{1}{\sqrt n} &\frac{1}{\sqrt n} &\cdots &\frac{1}{\sqrt n} &\frac{1}{\sqrt n} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2} &0 & 0 & \cdots & 0 & 0\\ \frac{1}{\sqrt {2\times3}} & \frac{1}{\sqrt {2\times3}} &-\frac{2}{\sqrt {2\times3}} & 0 & \cdots & 0 & 0\\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ \frac{1}{\sqrt {(n-1)\times n}} & \frac{1}{\sqrt {(n-1)\times n}} &\frac{1}{\sqrt {(n-1)\times n}} &\frac{1}{\sqrt {(n-1)\times n}} & \cdots & \frac{1}{\sqrt {(n-1)\times n}} & -\frac{n-1}{\sqrt {(n-1)\times n}}\\ \end{bmatrix}$

做如下的正交变换： $\begin{bmatrix} Y_1\\ \vdots\\ Y_n \end{bmatrix}=A\begin{bmatrix} X_1\\ \vdots\\ X_n \end{bmatrix}$
则有： $Y_1=\frac{1}{\sqrt n}\sum_{i=1}^nX_i=\sqrt n\bar X$
$\sum_{i=1}^nY_i^2=\sum_{i=1}^nX_i^2=\sum_{i=1}^n(X_i-\bar X)^2+n\bar X^2$

所以 $(n-1)S_n^2=\sum_{i=1}^n(X_i-\bar X)^2=\sum_{i=1}^nY_i^2-n\bar X^2=\sum_{i=2}^nY_i^2$

而 $Y_i$ 是相互独立的正态随机变量，且 $EY_1=\sqrt n\mu, EY_k=0(k\ge2), Var Y_k=\sigma^2(k=1\cdots n)$

所以 $Y_1$ 与 $n-1)S_n^2$ 独立，即 $\bar X$ 与 $n-1)S_n^2$ 独立，且 $\bar{X}\sim N(\mu, \frac{\sigma^2}{n}), (n-1)S_n^2/\sigma^2\sim\chi^2(n-1)$

2.2 t 分布：

设 $\xi\sim N(0 ,1), \eta\sim\chi^2(n)$ ，且 $\xi, \eta$ 相互独立，则称随机变量 $T=\frac{\xi}{\sqrt{\eta/n}}\tag9$ 所服从的分布为 $t$ 分布， $n$ 为其自由度，且记为 $T\sim t(n)$ .

$P D F$ : $f(x)=\frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)}(1+x^2/n)^{-\frac{n+1}{2}}\tag{10}$
图像：

1. $t (n)$ 的PDF关于 $y$ 轴对称，且 $\lim\limits_{|x|\to\infty}f(x)=0$
2.随着 $n$ 的增大，其峰度越来越高，尾部越来越小
3.当 $n$ 很大时， $t$ 分布的PDF接近于标准正态分布的PDF
4.当 $n = 1$ 时，它是Cauchy分布，故此时期望不存在

期望：如果 $n\gt2$ ，则 $\xi=0$
方差： $Var\xi=\frac{n}{n-2}$
★★ 很重要的一个定理：设 $X_1, \cdots, X_n\sim N(\mu, \sigma^2)$ 且独立同分布， $\bar{X}, S_n^2$ 分别是样本均值与方差，则 $T=\frac{\sqrt{n}(\bar{X}-\mu)}{S_n}\sim t(n-1)\tag{11}$ 根据此定理，可用样本数据做 $t$ 检验。

2.3 F 分布：

设 $\xi, \mu$ 是自由度分别为 $m, n$ 的独立的 $\chi^2$ 随机变量，则称随机变量 $F=\frac{\xi/m}{\eta/n}\tag{12}$ 所服从的分布为 $F$ 分布，其自由度为 $(m, n)$ ，且记为 $F\sim F(m, n)$ .

1.设 $\xi\sim\chi^2(m), \eta\sim\chi^2(n)$ ，且 $\xi$ 与 $\eta$ 相互独立，则 $Y=\xi+\eta$ 与 $Z=\xi/\eta$ 相互独立
2.设随机变量 $X\sim F(m, n)$ ，则 $\frac{1}{X}\sim F(n, m)$

$P D F$ ： $n)=\begin{cases}0, &x\lt0 \\ \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)}(\frac{m}{n})(\frac{mx}{n})^{m/2-1}(1+\frac{mx}{n})^{-(m+n)/2}, &x\gt0\end{cases}\tag{13}$
图像：
期望： $E\xi=\frac{n}{n-2}, n\gt2$
方差： $Var\xi=\frac{n^2(2m+2n-4)}{m(n-2)^2(n-4)}, n\gt4$
★★ 很重要的一个定理：设 $X_1, \cdots, X_m\sim N(\mu_1, \sigma_1^2)$ 且独立同分布， $Y_1, \cdots, Y_n\sim N(\mu_2, \sigma_2^2)$ 且独立同分布，且两组样本独立，则 $F=\frac{S_{1m}^2/\sigma_1^2}{S_{2n}^2/\sigma_2^2}\sim F(m-1, n-1)\tag{14}$ 其中， $S_{1m}^2=\frac{1}{m-1}\sum\limits_{i=1}^{m}(X_i-\bar{X})^2$ ， $S_{2n}^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(Y_i-\bar{Y})^2$ ，特别的，如果 $\sigma_1=\sigma_2$ ，则 $F=\frac{S_{1m}^2}{S_{2n}^2}\sim F(m-1, n-1)$ .

综合 $2.2$ 和 $2.3$ ，可有如下定理：

设 $X_1, \cdots, X_m\sim N(\mu_1, \sigma^2)$ 且独立同分布， $Y_1, \cdots, Y_n\sim N(\mu_2, \sigma^2)$ 且独立同分布，且全样本独立，则 $T=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{(m-1)S^2_{1m}+(n-1)S^2_{2n}}}\sqrt{\frac{mn(m+n-2)}{m+n}}\sim t(m+n-2)$

证明：
由 $X_1, \cdots, X_m\sim N(\mu_1, \sigma^2)$ 且独立同分布， $Y_1, \cdots, Y_n\sim N(\mu_2, \sigma^2)$ 且独立同分布，且全样本独立可知， $\frac{(m-1)S_{1m}^2+(n-1)S_{2n}^2}{\sigma^2}\sim \chi^2(m+n-2)\tag{*}$
而 $\bar X\sim N(\mu_1, \frac{1}{m}\sigma^2)$ ， $\bar Y\sim N(\mu_2, \frac{1}{n}\sigma^2)$ ，所以 $\bar X-\mu_1\sim N(0, \frac{1}{m}\sigma^2)$ $\bar Y-\mu_2\sim N(0, \frac{1}{n}\sigma^2)$
所以 $(\bar X-\mu_1)-(\bar Y-\mu_2)=(\bar X-\bar Y)-(\mu_1-\mu_2)\sim N(0,\frac{1}{m}\sigma^2+\frac{1}{n}\sigma^2)$
所以 $\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}\sigma^2+\frac{1}{n}\sigma^2}}\sim N(0, 1)\tag{**}$
结合 $*$ 式和 $* *$ 式即可证明

3. 指数型分布族（和广义线性模型有关）

设 $\mathcal{F}=\{f(x,\theta):\theta \in \Theta\}$ 是某参数分布族，如果 $f(x,\theta)$ 可以表示成 $f(x,\theta)=c(\theta)exp(\sum\limits_{i=1}^{k}{c_i(\theta)T_{i}(x)})h(x)\tag{15}$ 则称此分布族为指数型分布族，其中 $k$ 为正整数， $c(\theta)\gt0, h(x)\gt0$ .

4. 点估计

4.1 极大似然估计：

似然函数： $L(\theta, x)=f(x, \theta)$ ，其中， $\theta)$ 是样本的函数， $L(\theta, x)$ 是参数的函数
对数似然函数： $l(\theta, x)$ 或 $l(\theta)=ln L(\theta, x)$
得分函数或似然方程： $\frac{\partial l(\theta, x)}{\partial \theta_j}=0, j=1,\cdots,k$ ，其中， $\theta\in\Theta\subseteq R^k$
似然估计的不变原则：如果 $g(\theta)$ 是1-1映射，且 $\hat{\theta}$ 是 $\theta$ 的极大似然估计，则 $g(\hat{\theta})$ 是 $g(\theta)$ 的极大似然估计

5. 区间估计

详见贝叶斯可信区间与置信区间

5.1 几个基本概念：

置信区间：设[ $\hat{\theta}_L(X), \hat{\theta}_U(X)$ ]是参数 $\theta$ 的一个区间估计，如果对给定的 $\alpha\in(0, 1)$ ，有 $P_{\theta}\{\hat{\theta}_L(X)\le\theta\le\hat{\theta}_U(X)\}\ge1-\alpha, \forall \theta\in\Theta\tag{16}$ 则称[ $\hat{\theta}_L(X), \hat{\theta}_U(X)$ ]为 $\theta$ 的置信水平为 $1-\alpha$ 的置信区间
置信下限： $p\{\hat{\theta}_L(X)\le\theta\}\ge1-\alpha\tag{17}$
置信上限： $p\{\hat{\theta}_U(X)\ge\theta\}\ge1-\alpha\tag{18}$

6. 假设检验——显著性检验

6.1 几个基本概念：

假设或统计假设：在统计中，我们需要根据样本去推断一个是否“正确”的命题，就称为一个假设或统计假设
检验：通过样本对一个假设做出“对”或“不对”的具体判断规则就称为该假设的一个检验
第一类错误（拒真）：当原假设 $H_0$ 成立，即 $\theta\in\Theta_0$ 时，样本却落入了拒绝域 $W$ ，此时，由样本我们采取了拒绝 $H_0$ 的错误决策，称这样的错误为第一类错误
第二类错误（纳伪）：当备择假设 $H_1$ 成立，即 $\theta\in\Theta_1$ 时，样本却落入了接受域 $\overline{W}$ ，此时，由样本我们采取了接受 $H_0$ 的错误决策，称这样的错误为第二类错误
显著性水平：对于检验 $\psi$ 和事先给定的 $\alpha\in(0,1)$ ，如果满足 $P_{\theta}\{X\in W\}\le \alpha, \forall\theta\in\Theta_0\tag{19}$ 则称 $\alpha$ 是检验 $\psi$ 的显著性水平或水平，也称 $\psi$ 为显著性水平 $\alpha$ 的检验

6.2 求取某假设的显著性检验的步骤：

根据实际问题，建立统计假设 $H_0\leftrightarrow H_1$ ；
选取一个合适的统计量 $T (X)$ ，使当 $H_0$ 成立时， $T$ 的分布已知，且与参数 $\theta$ 无关（称此分布为统计量 $T$ 的零分布）；
根据 $H_0$ 和 $H_1$ 的特点，确定拒绝域 $W$ 的区间形式；
对于给定的显著性水平 $\alpha$ ，确定拒绝域 $W$ ；
由样本观测值 $x$ ，计算统计量 $T (X)$ 的值 $T (x)$ ，由 $T (x)$ 是否属于 $W$ ，作出最终判断。

6.3 似然比检验：

似然比统计量：设 $X_1, \cdots, X_n$ 为来自分布族 $\mathcal F=\{f(x,\theta):\theta\in\Theta\}$ 的 $I I D$ 样本，对于感兴趣的假设 $H_0: \theta\in\Theta_0\leftrightarrow H_1:\theta\in\Theta_1=\Theta-\Theta_0$ ，令 $\lambda(X)=\frac{sup_{\theta\in\Theta_0}f(X, \theta)}{sup_{\theta\in\Theta}f(X, \theta)}\tag{20}$ 则称统计量 $\lambda(X)$ 为假设的似然比，有时也称广义似然比
似然比检验（LRT）：采用 $(20)$ 作为假设的检验统计量，且取其拒绝域为 $\{\lambda(x)\le c\}$ ，其中临界值 $c$ 满足 $P_{\theta}\{\lambda(X)\le c\}\le \alpha, \forall \theta \in \Theta_0 \tag{21}$ 则称此检验为显著性水平 $\alpha$ 的似然比检验

6.4 p值：

详见：假设检验中p值的理解

参考：《数理统计教程》，王兆军，邹长亮编著

【练习】PAT 乙 1061 判断题柠石榴 PAT 题解输入输出算法 c++
题目判断题的评判很简单，本题就要求你写个简单的程序帮助老师判题并统计学生们判断题的得分。输入格式：输入在第一行给出两个不超过100的正整数N和M，分别是学生人数和判断题数量。第二行给出M个不超过5的正整数，是每道题的满分值。第三行给出每道题对应的正确答案，0代表“非”，1代表“是”。随后N行，每行给出一个学生的解答。数字间均以空格分隔。输出格式：按照输入的顺序输出每个学生的得分，每个分数占一行。输
总体方差和样本方差然后就去远行吧疑难杂症
在统计描述中，方差用来计算每一个变量*（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式：σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2公式中σ2\sigma^2σ2为总体方差，XXX为变量，μ\muμ为总体均值，NNN为总体例数。在实
利用R语言irr包计算ICC值（组内相关系数） mlhylzqwxli r语言
ICC值是一个较为陌生的概念，在统计学中应用较多，引用百度百科的介绍：组内相关系数(ICC)是衡量和评价观察者间信度(inter-observerreliability)和复测信度(test-retestreliability)的信度系数(reliabilitycoefficient)指标之一。它最先由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度，故其值介
第0节机器学习与深度学习介绍汉堡go 李哥深度学习专栏人工智能机器学习神经网络
人工智能：能够感知、推理、行动和适应的程序机器学习：能够随着数据量的增加而不断改进性能的算法（数学上的可解释性但准确率不是百分百，灵活度不高）深度学习：机器学习的一个子集：利用多层神经网络从大量数据中进行学习（设计一个很深的网络架构让机器自己学）（深度学习就是找一个函数f）机器学习算法简介（狭义）一般是基于数学，或者统计学的方法，具有很强的可解释性经典传统机器学习算法：KNN、决策树、朴素贝叶斯一
016.3月夏令营：数理类力学AI有限元保研
016.3月夏令营：数理类：中国人民大学统计学院：http://www.eeban.com/forum.php?mod=viewthread&tid=386109北京大学化学学院第一轮：http://www.eeban.com/forum.php?m...6026&extra=page%3D1香港大学化学系夏令营：http://www.eeban.com/forum.php?mod=viewthr
多独立样本秩检验：Kruskal-Wallis检验木子算法非参数统计非参数检验概率论统计
多独立样本秩检验：Kruskal-Wallis检验的理论与实践一、引言在统计学中，当数据不满足正态分布或方差齐性假设时，传统的参数检验（如方差分析ANOVA）可能失效。此时，非参数检验方法（如秩检验）成为更可靠的选择。本文将详细介绍多独立样本秩检验的核心方法——Kruskal-Wallis检验，包括其理论基础、公式推导、案例分析及Python实现。二、理论基础1.问题定义假设我们有kkk个独立样本
r语言手动算两个C指数p值,如何用R语言进行Pvalue显著性标记？蒲牢森 r语言手动算两个C指数p值
作者：一只想飞的喵审稿：童蒙编辑：angelica箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值，且添加显著性标记。通常情况根据显著性p值的数值大小，分为四类：(1)0.01≤p<0.05，*(2)0.001≤p<0.01，**(3)0.0001≤p<0.001，***(4)p<0.0001,****接下来会讲述三种添加显著性标记的方法。方法1-手动添加1：创建数据
R语言广义加型模型（GAM）的运用例子及实现教程 Mrrunsen R语言大学作业 r语言开发语言
文章目录步骤1：加载所需包和数据步骤2：数据预处理步骤3：拟合广义加型模型步骤4：查看模型摘要和诊断模型摘要系数估计平滑项模型质量步骤5：预测和可视化结论广义加型模型（GeneralizedAdditiveModel，简称GAM）是一种灵活的非线性建模方法，在统计学和机器学习领域被广泛应用。GAM可以用于拟合非线性关系，适用于多个预测变量之间的复杂关系，并且可以处理连续和分类变量。本教程将向您展示
python 统计库_《统计学习方法》 Python 库 weixin_39756540 python 统计库
新建GitHub仓库仓库名为slmethod,统计学习方法(StatisticalLearningMethod)的简写Public公开仓库勾选InitializethisrepositorywithaREADME.gitignore选择Python添加MITLicensenew下载代码到本地，使用ssh协议。gitclonegit@github.com:iOSDevLog/slmethod.git
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
An Introduction to Statistical Learning with Applicatio AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1定义统计学习（statisticallearning）是一门研究如何从数据中提取知识并应用于预测、决策或其他目的的一门学科。它是机器学习、数据挖掘、计算机视觉等领域的一个分支，是当前热门的AI方向。1.2特点数据驱动：统计学习倾向于采用结构化的数据——如表格或矩阵形式——作为输入；假设空间少：统计学习通常只考虑一种假设空间，即概率模型或概率分布；模型复杂性
规控算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
规控算法工程师技术图谱与学习路径规控算法工程师（规划与控制算法工程师）是自动驾驶领域的核心岗位之一，涉及路径规划、行为决策、运动控制等多个技术模块。以下为技术图谱与学习路径的整合，结合行业需求和技术发展趋势。一、技术图谱核心模块数学基础线性代数：矩阵运算、向量空间、特征值分解（用于控制系统建模与优化）。微积分：梯度下降、泰勒展开、动态系统建模（支持控制算法推导）。概率论与统计学：贝叶斯理论、马尔可
图像算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
01.图像算法图像算法工程师的技术图谱和学习路径涵盖了多个技术领域，从基础知识到高级算法，涉及计算机视觉、深度学习、图像处理、数学和编程等多个方面。以下是图像算法工程师的技术图谱和学习路径的详细总结。1.基础数学与编程数学基础：线性代数：矩阵运算、特征值、特征向量、奇异值分解（SVD）等概率论与统计：概率分布、贝叶斯定理、最大似然估计（MLE）、假设检验等微积分：导数、梯度、最优化方法（梯度下降、
推荐算法工程师的技术图谱和学习路径执于代码开发者职业加速服务推荐算法学习算法
推荐算法工程师的技术图谱和学习路径可以从多个维度进行概述，可以总结如下：一、技术图谱推荐算法工程师需要掌握的技术栈主要分为以下几个方面：数学基础：微积分、线性代数、概率论与统计学是推荐算法的基础，用于理解模型的数学原理和优化算法。高等数学、最优化理论、几何和图论等知识对于复杂模型的设计和优化至关重要。编程与数据结构：熟练掌握Python、Java等编程语言，具备良好的编程习惯和代码优化能力。掌握数
聚类分析tensorflow实例_新手必看的机器学习算法集锦（聚类篇）道酝欣赏
继上一篇《机器学习算法之分类》中大致梳理了一遍在机器学习中常用的分类算法，类似的，这一姊妹篇中将会梳理一遍机器学习中的聚类算法，最后也会拓展一些其他无监督学习的方法供了解学习。1.机器学习机器学习是近20多年兴起的一门多领域交叉学科，它涉及到概率论、统计学、计算机科学以及软件工程等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类能从数据中自动分析获得规律
数据挖掘与数据分析的区别是什么中琛源科技
数据挖掘与数据分析两者紧密相连，具有循环递归的关系，数据分析结果需要进一步进行数据挖掘才能指导决策，而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。从分析的目的来看，数据分析一般是对历史数据进行统计学上的一些分析，数据挖掘更侧重于机器对未来的预测，一般应用于分类、聚类、推荐、关联规则等。从分析的过程来看，数据分析更侧重于统计学上面的一些方法，经过人的推理演译得到结论；数据挖掘更侧
线性秩检验木子算法非参数统计数学建模概率论
线性秩检验一、引言在统计学的广袤领域中，参数检验通常基于数据服从特定分布（如正态分布）的假设。然而，在实际场景里，数据往往并不满足这些严格假设，此时非参数检验方法便展现出独特优势。线性秩检验作为一种强大的非参数检验手段，能够在不依赖数据分布的前提下，对数据进行深入分析，探寻其中隐藏的规律与差异。本文将全方位深入剖析线性秩检验，涵盖其原理、公式推导以及实际案例应用，助力读者全面掌握这一重要的统计方法
【量化金融自学笔记】--开篇.基本术语及学习路径建议花花 Show Python 量化金融自学笔记金融笔记学习
在当今这个信息爆炸的时代，金融领域正经历着一场前所未有的变革。传统的金融分析方法逐渐被更加科学、精准的量化技术所取代。量化金融，这个曾经高不可攀的领域，如今正逐渐走进大众的视野。它将数学、统计学、计算机科学与金融学深度融合，为我们提供了一种全新的视角去理解和探索金融市场的奥秘。作为一名对量化金融充满热情的自学者，我深知在这个领域中，每一步都充满了挑战与机遇。从最初对复杂数学公式的困惑，到逐渐掌握编
【机器学习】平均绝对误差（MAE：Mean Absolute Error） IT古董机器学习人工智能机器学习人工智能 python
平均绝对误差(MeanAbsoluteError,MAE)是一种衡量预测值与实际值之间平均差异的统计指标。它在机器学习、统计学等领域中广泛应用，用于评估模型的预测精度。与均方误差(MSE)或均方误差根(RMSE)不同，MAE使用误差的绝对值，因此它在处理异常值时更加稳定。1.MAE的定义和公式给定预测值和真实值，MAE的公式为：其中：n是样本总数。是模型的预测值。是对应的真实值。MAE表示了预测值
概率论——5 事件的独立性黑曼巴、。；概率论
文章目录事件独立性描述性定义数学定义相关定理多事件独立性事件独立性描述性定义设A,BA,BA,B为两个事件，如果其中任何一个事件发生的概率不受另一个事件发生与否的影响，则称事件AAA与BBB相互独立。数学定义数学定义其实可以由条件概率推导得到，当事件AAA与BBB独立时，BBB在AAA的条件下发生的概率应该等于P(B)P(B)P(B)，反之亦然，则可以得到下面的等式：P(B∣A)=P(AB)P(A
【概率论】多维随机变量及其分布 return bool(1) 概率论概率论学习
文章目录二维随机变量一、二维随机变量的定义二、分布函数的定义三、分布函数的性质1.单调不减2.规范性3.右连续4.非负性四、二维离散型随机变量1.定义2.性质3.联合分布律五、二维连续性随机变量1.定义2.性质3.求法边缘分布一、定义1.边缘分布函数2.边缘分布律3.边缘概率密度条件分布一、条件分布律的定义二、条件概率密度的定义三、两种重要的二维连续性随机变量1.均匀分布2.二维正态分布四、随机变
AI探索笔记：线性回归安意诚Matrix 机器学习笔记人工智能笔记线性回归
前言写这篇博客，主要是自己来练练手。网络上教程已经是数不胜数，也都讲得非常清楚了。但自己不动手，知识和能力还是别人的。下面分别用传统方法（sklearn）和神经网络（pytorch）来解决线性回归问题。内容什么是线性回归线性回归（LinearRegression）是统计学和机器学习中最基础且广泛使用的预测模型，用于建立**自变量（输入特征）与因变量（输出目标）**之间的线性关系模型。其核心思想是通
PCA主成分分析降维算法及其可视化（附完整版代码） Jason_Orton 算法机器学习数据挖掘人工智能 matlab
一.PCA的介绍PCA（PrincipalComponentAnalysis）是一种数据降维技术，旨在将多维指标转换为少数几个综合指标。在统计学中，PCA是简化数据集的一种方法，通过线性变换将数据映射到新的坐标系中。在新的坐标系中，第一主成分捕获数据投影的最大方差，第二主成分捕获第二大方差，依此类推。主成分分析常用于减少数据集的维度，同时保留对方差贡献最大的特征。这是通过保留低阶主成分、忽略高阶主
JS宏进阶：浅谈曲线回归 jackispy JS宏进阶回归数据挖掘人工智能 javascript
曲线回归是一种统计学方法，用于研究两个或多个变量之间的非线性关系，并找到最能拟合数据点的曲线函数形式。与线性回归不同，曲线回归适用于描述那些不是直线性的变量关系。通过曲线回归，可以建立变量之间的非线性数学模型，用于预测和解释各种实际现象。一、基本概念定义：曲线回归是指对于非线性关系的变量进行回归分析的方法。曲线回归方程一般是以自变量的多项式或其他非线性函数形式表达因变量。目的：曲线回归的主要目的是
《李航统计学习方法》学习笔记——第五章决策树 eveiiii 统计学习决策树算法剪枝 python 机器学习
决策树5.1决策树模型与学习5.2特征选择5.2.1信息增益5.2.2信息增益比python代码实现例题：信息增益与信息增益比5.3决策树的生成5.3.1ID3算法（python实现）5.3.2C4.5生成算法（python实现）5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝习题5.1(python实现）习题5.2(python实现）习题5.3习题5.4参考5.1
《李航统计学习方法》学习笔记——第八章提升方法 eveiiii 统计学习 python 机器学习人工智能算法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子（代码实现）8.2AdaBoost算法的训练误差分析定理8.1AdaBoost训练误差界定理8.2二分类问题AdaBoost训练误差界8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提
深入理解SAP HANA Cloud Vector Engine与自查询 VYSAHF java
学习目标：提示：这里可以添加学习目标例如：一周掌握Java入门知识学习内容：提示：这里可以添加要学的内容例如：搭建Java开发环境掌握Java基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上7点—晚上9点周六上午9点-上午11点周日下午3点-下午6点学习产出：提示：这里统计学习计划的总量例如：技术笔记2遍CSDN技术博客3篇习的vlog视频1个
数据挖掘中特征发现与特征提取的数学原理调皮的芋头数据挖掘人工智能 AIGC 计算机视觉
好的，我将深入研究数据挖掘中特征发现与特征提取的数学原理，涵盖统计学基础、特征工程的数学方法、以及在机器学习和深度学习中的应用。我会整理相关数学公式和理论，包括主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）、信息增益、互信息、方差分析等统计方法，并结合金融量化交易的实际应用，确保内容既有理论深度，又能落地实践。完成后，我会通知您！1.统计学基础：描述性统计、方差分析、相关性与
大模型学习路线与资源推荐数字化转型2025 AI投资人工智能
以下是基于多篇参考资料整理的大模型学习路线，涵盖从基础到进阶的完整学习路径，帮助您系统掌握大模型核心技术并应用于实际场景：一、基础阶段：构建核心知识体系编程与数学基础编程语言：优先学习Python，掌握其语法、数据结构及常用库（如NumPy、Pandas、PyTorch）37。数学基础：线性代数、概率论与统计学、微积分是理解模型原理的基石，需重点掌握矩阵运算、概率分布等概念39。深度学习入门神经网
统计学基础知识点刷题（task2） sm376624607 统计学
参考视频：可汗学院《统计学》参考书籍：《深入浅出统计学》文章目录概念1:中心极限定理概念2:置信区间概念3:伯努利分布概念4:误差范围概念5:小样本容量置信区间概念1:中心极限定理核心内容：随着抽样次数趋于∞\infty∞,样本均值的抽样分布趋近于正态分布，且该正态分布的均值为总体均值。X‾服从N(μ,σ/n)\overline{X}服从N(\mu,\sigma/\sqrt{n})X服从N(μ,σ
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key