南越鸽子

学会了工资加5K！运营必学！鸽子学ABTest

文章目录

企业ABTest全流程
- 1 认识ABTest
- - 1.1 优点及缺点
  - 1.2 企业ABTest业务流程
  - 1.3 实际中遇到的问题
- 2 假设检验
- - 2.1 假设检验逻辑
  - - 2.1.1 普通事件逻辑
    - 2.1.2 假设检验逻辑
  - 2.2 假设检验步骤
  - - 2.2.1 一对完全对立的假设
    - 2.2.2 小概率发生的极端事件
    - 2.2.3 给小概率事件一个阈值
    - 2.3.4 计算A成立时的分布和样本统计量分布
    - 2.3.5 计算更极端事件的发生概率P值
    - 2.3.6.对比P值和显著性水平的大小
    - 2.3.7 总结
    - 2.3.8 补充资料
- 3 ABTest流程实例
- - 3.1 实验设计
  - - 3.1.1 确定业务目标
    - 3.1.2 选择检验指标
    - 3.1.3 确定统计量
    - 3.1.4 确定原假设与备择假设
    - 3.1.5 样本量计算
    - 3.1.6 检验策略、分组策略选择
  - 3.2 实验结论分析
  - - 3.2.1 统计检验结果
    - 3.2.2 业务决策
    - 3.2.3 AB测试的条件的时候，如何解决问题
- 4 总结与拓展
- - 4.1 如何做一个好的ABTest
  - 4.2 关于ABTest的思考
- 4 总结与拓展
- - 4.1 如何做一个好的ABTest
  - 4.2 关于ABTest的思考

本文会涉及较多的统计学知识，如果已经遗忘统计学基础的同学，可以去看我之前写的文章复习一下鸽子学统计。

正如之前的文章所说：如果微积分是研究变量的数学，那么概率论与数理统计是研究随机变量的数学。

研究一个随机变量，不只是要看它能取哪些值，更重要的是它取各种值的概率如何！！！

这句就是本文的核心内容，这篇文章里的所有概念都在是描述一件东西，那就是概率！概率！概率！

企业ABTest全流程

1 认识ABTest

1.1 优点及缺点

优点：
1. 风险控制： 降低开发成本及用户流失风险。
2. 科学择优： 用严密的计算逻辑替领导层减少决策成本。
缺点：
1. 细小改变与重大改版的博弈： 只能做到局部最优，无法做到全局最优。
2. 数据驱动与业务灵感的平衡： 数据驱动无法让业务方获得业务灵感，业务灵感需要跳出数据的框架去获得，数据分析师要注意日常工作中有时需跳出数据的桎梏去贴近业务。

1.2 企业ABTest业务流程

1.3 实际中遇到的问题

超多指标之间的选择：

DAU、新用户量、曝光量、点击量、CTR、用户停留时长、留存、用户转化率、GMV、ROI/ROAS
过程中会遇到超多问题：

实验方案怎么定？该验哪个指标？数据从哪来？数据准不准？原假设与备择假设是否贴合业务目标？控制变量设置对不对？抽样具不具有代表性？样本数量够不够？灰度发布有没有起效？

2 假设检验

2.1 假设检验逻辑

2.1.1 普通事件逻辑

If A then NOT B ;

则逆反命题为：B then NOT A ;

例如：

如果我有钱（A），我就不会（NOT）买安卓手机（B）；

如果我有钱（A），我就不会（NOT）买十万以下的汽车（B）；

如果我有钱（A），我就不会（NOT）继续打工（B）；

则如果先决条件成立，则逆反命题也同样成立：

如果我买安卓手机（B），则我没钱（NOT A）；

如果我买十万以下的汽车（B），则我没钱（NOT A）；

如果我继续打工（B），则我没钱（NOT A）；

但是如果前面3个先决条件的把握度不高的话，会严重影响我们对B出现后NOT A的推断，导致NOT A无法绝对成立。

2.1.2 假设检验逻辑

由于普通事件无法确定把握度，后面就可以引入我们假设检验的思想：

If A then probably (β) NOT B ;

这个时候，如果我们知道同条件下的各β，我们就能判断各先决条件的可信度。

同理，也有逆反命题：

B then probably(β) NOT A ;

例如：

如果我有钱（A），我就大概率（β）不会（NOT）买安卓手机（B）；

如果我有钱（A），我就大概率（β）不会（NOT）买十万以下的汽车（B）；

如果我有钱（A），我就大概率（β）不会（NOT）继续打工（B）；

则如果先决条件成立，则逆反命题也同样成立：

如果我买安卓手机（B），则我大概率（β）没钱（NOT A）；

如果我买十万以下的汽车（B），则我大概率（β）没钱（NOT A）；

如果我继续打工（B），则我大概率（β）没钱（NOT A）；

到这里，我们就能推导出假设检验的基本逻辑：

当你想证明一个事件A 不成立的时候，你可以先找到一件当事件A成立时很大概率不会发生的事件B ；
当你发现事件B发生的时候，你就有很大把握证明事件A不成立。

所以我们只需要证明“事件A成立时很大概率不会发生事件B”，我们就能让以上的逻辑成立

2.2 假设检验步骤

让我们用一组最简单的硬币实验来说明这个流程：

假设我们是一家游戏机中心，我们有一款投币游戏机，如果投进去的硬币足够均匀，那么投的玩家就特别不容易赢。所以我们对硬币生产厂的生产的硬币要求很高。

为了检验硬币是否是均匀的，我们甚至研发了一款投硬币机，可以同时快速地投100枚硬币，并记录投币结果，然后依据一组投递结果，筛选出合格的硬币。但是现在离研发成功还差最后一步，就是给机器设定硬币合格的阈值：

出现什么情况我们会判断硬币是不均匀的？

2.2.1 一对完全对立的假设

在假设检验的基本逻辑中，我们把想证明的结论写成备择假设，把想拒绝的结论写成原假设。

在我们的假设检验逻辑中，A成立一般会被我们选为原假设H0；而A不成立，一般会被我们选择为备择假设H1（国外一般使用Ha)。

H0: A事件成立 A

H1: A事件不成立 NOT A

我们主要做的事情：是通过证明B在A条件的前提下是一个小概率事件，只要出现了事件B，就能证明事件A不成立，选择拒绝原假设。

那我们抛硬币实验的假设就可以设置为如下：

H0：硬币是均匀的（A）

H1：硬币是不均匀的（NOT A）

2.2.2 小概率发生的极端事件

比如我们找了几个负责研发投硬币机的同事，让他们给出当硬币是均匀的时候基本不会发生的极端事件：

B1:投100次硬币有90次都是正面

B2:投100次硬币有54次都是正面

B3:投100次硬币有60次都是正面

B4:投100次硬币有58次都是正面

B5:投100次硬币有63次都是正面

2.2.3 给小概率事件一个阈值

这个阈值即平常所说的显著性水平，一般我们设置为0.05（5%），也可以根据具体业务情况设置。

显著性水平代表大概率出错的概率，亦或者说是小概率事件发生的概率。例如我觉得明天大概率（95%）会下雨，则代表了明天大概率会下雨这个事件有5%的可能出错，或者说明天不会下雨这个事件有5%的概率发生。

犯一类错误的后果越严重，那么显著性水平就需要越低。

假设检验的结论与实际情况：

实际情况	H0为真	H0为假
拒绝H0	一类错误α（拒真）	正确
不拒绝H0	正确	二类错误β（存伪）

α+β不一定等于1。
在样本容量确定的情况下，α与β不能同时增加或减少。
统计检验效力（1-β）：当H0为假时，得出拒绝H0的正确结论的概率，被称做检验的效力

I类错误防范：
- 小概率α设置小些（避免小概率的触发）；
- 增加样本量（使异常数据的影响降低）。
II类错误防范：
- 调大α（增加小概率的触发）但是接受I类错误的代价远比II类错误的代价要大，所以不予使用；
- II类错误概率只能在实验结束后才能计算发生二类错误的概率，这是一个事后值。所以在事前
  设计我们一般不考虑这个问题。默认二类错误的概率为20%。

2.3.4 计算A成立时的分布和样本统计量分布

比如我们的投硬币实验，假设我们的硬币是均匀的，那我们的总体分布就符合p=0.5的二项分布。

知道总体分布后，我们还需要知道样本符合什么分布。

假设我们做一组10次投币的实验，这时候我们会出现多少种可能的结果？

我们用无顺序的组合数公式可以算出来：
$C^k_{n+k-1}=C^{10}_{11}$
（n：每次试验可能出现的结果 k：每组试验重复多少次）

而每种结果，对应的就是我们的样本，每个样本出现概率的分布，就是样本分布。

我们可以用EXCEL来计算样本分布情况：

EXCEL二项式样本分布概率计算公式=BINOM.DIST(各个样本结果,一组实验的次数,其中一项的概率,FALSE(概率密度函数))

上述的分布就是事件A（硬币的质量是均匀的） 成立时的样本分布。

对于二项分布的样本分布，我们一般描述为：
$X\sim B(n,p)$
其中n为重复次数，p为出现其中一项的概率。在上例中，可以表示为
$X\sim B(10,0.5)$
对于二项分布：

均值为：

$E(x)=\pi$
其中π为实验其中一项的概率，在上例中π=0.5

方差为：
$D(x)=\pi(1-\pi)$

那回到开始的例子，实验做k次，每次实验投硬币100次，我们直接带入n和p到EXCEL中用原来的算式来计算概率分布。

这时，我们的总体期望为：π = 0.5；总体方差为：π (1 - π) = 0.25

除EXCEL外，我们也可以利用中心极限定理来求样本分布概率：从均值为μ、方差为σ²的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值xbar的抽样分布近似服从均值为μ、方差为σ²/n的正态分布。
$\bar{x}\sim N(\mu,\sigma^2/n)$
这时候，我们的样本比例p的分布同样可以适用于中心极限定理，其样本比例的期望π可以直接套用其公式中的均值μ，套用公式可得：
$p\sim N(\pi,\pi(1-\pi)/n) =N(0.5,0.0025)$

2.3.5 计算更极端事件的发生概率P值

比“投100次硬币有90次都是正面”（B1事件） 更极端的事件有什么？

比如“91 次正面，9 次反面”、“91 次反面，9 次正面”……

转化为比例则为：“正面比例为0.91”，“正面比例为0.09”……

极端事件的概率P值就是比所得到的样本观察结果**（B1事件，即90次正面）** 更极端的结果出现的概率。由于计算公式复杂，我们一般用EXCEL计算：
$=1-NORM.DIST(B发生的概率,样本的期望比例\pi,样本比例的标准差\sqrt{\pi(1-\pi)/n}),是否是累计概率(1))$
本例中，我们使用Excel函数（由于正面和反面90次都是同一极端事件，是双尾，所以要乘2得到极端事件的概率P值）：

P值=(1-NORM.DIST(0.9,0.5,0.05,1))✖2

求得P值为0（实际应为1.2442E-15，但是这个数据过小，Excel计算不出来）。

2.3.6.对比P值和显著性水平的大小

由于上面求出的P值小于显著水平α，这时我们可以说B1事件是极小概率事件。

这时我们就能利用之前的逻辑：B then probably NOT A

所以当B1事件出现时，我们有足够的理由拒绝原假设，接受备择假设。之后我们将B2~B5的情况都计算一遍：

从上表中，我们可以发现，当正面占比为0.6的时候，即“投100次硬币60次都是正面”的时候，P值刚好小于显著性水平，所以我们一般选取60次正面为本例中判断硬币是否均匀的小概率事件，当我们投100次硬币时，观测到样本发生大于60次正面（或者反面），我们就可以拒绝硬币是均匀的假设，即硬币不均匀。

但是在日常工作中，用上面的列表计算起来有些麻烦，所以有的时候，我们直接使用显著性水平计算一个统计量的阈值。

使用Excel的函数NORM.INV()，可以快速求出显著性水平所对应的阈值：
$NORM.INV(阈值对应位置,样本比例的期望\pi,样本比例的标准差\sqrt{\pi(1-\pi)/n}))$

$其中,阈值对应位置:\begin{cases} \alpha/2\qquad 双侧检验左侧拒绝域\\ 1-\alpha/2\ 双侧检验右侧拒绝域\\ \alpha\ \ \ \ \qquad 单侧检验左侧拒绝域\\ 1-\alpha\ \ \ \ \ 单侧检验右侧拒绝域\\ \end{cases}$

2.3.7 总结

根据上面例子的步骤计算后，这时我们会发现，假设检验逻辑与原来的逻辑相比，变化为：

（变化已标红）

2.3.8 补充资料

如何判断一个样本统计量符合什么分布：

统计分布（Z分布，T分布，卡方分布）：

T分布与标准正态分布（Z分布）都是以0为对称的分布，T分布的方差大所以分布形态更扁平些
卡方分布是大于0的右偏分布，随着自由度的增加会趋近于正态分布（注意不是标准正态分布）

多个总体：

不同分布的拒绝域：

卡方分布在左侧的拒绝域特别小，所以拒绝的区间的值也比较少，所以卡方检验的拒绝域一般放在右侧，F分布同理。
概率中的PDF\PMF\CDF\PPF\ISF函数：本文内容中出现的所有公式均是基于中心极限定理和正态分布曲线来计算各种概率及标准差等，下面是各种概率函数的解释，看完基本能理解本文公式本后的逻辑。
- pdf：probability density function，概率密度函数，意思是某个连续变量在某个区间内（x轴的区间）的概率密度（x轴的区间对应的y轴曲线面积）有多大；
- pmf：probability mass function，概率质量函数，意思是某个离散变量在某个值（x轴的值）对应的概率（y轴的值）有多大；
- CDF：cumulative distribution function，累积分布函数，表示所有<=x 的值（x轴的值左侧）出现的概率之和（x轴的值左侧对应的y轴曲线面积）；（意思就是已知随机变量的值求<=x 值出现的概率和）
- PPF：Percent Point Function，是CDF的逆函数，意思是某分布出现的概率之和（x轴）对应的值为<=y的值（y轴），这个函数的x轴是概率（CDF的Y轴值），y轴是概率之和为x时随机变量的值（CDF的X轴值），作用是找到正态分布中累计分布函数为y时对应x轴的随机变量值；（意思就是已知<=x 值出现的概率和求随机变量的值）
- ISF函数：等于1 - PDF函数，意思是某分布出现的概率之和（x轴）对应的值为＞=y的值（y轴），用于求某个分布上的α分位点。
- SF函数：等于1 - CDF函数，意思是所有＞x 的值出现的概率之和，用于验证假设检验事件出现的概率。

3 ABTest流程实例

3.1 实验设计

让我们用一个电商中常见的ABTest来说明这个流程：

某电商平台发现，中小店铺面临的流量问题，形成了大店铺流量越来越多，中小店铺流量越来越少的局面。现在需要数据分析师研究一个策略来改变这种业务现状。

经过一番讨论，我们初步决定，在用户支付完成页面的推荐商品页中，固定设置中小店铺展示位置，来增加中小店铺的展示流量。

现在我们需要设计一个AB实验，来对比不同地固定展示位数量，哪个对业务目标地提升最大。

3.1.1 确定业务目标

如何确定业务目标：

明确我们要提升的业务指标（如果明确这个部分，实验会变得精简、目标明确）；
明确我们要改进的产品/策略。

在本例中，我们确定的业务目标为：
在下单推荐页设置固定中小店铺展示位置，通过对比3个固定展示位、6个、9个的区别，探究最优展示位个数。

3.1.2 选择检验指标

我们一般选择一个一类指标和一个二类指标（也可以选择多个），来对比不同实验条件的优劣：

一类指标：不能容忍变差的指标；
二类指标：业务目标需要提升的指标。
如何确定一类指标：从业务出发，去寻找最无法忍受变差的指标，如下图所示

如何确定二类指标：筛选第二类指标时，我们一般从用户路径出发去梳理

确定试验目标后，我们会从该试验所改变的用户路径点出发，从变动点后面的路径中选择我们所需的二类指标。第一类则前后都可以选，如下面的电商用户路径图所示：

业务场景举例：

在本例中，我们的目标是提升中小店铺在下单推荐页的下单量，那么应该提升多少呢？

这时候我们应该使用科学的方法来计算提升量，不然实验的可信度会大大降低，因为老板并不知道应该提升多少才是好的。

根据正态分布的性质，1个标准差内包含68.2%的数据，2个标准差内是95.5%的数据，3个内是99.7%的数据；数据在3个标准差内波动为正常现象。为观测到显著的提升，所以我们一般设置提升量为实验前的两个标准差。

那么根据公司的实际业务不同，我们计算实验前中小店铺人均下单量的二倍标准差，求得提升量为30%。

此时我们就能确定二类指标：C类店铺人均下单量上升 30%。

由于在下单推荐页将一部分流量固定分配给中小店铺，那大店铺的流量肯定会受到损失。

那么我们的一类指标就可以确定为：A类店铺人均下单量下降在15%以内（实验前大店铺人均下单量两个标准差以内）

在实际业务中，如果实在无法计算提升量，我们也可以不计算，直接使用双侧检验来检验实验组对于对照组是否有显著变化，再根据实验组与对照组的差值或比值来判断变化方向。

3.1.3 确定统计量

确定指标之后，我们就可以接着确定统计量：

在本例中，我们确定的两类指标都是人均下单量，即均值，所以我们的统计量则为实验组和对照组的均值之差，由此可得到2.3.8补充资料中的均值之差计算公式：
$\bar{x}_1-\bar{x}_2\sim N(\,u_1-\,u_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$

3.1.4 确定原假设与备择假设

我们一般设置我们想要验证的结果为备择假设H1，所以本例中，两类指标的假设如下：

一类指标
- H0 : 对照组大店铺人均下单量 - 实验组大店铺人均下单量 >= 对照组大店铺人均下单量2倍标准差（等号一般放在H0中）
- H1 ：对照组大店铺人均下单量 - 实验组大店铺人均下单量 < 对照组大店铺人均下单量2倍标准差
二类指标
- H0: 实验组中小店铺人均下单量 - 对照组中小店铺人均下单量 <= 30%对照组中小店铺人均下单量
- H1: 实验组中小店铺人均下单量 - 对照组中小店铺人均下单量 > 30%对照组中小店铺人均下单量

3.1.5 样本量计算

在统计学上，我们一般根据统计量抽样分布和边际误差确定样本量。而在业务层面，我们则是以一类错误临界值二类错误临界值计算：

估计总体均值时的样本容量

$n=\frac{(Z_{\alpha/2})\sigma^2}{E^2}$

估计总体比例时的样本容量

$n=\frac{(Z_{\alpha/2})\cdot\pi(1-\pi)}{E^2}$

其中，E²为区间估计算式中的E²

$\bar{x}\pm E^2,其中E^2 =Z_{\alpha/2}*\sqrt{\sigma^2/n}$

Z_α/2 为2.2.6中所说的显著性水平阈值计算公式NORM.INV的值，我们可以将其直接代入公式中

但是，在日常工作中，由于各种实验的策略都不一样，导致实验组和对照组可能服从不同的总体分布，所以我们一般选择两个总体的样本量计算公式，如下面四个公式所示，而非上面的公式：

估计均值之差时的样本量计算公式（双侧）

$A组样本量n_A=kn_B\\B组样本量n_B=(1+\frac{1}{k}) (\sigma\frac{z_{1-\alpha/2}+{z_{1-\beta}}}{\mu_A-\mu_B})^2$

估计比例之差时的样本量计算公式（双侧）

$A组样本量n_A=kn_B\\B组样本量n_B =(\frac{p_A(1-p_A)}{k}+p_B(1-p_B)) (\frac{z_{1-\alpha/2}+{z_{1-\beta}}}{p_A-p_B})^2$

估计均值之差时的样本量计算公式（单侧）

$A组样本量n_A=kn_B\\B组样本量n_B=(\sigma_A^2+\sigma^2_B/k) (\frac{z_{1-\alpha}+{z_{1-\beta}}}{\mu_A-\mu_B})^2$

估计比例之差时的样本量计算公式（单侧）

$A组样本量n_A=kn_B\\B组样本量n_B =(\frac{p_A(1-p_A)}{k}+p_B(1-p_B)) (\frac{z_{1-\alpha}+{z_{1-\beta}}}{p_A-p_B})^2$

求两个总体的方差σ：
- 均值之差：
  $\sigma=\sqrt{\frac{\sigma_A}{n_A}+\frac{\sigma_B}{n_B}}$
比例之差
$\sigma=\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_B}}$

其中：

A组一般为实验组，B组一般为对照组，反过来也同样可以。
k为A组与B组的样本量之比，如果计划AB两组有差异，那我们按照计划AB两组的差异来取值，比如我们就要取A组5万人，B
组1万人，那么k=5；如果没有差异，则一律假设为AB两组个数相同，也就是k=1。
α为显著性水平，一般为0.05，β为二类错误概率，默认为0.2。
σ为标准差，由于计算样本量时一般不知道实验组的σ，我们在这里假定AB组σ相等，然后求出原有群体总体的标准差即可。
Z_1-α : Python公式：stats.norm.ppf（1-α）； EXCEL公式：NORM.INV（1-α,0,1）；
Z_1-β: Python公式：stats.norm.ppf（1-β）； EXCEL公式：NORM.INV（1-α,0,1）；
μ为均值，p为比例（如果是二项式分布值0，1的话，比例等于均值），μ_A-μ_B及P_A-P_B为统计量，即H1，在本例中为实验组和对照组的均值之差。
μA和μB：
- 假如我们H1为实验组比对照组显著大a。也就是：μA - μB > a。那么 μA - μB 在这里就可以假设 = a ；
- 假设我们H1为实验组比对照组显著大。也就是：μA - μB > 0，那我们需要给 μA - μB 一个比较小的值，比如0.01或者0.1，因为"实验组比对照组大0"相当于实验组和对照组一样大，所以我们至少要给他一个值，比如0.01或者0.1。那么这里 μA - μB 就可以假设 = 0.01或者0.1。
pA和pB(也叫πA和πB)：
- 首先我们先求出原来总体的比例P1，将对照组πB带入，也就是πB = P1，之后我们按照H1来求实验组πA；
- 假如我们H1为实验组比对照组显著大a。也就是：πA - πB > a。那么 πA 在这里就可以假设 =πB + a；
- 假设我们H1为实验组比对照组显著大。也就是：πA - πB > 0，那我们需要给 πA - πB 一个比较小的值，比如0.001 或者 0.01（因为是比例差，所以需要比均值差要小），因为"实验组比对照组大0"相当于实验组和对照组一样大，所以我们至少要给他一个值，比如0.001 或者0.01。那么这里 πA 就可以假设 = πB + 0.001 或者 0.01。
如果无目标提升（或减少）量，一般使用双侧检验，如果有明确的提升（减少）量做对比，一般使用单侧检验。

也可以用以下的网站直接生成样本量，无需手动计算：

样本量计算工具：http://powerandsamplesize.com/Calculators/Compare-2-Means/2-Sample-Equality

在本例中，由于我们明确了一类指标的下降阈值和二类指标的上升目标，所以都使用单侧检验。使用均值之差时的样本量计算公式（单侧）计算得到第二类指标的最小样本量为3382.83，第一类指标的最小样本量为1483.21。由于我们平台的日活跃用户为1000万，所以我们给每组分配0.1%的流量，即每组1万人。

3.1.6 检验策略、分组策略选择

在统计学中，检验统计量差异是否显著的方法有T检验、Z检验、卡方检验和F检验。在ABTest中，主要是对样本均值或比例进行检验，所以一般用T检验和Z检验。但是在业务中，一般只使用T检验来检验最终的统计结果与指标的目标是否显著，因为T分布较Z分布多了一个自由度的变量，惩罚小样本，增加其拒绝原假设H0的难度，因而一般采用T检验，优于Z检验。

在本例中，由于我们明确了一类指标的下降阈值和二类指标的上升目标，所以使用单侧独立样本T检验。

我们的分组策略是：

A组：下单推荐页前12个推荐，9个C类店铺商品
B组：下单推荐页前12个推荐，6个C类店铺商品
C组：下单推荐页前12个推荐，3个C类店铺商品
D组：不干预（对照组）

3.2 实验结论分析

3.2.1 统计检验结果

P值就是我们错误拒绝原假设的概率。例如P值为0.01的时候，也就是说我们错误地拒绝原假设的概率只有0.01，那么我们有理由相信原假设原本就是错误的，而非检验错误导致。简而言之，P值越小，越有理由拒绝原假设。

如果对概率P值计算不太清楚的话，可以看2.3.8中的概率中的PDF\PMF\CDF\PPF\ISF函数部分解释，本文内容中出现的所有公式均是基于中心极限定理和正态分布曲线来计算各种概率及标准差等，下面是各种概率函数的解释，看完基本能理解本文公式本后的逻辑。

观测实验结果的第一种方法：

通过统计量及统计量的P值来观测。即我们抽样产生实验组和对照组的统计量（也可以叫统计结果，即μ_A-μ_B及P_A-P_B）在这个用户总体中出现的概率是多少，如果概率P值小于我们的显著性水平α，我们既可以认为这个样本的实验结果对比总体是小概率事件，即不是由于样本随机波动的因素导致的，而是由于实验因素导致的。则可以拒绝原假设，接受我们的备择假设。

不同统计量对应不同的P值计算公式：

右侧检验：H1: μA - μB > a 或者 πA - πB > a ，这时候，检验为右侧检验，拒绝域为右侧。
- 均值之差公式：
  $stats.norm.sf(\bar{x}_A-\bar{x}_B,\mu_A-\mu_B,\sqrt{\frac{S^2_A}{n_A}+\frac{S^2_B}{n_A}})$
  - xbar_A : 抽取的实验组的均值
  - xbar_B : 抽取的对照组的均值
  - μA - μB：H1: μA - μB > a，即a
  - S_A^2：抽取的实验组的方差
  - S_B^2：抽取的对照组的方差
- 比例之差公式：
  $stats.norm.sf(p_A-p_B,\pi_A-\pi_B,\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_A}})$
  - p_A : 抽取的实验组的比例
  - p_B : 抽取的对照组的比例
  - πA - πB：H1: πA - πB > a，即a
  - n_A ：抽取的实验组的样本量
  - n_B ：抽取的对照组的样本量
左侧检验：H1: μA - μB < a 或者 πA - πB < a ，这时候，检验为左侧检验，拒绝域为左侧。
- 均值之差公式：
  $stats.norm.cdf(\bar{x}_A-\bar{x}_B,\mu_A-\mu_B,\sqrt{\frac{S^2_A}{n_A}+\frac{S^2_B}{n_A}})$
- 比例之差公式：
  $stats.norm.sf(p_A-p_B,\pi_A-\pi_B,\sqrt{\frac{p_A(1-p_A)}{n_A}+\frac{p_B(1-p_B)}{n_A}})$
观测实验结果的第二种方法：

通过样本量分布和显著性水平来确定拒绝域和接受域，从而拒绝或者接受结果。见假设检验部分，100次掷硬币实验的显著性阈值为60次正面或反面，只要超出60次则认为是小概率事件，而接受硬币是不均匀的备择假设。

在本例中，我们最后在测试日结束后，计算的值为：

一类指标：（使用观测实验结果的第一种方法）
- A组概率P值为1.0
- B组概率P值为0.0001
- C组测试日样本量未到到最小样本量要求
二类指标人均下单量：（观测实验结果的第二种方法）
- A组0.0064
- B组0.4697
- C组测试日样本量未到到最小样本量要求
- D组0.1318
- 对照组中小店铺人均下单量（所有日期，不是只有测试日）的30%为0.031

3.2.2 业务决策

一般我们根据下图的流程来进行决策：

在本例中，我们的决策为：

一类指标评估：B策略的一类指标下降幅度在两个标准差内，符合要求；
二类指标评估：B策略的二类指标最优，同时上升幅度显著大于30%，符合要求；
决策：考虑推全B策略。
为了避免我们的取的那天数据是一个异常值，可以多用几天的数据来做检验。

3.2.3 AB测试的条件的时候，如何解决问题

没有系统：没有灰度发布系统，无法给不同用户发送不同版本。可以考虑手动进行分组，然后进行线下试验，或者手动给不同用户发送不同的版本；
用户量不够：无法达到最小样本量。可以减少实验条件，或者重新设计实验；如果是统计量比例，可以延长实验周期；如果是小众用户，可以考虑配对样本T检验。
时间成本高：如果是一个月度以上的实验，时间成本太高。可以研究以日为周期或周为周期对月度的影响，然后进行日实验或周实验。

4 总结与拓展

4.1 如何做一个好的ABTest

确定对照组和实验组，最好是做单变量的实验，一次只改变一个变量。
分流时尽量排除混杂因素，一般情况下采用随机分流即可。如果随机分流无法保证样本分布于总体分布一致。建议采用手动的分层随机分流。对比样本与总体用户的属性分布是否一致最常用的属性是地域。
检查流量是否达到最小样本量要求，达不到要求则没法进行后续的分析，实验结果不可信。如果可以扩展试验周期，可以将试验周期从一天扩展到一周或N周，以保证样本量满足要求。如果是多水平实验达不到要求，可以减少水平数。
准确收集用户行为数据，这就要求埋点必须正确。

4.2 关于ABTest的思考

产品改进如同玩扫雷游戏，没人知道真正的方向在哪，ABTest的作用只是提示你周围可能有多少雷，有时候成败也看运气。
灰度发布+ABTest能够有效规避风险，但是过多地依靠数据决策，是在激励我们更好地创新？还是在让我们为数据打工？
ABTest适用于循序渐进的改进；ABTest适用于回答是非题；ABTest容易衡量短期效益，ABTest只能做到局部最优而非全局最优。那么，当我们有一些颠覆性想法时，会不会被ABTest桎梏？如何避免这种情况？

够：无法达到最小样本量。可以减少实验条件，或者重新设计实验；如果是统计量比例，可以延长实验周期；如果是小众用户，可以考虑配对样本T检验。

时间成本高：如果是一个月度以上的实验，时间成本太高。可以研究以日为周期或周为周期对月度的影响，然后进行日实验或周实验。

4 总结与拓展

4.1 如何做一个好的ABTest

确定对照组和实验组，最好是做单变量的实验，一次只改变一个变量。
分流时尽量排除混杂因素，一般情况下采用随机分流即可。如果随机分流无法保证样本分布于总体分布一致。建议采用手动的分层随机分流。对比样本与总体用户的属性分布是否一致最常用的属性是地域。
检查流量是否达到最小样本量要求，达不到要求则没法进行后续的分析，实验结果不可信。如果可以扩展试验周期，可以将试验周期从一天扩展到一周或N周，以保证样本量满足要求。如果是多水平实验达不到要求，可以减少水平数。
准确收集用户行为数据，这就要求埋点必须正确。

4.2 关于ABTest的思考

产品改进如同玩扫雷游戏，没人知道真正的方向在哪，ABTest的作用只是提示你周围可能有多少雷，有时候成败也看运气。
灰度发布+ABTest能够有效规避风险，但是过多地依靠数据决策，是在激励我们更好地创新？还是在让我们为数据打工？
ABTest适用于循序渐进的改进；ABTest适用于回答是非题；ABTest容易衡量短期效益，ABTest只能做到局部最优而非全局最优。那么，当我们有一些颠覆性想法时，会不会被ABTest桎梏？如何避免这种情况？

你可能感兴趣的:(ab测试,概率论)

如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
日记2021-3-8 思考z
今天开课第一天，对于今天的目标完成的还不错早上起床赖了一下，下午去图书馆呆了2个多小时，晚自习看了概率论与统计学，单词：talent天赋，才能，thick厚的，obstacleto对……障碍，introduce介绍，传入，thin瘦的，稀薄的，thorough彻底的，完全的，occurredto想到，invent发明，throat喉咙，ofcourse当然，thunder雷，雷声，tide潮汐，o
PDF和CDF 薛定谔的猫_大雪概率论
在概率论和统计学中，PDF和CDF是两种描述随机变量分布的重要函数：ProbabilityDensityFunction(PDF)：概率密度函数是用来描述连续随机变量可能取值的概率分布的函数。对于一个连续型随机变量X，其PDFf(x)定义为在某个取值x处的概率密度，即X在该值附近出现的概率密度。PDF的积分可以得到概率，即在某个区间内随机变量出现的概率。CumulativeDensityFunct
Python 数学建模——方差分析 Desire.984 Python 数学建模数学建模 python 概率论
文章目录前言单因素方差分析原理核心代码双因素方差分析数学模型分析依据典型代码前言方差分析也是概率论中非常重要的内容，有时数学建模需要用到。方差分析是干什么的？如果说假设检验用于分析两个总体之间的均值μ1,μ2\mu_1,\mu_2μ1,μ2是否存在显著的差别，那么方差分析就是分析两个以上总体之间的均值是否存在显著的差别。单因素方差分析用途：已知一个量AAA可能会影响XXX，AAA的不同取值可能
数据分析面试【概率论与统计学】总结之-----统计学常见面试题整理天阑的芋头 #数据分析—统计学知识数据分析统计学数据分析面试
阅读之前看这里：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。目录1.用简洁的话语阐述随机变量的含义2.划分连续型随机变量和离散型随机变量的依据3.常见的分布函数/概率密度函数，以
感悟文是很容易写的林天歌
生活感悟是很容易写的，只要你生活中稍稍关注一下周围在发生什么，随便什么事情都可以，甚至编一件事都可以，然后为之赋予一个意义。举例子的话，比如说我可以写我的概率论老师，每节课三小时，两小时都是在讲课堂无关的事情，都是在讲一些她以为的人生道理，却不知道因为她讲得太多，加上她使用互联网的能力不足，她讲得已经完全不能触动到学生的神经，反倒还促进了一些学生的逃课。这就是典型的以己度人，她以为她在分享自己认为
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
机械学习—零基础学习日志（概率论总笔记5）学长小陈来帮你学习笔记概率论算法深度学习机器学习
引言——“黑天鹅”要获得95%以上置信度的统计结果，需要被统计的对象出现上千次，但是如果整个样本只有几千字，被统计的对象能出现几次就不错了。这样得到的数据可能和真实的概率相差很远。怎么避免“黑天鹅”？古德-图灵折扣估计法在词语统计中，有点词语虽然是出现0次，但是实际的出现概率并不是永远不可能的零。那需要把一些概率转移给到这些词语。古德的做法实际上就是把出现1次的单词的总量，给了出现0次的，出现2次
Python 数学建模——假设检验 Desire.984 Python 数学建模 python 数学建模概率论
文章目录前言参数假设检验单个总体均值的假设检验σ\sigmaσ已知σ\sigmaσ未知两个总体均值的假设检验参考代码非参数假设检验分布拟合检验——卡方检验KS检验（Kolmogorov-Smirnov检验）Wilcoxon检验Wilcoxon符号秩检验Wilcoxon秩和检验前言假设检验是概率论中相当重要的内容。一般是先提出一个原假设H0H_0H0和一个对立的备择假设H1H_1H1，通过数学方
非理工科院校怎么打好数学建模比赛 | 南川笔记南川笔记
Proposition1非理工科院校最好不要打数学建模比赛。虽说“一次建模，终身受益”，但毕竟数学建模既要数学理论的支撑（不仅仅是大学里的微积分、线性代数和概率论与统计，更多的是基于微积分的常偏微分方程、基于线性代数的运筹学和基于概率论与统计的统计分析内容），还要编程的支撑（不是常规的C语言或者Java程序，也不是这几年很火的Python编程，而是基于数值运算的Matlab和基于统计的R），这在一
Python的图形化界面编程 iteye_20668 Python python
2017.2.14好久没有写代码了，感觉过一个年弄的什么也没有干成，好像看了下c++,突然发现现在来看C++,要简单了好多，并且指针也没有那么难了，然后就是看了下机器学习，感觉有点小难，现在发现好多都涉及到高数，概率论和线性代数的知识，想想当初把这些学的是一塌糊涂。然后上次和胡杨大大聊天的时候，他说好多东西都是在实践中去学习的。好了，继续我的Python吧，Python的图形化界面编程。impor
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
【概率论】理解贝叶斯（Bayes）公式：为什么疾病检测呈阳性，得这种病的概率却不高？ seh_sjlj 概率论概率论学习数学经验分享
先说结论：因为假阳性的人数相比于真阳性太多了。具体是怎么回事呢？咱们慢慢分析。文章目录一、贝叶斯公式二、典例分析三、贝叶斯公式的本质思考（摘自教材）一、贝叶斯公式定理1（贝叶斯公式）设有事件A,BA,BA,B，P(A)>0P(A)>0P(A)>0，P(B)>0P(B)>0P(B)>0，则P(B∣A)=P(B)P(A∣B)P(A)P(B|A)=\frac{P(B)P(A|B)}{P(A)}P(B∣A
愚者才悲观｜每日复盘D32 _李子昂
我是李子昂，一个热爱生活、积极向上的“人生梦想家”。爱阅读、记录生活，这是我的第三十二天复盘❤2019.12.1232/3651.感恩创造的不可思议的今天早起一件事：打卡✔（每天比昨天早起两分钟）早读任务：第一课，课文两段✔马原第一章大题背诵✘古诗词一首✘三只青蛙:阅读一小时✔概率论前三章✘图片发自App2.今日小确幸感恩YCX送我的奶茶，紫薯和冬天很配❤感恩早上的挣扎顺利的早起了两分钟，明天加油
【晨间日记】 2020年9月23日语瞳SAMA
2020年9月23日天气：小雨【90天践行目标】（108/120）①5：30早起②22：30早睡③写晨间日记【昨日践行】①5：41起床②22：29入睡③晨间日记已达成【今日青蛙】①完成概率论和离散数学作业②午间冥想③洗衣服*昨日三只青蛙已达成【反思日志】①早晨听这门Java课，真的有种“虽然是使用中文教学，但是上起来却和外语课一样”的感觉，好多未知的术语糅杂在一起，整堂课听着就跟猜谜似的，太离谱了
2.1概率统计的世界极客探索者量化交易概率论
欢迎来到概率统计的世界！在量化交易中，概率统计是至关重要的工具。通过理解概率，我们可以用数学的方法来描述市场行为，预测未来走势，并制定交易策略。让我们一起从基础概念开始，逐步深入，揭开概率统计的神秘面纱。1.1概率论的基本概念与应用概率是用来描述某个事件发生可能性的数值。例如，丢一枚硬币，正面朝上的概率是50%。这个概率可以用数学公式表示为：在量化交易中，我们常常需要计算各种事件的概率，例如股票价
Matlab实现多传感器信息融合（D-S证据推论）冬天都会过去
D-S证据理论是对贝叶斯推理方法推广，主要是利用概率论中贝叶斯条件概率来进行的，贝叶斯条件概率需要知道先验概率。而D-S证据理论不需要知道先验概率，能够很好地表示“不确定”，被广泛用来处理不确定数据。（对来自多传感器数据的融合处理）适用于：信息融合、专家系统、情报分析、法律案件分析、多属性决策分析1、D-S证据理论知识介绍（1）四大定义基本概率分配、信任函数、似然函数、信任区间其中，函数m为识别框
概率论中的卷积公式 Ctrl+CV九段手概率论卷积公式卷积神经网络概率论概率论与数理统计笔记经验分享
目录简介卷积公式的推导与应用实际例子卷积公式在多维情况下的推导和应用是什么？多维卷积的推导多维卷积的应用延伸拓展如何使用卷积公式解决实际问题，例如信号处理中的噪声消除？在统计学中，卷积公式是如何应用于样本量估计和假设检验的？卷积公式在量子力学中的应用有哪些例子？如何证明卷积公式对于独立随机变量之和的概率密度函数的重要性？简介在概率论中，卷积公式是用于计算两个独立随机变量之和的概率密度函数的重要工具
亦菲喊你来学机器学习（14） --贝叶斯算法方世恩机器学习算法人工智能 python scikit-learn
文章目录贝叶斯一、贝叶斯定理二、贝叶斯算法的核心概念三、贝叶斯算法的优点与局限优点：局限：四、构建模型训练模型测试模型总结贝叶斯贝叶斯算法（Bayesianalgorithm）是一种基于贝叶斯定理的机器学习方法，主要用于估计模型参数和进行概率推断。以下是对贝叶斯算法的详细解析：一、贝叶斯定理贝叶斯定理是概率论中的一个基本定理，它描述了条件概率之间的关系。该定理的数学表达式为：P(A∣B)=P(B)
AI大模型副业变现之路，有技术就有收入！ AI大模型-王哥人工智能 AI大模型大模型大模型学习大模型教程大模型入门
在当今时代，AI大模型的应用越来越广泛，利用这些技术开展副业赚钱已成为可能。以下是一份详细的指南，帮助你了解需要学习的内容以及如何操作。一、需要学习的内容基础知识储备（1）数学知识：线性代数、概率论与数理统计、微积分等，这些是理解AI算法的基础。（2）编程技能：掌握Python编程语言，因为Python在AI领域有丰富的库和框架支持。（3）机器学习原理：了解常见的机器学习算法，如线性回归、决策树、
小琳 AI 课堂：机器学习小琳ai 小琳AI课堂人工智能机器学习
嘿，朋友们！欢迎来到小琳AI课堂机器学习：如同让计算机拥有超能力的神奇魔法机器学习，这门超酷的多领域交叉学科，居然融合了概率论、统计学、逼近论、凸分析、算法复杂度理论等等好多学科。它的关键就在于让计算机凭借数据和算法去学习，然后像个小超人似的，拥有预测和决策的超强能力！从技术实现的层面来讲，主要分成监督学习、无监督学习和强化学习这三大类别监督学习：在有标记的数据集上展开学习。打个比方哈，根据已知的
计算机保研/考研面试题——数学篇安晴晚风计算机保研/考研专业课面试考研面试
笔者在2023年参加了部分985和华五计算机夏令营和预推免面试，遇到了不少数学问题，以下是笔者的一些总结，从高数、线代、概率论三个方面讨论。（对保研er和考研er均适用，如需要其他学科的问题请关注我~）相关文章：计算机保研/考研面试题——数据结构与算法篇-CSDN博客计算机保研/考研面试题——操作系统篇-CSDN博客计算机保研/考研面试题——计算机网络篇-CSDN博客计算机保研/考研面试题——编程
中心极限定理不倒的不倒翁先森概率论
中心极限定理（CentralLimitTheorem，CLT）是概率论中的一个重要定理，它说明了在某些条件下，独立随机变量的和（或平均值）趋向于正态分布的性质。具体来说，中心极限定理可以描述为：定理表述：设(X1,X2,…,Xn)(X_1,X_2,\dots,X_n)(X1,X2,…,Xn)是一组相互独立、服从相同分布的随机变量，其数学期望为μ\muμ，方差为σ2\sigma^2σ2（有限且不为零
实例讲解什么是A/B test以及如何操作分析 biobin 商业统计学习 python 教育电商
大致流程在商业活动中，AB测试（A/BTest）常用于优化产品、营销活动和用户体验。AB测试的基本原理是通过将用户随机分配到不同的测试组（如A组和B组），然后对比不同方案的效果，选择最优方案。下面是一个具体的AB测试流程和实例：1.确定测试目标首先，明确AB测试的目标。例如，在电商平台上，目标可能是提升某一商品的购买转化率或增加点击率。实例目标：优化网站主页的设计，以提高用户点击“立即购买”按钮的
2019-03-20记录及学习计划更正逆风飞翔的鸟
今天早晨早早的就坐上了返回学校的高铁，自己复习的进度稍慢了一些，不过没关系，这几天再追回来，最近发现虽然自己数学的做题能力有所提升，但是熟练程度还差很多，所以接下来高等数学要多做题，线性代数基础已经复习完毕，不能丢下，每天要做一定量的练习来保持住自己的水平。概率论与数理统计自己感觉有些困难，需要从课本开始认真的复习。关于英语我已经用百词斩背了有400左右的单词了，但是不是很扎实，所以自己要提升自己
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
【个人学习笔记】概率论与数理统计知识梳理【五】已经是全速前进了概率论
文章目录第五章、大数定律及中心极限定理一、大数定律1.1基本概念1.2弱大数定理二、中心极限定理独立同分布的中心极限定理定理总结第五章、大数定律及中心极限定理写博客比想象中费劲得多，公式得敲好久，所以只得随缘更更了，想写一些机器学习相关的东西，但是强迫症又不允许我把这个扔掉不管，我太难了Orz这一节的内容比较深，即使我是一个喜欢数学的工科生，也没有精力再去深究了，各式各样的大数定律及中心极限定理我
机器学习笔记 rl染离机器学习笔记人工智能
什么是机器学习：机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。机器学习有下面几种定义：（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。（2）机器学习是对能通过经验自动改进的计算机算法的研究。（3）
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。