数据采样

1.数据采样类型

(1)有放回的采样:每次随机取一球后,将球又放回袋中,摇匀后,再取一球;

(2)无放回的采样:每次取一个球后并不放回袋中,下一次从剩余的球中再取一个。

2.变量关系

(1)关联associated(dependent):正相关和负相关

(2)独立independent:A,B是两事件,如果满足等式设A,B是两事件 如果满足等式P(AB)=P(A)P(B),则称事件A B相互独立。

3.采样方法

以下例作为说明:某种成品零件分装在20个零件箱中,每箱各装50个,总共是1000个 如果想从中取100个零件作为样本来进行研究。

(1)简单随机采样:将这20个箱子混合在一起,均匀混合,并将球从1-1000进行编号,然后用查随机表或抽签的方式的从零件堆中无放回的抽取100个作为抽样样本。

优点:操作简单,相应的标准误差计算简单。

缺点:总体过大,难编号。

(2)分层采样:从每箱中随机抽取5个零件,这样共20×5=100个样本。

定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。应用分层采样时,要求层间的差异要大,层内的差异要小。

各层样本数的确定方法:

1.1比例分配:各层样本数与该层总体单元数的比值相等。

1.2最优分配:

1.3奈曼分配:各层应抽样本数与该层总体数及其标准差的积成正比。

优点:实施操作很方便;能够较大程度地避免样本结构与总体结构严重失真情形发生;在对总体参数进行估计的同时,还能对各层目标量进行估计。

(3)整群采样:先从20个箱子中随机抽取2箱,这2箱零件组成样本。

定义:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

优点:实施方便,节省经费;

缺点:往往由于不同群间的差异很大,导致采样误差大于简单随机采样误差。

(4)系统采样:将这20个箱子均匀混合在一起,对零件进行编号1-1000,将编号根据要取的样本数分成几个区间,然后用查随机表或抽签的方式在第一个区间选择一个数字,然后根据制定的规则,比如依次加上间隔数来抽取相应的球,构成最终样本。

优点:易于理解,容易操作;

缺点:单元的排列有周期或增减趋势时,易产生偏差。

4.采样实验设计

4.1Fisher实验原则

(1)重复原则:利用重复观测减小试验误差,提高试验精度;

(2)随机化原则:目的是消除或减小认为因素引起的系统误差的影响;

(3)局部控制原则:指的是把比较的水平设置在差异较小的区组内,其目的也是消除或减小试验中系统误差的影响。

4.2正交实验设计

(1)定义:使用一种规范化的表格(正交表)来进行实验设计,利用最少的实验次数来取得较为准确/可靠的优选结论。其基础是正交表。

(2)用处:确定各因素对实验指标的影响规律,了解哪些因素是主要的/次要的,以及哪些因素间相互影响;确定一个因素间的水平组合作为最佳生产条件。

(3)正交表

  • 矩阵A的任意两列中,由两列中的对应元素所构成的数字对是完全对,且每对出现的次数完全相同,则称A为正交表。
  • 正交表中任意列中各水平重复出现的次数相等;
  • 正交表经过列间置换/行间置换/水平置换后仍是正交表,且和之前的是等价的。
  • 正交表定义
  • 数据采样_第1张图片

(4)正交实验的特性

  • 均衡搭配-正交性:可以用较少的试验次数替代全部可能试验组合中好的/中等的/不好的搭配组合,使选出的较少哦啊的搭配组合具有均衡的代表性;
  • 综合可比-数据分析的依据:把复杂的多因素试验数据处理问题转化成单因素试验数据处理;通过试验数据的适当组合,可发现各组试验数据以及各因素影响间的某种可比性。

4.3均匀实验设计

5.样本统计推断

(1)p-value:在检验问题中,p值反映的是样本数据支持元假设的证据,p值越大,证据越强。p值反映的是当元假设为真时,所得到的样本观察结果出现的概率。

(2)区间估计:在一定概率保证下指出总体参数的可能范围,所给出的可能范围叫置信区间。





你可能感兴趣的:(数据,数据采样)