区间估计

这里的场景是:给出一组数据,估计一个区间,使得区间内的数据大致成均匀分布,并且保证区间内的数据能够包含总体的大部分数据。
(统计学中“区间估计”指的是,用来描述根据样本求得的值与总体真实值之间的误差)

一、工具

  1. Python:
    pandas包:画图、数据分析比Java更有优势

  2. Java:
    Range类:生成一个区间范围,方便判断数据是否在区间内;
    Predicate类;
    lambda表达式
    二、应用场景
    假设有一组无规律数据X[x1,x2,x3,x4,x5,x6,…],需要估算它的有效区间范围[a,b],可以保证大部分数据都落在a,b范围内容。
    三、计算方法

    1. 排序,从小到大;
    2. 取1/4处的值,假设为x;
    3. 取3/4处的值,假设为y;
    4. a=x-1.5*(y-x);
    5. b=y+1.5*(y-x);

四、原理
和箱线图绘制的原理相似,找到数据的四分位数。
如果用一组数据画一个柱状图,对于横坐标的选择,第一反应是用数据的最小值作为起点,数据的最大值作为终点(刻度)。但是这里有个问题:如果数据分布不均匀(标准差很大),比如100个值中最小值为1,最大值为1000,但其他值都小于5,那么画出来的图就很不“美观”。最好的办法是找到一个区间,可以包含大部分的数据,找四分位数是一种相对简单的方法,这是一种从经验中得来的方法,但大部分情况下都很有用。

你可能感兴趣的:(统计学,算法,有效区间,柱状图,java)