描述性统计分析的应用——基于描述性统计分析识别优质股票

内容导入:

大家好,这里是每天分析一点点。上期给大家介绍离散趋势,本期介绍描述性统计分析的基本原理与应用,包括集中趋势、离散趋势、偏度与峰度的概念,再结合投资选股案例分析,讨论优质股鉴别方法,根据描述性统计指标计算结果解释原因。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍正态分布的应用,欢迎大家关注。

概念介绍:

描述性统计分析的概念:

描述性统计,即概括性度量。是用来概括、表述整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型 (波动性大小)。

数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。

数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。

数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。

数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。

描述性统计分析的指标:

分类变量的常用描述指标:

1、频数:在一组以大小顺序排列的测量值中,当按一定的组距将其分组时出现在各组内的测量值的数目,分类变量的频数即落在各类别中的数据个数。

2、累计频数:累积频数就是将各类别的频数逐级累加起来。

3、百分比:表示一个数是另一个数的百分之几,也叫百分率或百分数。百分比通常采用符号“%”(百分号)来表示。

4、累积百分比:累积百分比就是将各类别的百分比逐级累加起来。

连续变量的描述分析:1、绝对数。

2、相对数:倍数、成数、百分数。

3、百分比。

4、百分点:1个百分点=1%,是指变动的幅度。

5、频数:绝对数,是一组数据中个别数据重复出现的次数。

6、频率:相对数,次数与总次数的比。

7、比例:相对数,总体中各部分占全部的比,如:男生的比例是30:50。

8、比率:相对数,不同类别的比,如男女比率是3:2。

9、倍数:相对数,一个数除以另一个数所得的商,如A/B=C,那么A是B的C倍。

10、番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍。

11、同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比。

12、环比:相对数,指与前一个统计期进行比较,如今年5月与今年4月相比是环比。

描述集中趋势的指标:

1、均值。数据和值除以数据个数。

2、中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。

3、众数:数据中出现次数最多的数字,即频数最大的数值。

描述离散趋势的指标:

1、极差:极差=最大值-最小值,是描述数据分散程度的量,且对异常值敏感。

2、四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数。

3、方差和标准差。方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。

4、标准分z:对数据进行标准化处理,又叫Z标准化,经过Z标准化处理后的数据符合正态分布。

描述分布形状的指标:

1、峰度:用来反映频数分布曲线顶端尖峭或扁平程度的指标。在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便),峰度系数>3,呈现尖峭峰形态,说明观察量更集中,有比正态分布更短的尾部;峰度系数<3,呈现平阔峰形态,说明观测量不那么集中,有比正态分布更长的尾部。

2、偏度:描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0。当偏度系数大于0时,即重尾在右侧时,该分布为右偏。当偏度系数小于0时,即重尾在左侧时,该分布左偏。

综合应用场景:

风险投资案例

# 目前你有500万资金,准备进行投资,已知有三只股票,

# 10位专家分别给出了明天的价格预测:

# A股票,现在10元每股,专家的价格预测序列为:dataA=[11,9,11,11,13,8,14,1,11,11]

# B股票,现在20元每股,专家的价格预测序列为:dataB=[28,16,20,94,22,24,26,18,17,27]

# C股票,现在50元每股,专家的价格预测序列为:dataC=[53,59,47,48,58,53,1,128,53,53]

# 你准备现在买股票,明天卖出去,你会选择那只股票,为什么?

从数据上看,某些专家的预测结果好像不合群,怎么看这些不合群的想法?

题目看似简单,实则包含套路,不同价格的股票,能买进的数量是不一致的,怎么办呢?

处理方式非常多:

1、将股票价格“统一”,全部统一为50元或者10元,购买的股票数就是一致的。

2、求出利润率=(股价-股本)/股本,相对值就可以一致处理。

3、按照当前价格进行计算,处理计算结果。

代码计算过程:

案例选用第三种方式处理,按照当前价格计算后,在对利润里进行处理。

处理过程如下:

步骤1 股票数据录入录入三支股票预测数据,转化为series数据格式

import pandas as p

A股票:

dataA=[11,9,11,11,13,8,14,1,11,11]

A=pd.Series(dataA)

B股票:

dataB=[28,16,20,94,22,24,26,18,17,27]

B=pd.Series(dataB)

C股票:

dataC=[53,59,47,48,58,53,1,128,53,53]

C=pd.Series(dataC)

步骤2 剔除异常估计

A股票:dataA=[11,9,11,11,13,8,14,1,11,11]

A=A.drop(index=7)

#剔除估计中的极小值1

B股票:dataB=[28,16,20,94,22,24,26,18,17,27]

B=B.drop(index=3)

#剔除估计中的极大值94

C股票:dataC=[53,59,47,48,58,53,1,128,53,53]

C=C.drop(index=[6,7])

#剔除估计中的极大值与极小值1与128

步骤3 计算收入期望

A股票:A=[11,9,11,11,13,8,14,11,11]

a_mean=A.mean()

print('a_mean')

print(a_mean)

B股票:B=[28,16,20,22,24,26,18,17,27]

b_mean=B.mean()

print('b_mean')

print(b_mean)

C股票:C=[53,59,47,48,58,53,53,53]

c_mean=C.mean()

print('c_mean')

print(c_mean)

步骤4 计算收入波动

A股票:A=[11,9,11,11,13,8,14,11,11]

a_std=A.std()

print('a_std')

print(a_std)

B股票:B=[28,16,20,22,24,26,18,17,27]

b_std=B.std()

print('b_std')

print(b_std)

C股票:C=[53,59,47,48,58,53,53,53]

c_std=C.std()

print('c_std')

print(c_std)

步骤5 计算离散系数

A股票:A=[11,9,11,11,13,8,14,11,11]

print('a_lisanxishu')

print(a_std/a_mean)

B股票:B=[28,16,20,22,24,26,18,17,27]

print('b_lisanxishu')

print(b_std/b_mean)

C股票:C=[53,59,47,48,58,53,53,53]

print('c_lisanxishu')

print(c_std/c_mean)

通过计算,得出的描述性统计分析结果入下表所示:

从利润率来看,A股票和B股票利润率都是10%,大于C股票的6%。从风险来看,离散系数,C股票小于A股票小于B股票。

对于期待高收益、能接受较高风险的投资者来说,应该选择A股票,因为它收益最高,在收益高中的股票中,风险较小。

对于保守的股民来说,应该选择C股票,虽然收益相对较低,但是安全性好。对于中等偏下风险的股民来说,可以选择A股票与C股票的组合策略,既提高了收益,也相对降低了风险。具体如何配比,要看股民能够承受的风险与期待的利润。这就是风险分散的魅力。

最后,这个案例不存在选择B股票的策略,因为他能够被A股票替代。选B股票的人,有什么理由不选A股票呢。

大家好,我们准备了5支股票的选股策略,大家可关注我们的公众号获取视频资源,到公众号的视频看看吧。

本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。

有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

你可能感兴趣的:(描述性统计分析的应用——基于描述性统计分析识别优质股票)