产险精算GLM案例2

这是北美产险精算学会CAS网站上的一个案例,对案例略作修改后进行验证。

原始数据是一个简单的分组数据:

Class AOI Terr Exposure Claims
1 Low 1 7 6
2 Medium 1 108 44
3 High 1 179 105
4 Low 2 130 62
5 Medium 2 126 82
6 High 2 129 120
7 Low 3 143 84
8 Medium 3 126 101
9 High 3 40 46

(1)采用泊松分布拟合出险频率带有权重参数的结果如下:

产险精算GLM案例2_第1张图片

产险精算GLM案例2_第2张图片

 从拟合优度指标来看,模型的整体拟合效果和参数的显著性都还可以。

从拟合结果来看,除了第1组之外,其它组的拟合值还算不错。第1组的拟合值与观测值的差别较大,主要是因为第1组的风险数量太少,可能会有很大的不稳定性造成的。

(2)如果采用泊松分布拟合出险频率、但是不带有权重参数,那么模型的结果如下:

产险精算GLM案例2_第3张图片

产险精算GLM案例2_第4张图片

 可以看到,如果不带有权重,模型的整体拟合效果很差,伪R方只有0.03232,比前面的0.9940相差很大。而且,各个参数的显著性检验都没有通过。从拟合结果来看,各个组的拟合值与观测值也差别很大。

从这个案例可以看到,模型含有权重是非常重要的。

(3)建模时必须对2个分组特征采用分类变量的形式,尽管原始数据地区特征看似数值型。如果直接用数值型的分组特征做建模,那么模型的结果如下:

产险精算GLM案例2_第5张图片

产险精算GLM案例2_第6张图片

从模型的拟合优度指标来看,其实指标值都还不错,伪R方高达0.9926。但是,从拟合值与观测值的差距来看, 拟合结果与第一个模型结果相比,差距大了一些。

从这个案例可以看到,模型对分类特征采用分类变量进行建模是非常必要的。

(精算部落)

 

你可能感兴趣的:(python,人工智能,算法)