保险公司为了赚钱,需要募集比花费在受益者的医疗服务上更多的年度保费,因此,保险公司投入了大量的时间和金钱来研发能精确预测医疗费用的模型。
医疗费用很难估计,因为花费最高的情况是罕见的而且似乎是随机的。但是有些情况对于特定的群体还是比较普遍存在的。例如,吸烟者比不吸烟者得肺癌的可能性更大,肥胖的人更有可能得心脏病。
假设我们是保险公司的数据分析人员,现在我们拥有部分投保人的医疗费用数据insurance.csv(实际上这是基于美国人口普查局(U.S.Census Bureau)的人口统计资料整理得出的,包含1338个案例,即目前已经登记过的保险计划受益者以及表示病人特点和历年计划计入的总的医疗费用的特征)。这些特征的说明如下:
实战演练
现在已经对insurance.csv中的名义型特征进行了One-Hot编码,得到了数据变量insurance
请使用自定义的多元回归函数linearRegression得到回归模型参数和预测值y_pred
自定义决定系数函数r2_Score(为了与sklearn中的r2_score的名称有所区别),只保留小数点后两位,并计算实际模型的决定系数结果score
比较使用sklearn进行模型训练和模型评价与使用自定义函数进行模型训练和模型评价的结果
import numpy as np
import numpy