相关性判断

1场景:一个提问推荐回答的场景,理论上提问推荐的约准确,回答者回答的可能性就越大,回答量就越多

2衡量指标:关注的指标是回答率,即 回答量/推荐次数

3问题:需要验证回答率和哪些指标和特征相关,从而指导我们提升回答率,相关特征有:请求用户,总推送数,回答用户数,回答数,回答用户比例等

4解决方案:相关性判断

连续特征用皮尔逊相关系数 corr ,  二类离散也可以用皮尔逊  , 多类离散的也可以用皮尔逊 但会有失真,要用熵或者 互信息

5皮尔逊相关系数实例子

python代码比较简单 如图

主要就是导入数据,每一列是一个相关的特征,每列特征都是连续的,主要相关性的函数就是df.corr(),可以产出相关性矩阵,其中结果越趋近于1越正相关,越趋近于0越不相关,越趋近于-1越负相关,同时我们还可以用热力图来清晰的呈现各列特征的相关性,函数是sns.heatmap(),通过相关性矩阵和热力图可以看出,回答率(reply rate)与请求用户数(红色)和推送数(红色)的相关性比较弱

python相关性实现
相关性矩阵


热力图

你可能感兴趣的:(相关性判断)